About metrics for measuring agreement on regression on continuous datasets:
Reasons to avoid R² and use RMSE instead: https://feat.engineering/03-Review_of_the_Modeling_Process.html#sec-reg-metrics

From Max Kuhn @topepo, Kjell Johnson (2026), "Feature Engineering and Selection: A Practical Approach for Predictive Models"

#prediction #dataDev #modelEvaluation #regression #modelling #linearRegression #modeling #probability #probabilities #statistics #stats #gotcha

3  A Review of the Predictive Modeling Process – Feature Engineering and Selection: A Practical Approach for Predictive Models

Cursor (@cursor_ai)

에이전트형(agentic) 코딩 과제에서 모델을 평가하는 새로운 점수화 방법을 공개했습니다. 이 방법으로 Cursor 내 여러 모델의 지능(intelligence)과 효율성(efficiency)을 비교한 결과를 공유한다고 알리며, 코딩 에이전트 성능 평가에 대한 새로운 벤치마크 또는 메트릭 제안을 포함합니다.

https://x.com/cursor_ai/status/2032148125448610145

#cursor #modelevaluation #agenticcoding #aicoding

Cursor (@cursor_ai) on X

We're sharing a new method for scoring models on agentic coding tasks. Here's how models in Cursor compare on intelligence and efficiency:

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

Grok 4.20 베타가 세 가지 주요 개선을 도입했다고 발표했습니다. 특히 AA-Omniscience 평가에서 역대 최저 환각률을 기록했으며, 모델이 정답을 모를 때 잘못된 답을 제시한 비율이 22%에 불과하다고 보고합니다. 전반적으로 응답 정확도와 안정성이 크게 향상되었다는 내용의 모델 업데이트 공지입니다.

https://x.com/ArtificialAnlys/status/2032190330783875147

#grok #llm #modelevaluation #hallucination

Artificial Analysis (@ArtificialAnlys) on X

The Grok 4.20 Beta shows three major improvements over Grok 4: ➤ Our lowest ever hallucination rate on the AA-Omniscience evaluation. When Grok did not know the answer, it hallucinated an incorrect answer 22% of the time - this is the lowest hallucination rate of any model we

X (formerly Twitter)

swyx (@swyx)

“Build a company that benefits from the models getting better and better”라는 @sama 인용과 함께, 작성자는 Devin(문구상 'devin brain')이 수십 개의 modelgroups를 사용해 각 모델을 광범위하게 평가해 하니스(harness)에 포함시키고 몇 달마다 완전 리라이트를 한다고 전함. 커뮤니티에서 'devin is good now'라는 긍정적 피드백이 많이 들린다는 관찰을 공유함.

https://x.com/swyx/status/2030853776136139109

#samaltman #modelevaluation #mlops #llm

swyx (@swyx) on X

"Build a company that benefits from the models getting better and better" — @sama devin brain uses a couple dozen modelgroups and extensively evals every model for inclusion in the harness, doing a complete rewrite every few months. hearing a lot of "devin is good now" feedback

X (formerly Twitter)

MRLN (@mrlnonai)

모델이나 시스템이 SVG 출력 등 특정 벤치마크에서 성능을 과대 포장('benchmaxxed')하고 훈련비용을 단 1000만 달러라고 주장하는 사례에 대한 비판적 코멘트입니다. 실제로는 그래픽카드 등 장비 인수 비용이 포함되지 않고 에너지비만 계산되는 등 비용 산정의 왜곡 가능성을 지적하고, 사용 시 추론 토큰이 많아진다는 주장을 담고 있습니다.

https://x.com/mrlnonai/status/2027891857942831218

#benchmarking #trainingcosts #modelevaluation #svg #ml

MRLN (@mrlnonai) on X

@kimmonismus and it will be benchmaxxed on svg outputs and other benchmarks and then claim ONLY 10 MILLION dollar used for training even though they acquired for all money they got the graphics cards and they only pay energy costs. and then if you use it you have reasoning tokens like hell

X (formerly Twitter)

Deeban R, PhD (@Deeban)

Anthropic가 배포된 모델들에 대해 자체적으로 'sabotage evaluations'(사보타주 평가)를 수행하고 결과를 공개했습니다. 주요 발견은 '미래의 치명적 결과에 크게 기여할 수 있는 잘못 정렬된 자율적 행동의 위험은 매우 낮지만 완전히 무시할 수는 없다'는 점입니다. 이는 AI 안전성 관점의 중요한 평가 결과입니다.

https://x.com/Deeban/status/2027329314577125596

#anthropic #aisafety #modelevaluation #sabotageevaluation

Deeban R, PhD (@Deeban) on X

Worth recalling: @AnthropicAI ran sabotage evaluations on their own deployed models and published the results. The finding: "Very low, but not completely negligible, risk of misaligned autonomous actions that contribute significantly to later catastrophic outcomes." First

X (formerly Twitter)

Anthropic (@AnthropicAI)

연구의 핵심 교훈은 자율성은 모델, 사용자, 제품이 함께 구성하는 것이며 사전 배포 평가만으로는 완전하게 규정할 수 없다는 점입니다. 블로그에 개발자와 정책입안자에 대한 권고사항과 상세 내용이 제공된다고 알립니다.

https://x.com/AnthropicAI/status/2024210056871629072

#autonomy #modelevaluation #aisafety #policy

Anthropic (@AnthropicAI) on X

A central lesson of this work is that autonomy is co-constructed by the model, user, and product. It can't be fully characterized by pre-deployment evaluations alone. For full details, and our recommendations to developers and policymakers, see the blog: https://t.co/CllNkMF4ZZ

X (formerly Twitter)

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

Sonnet 사용 중 드러난 단점: 조사 결과의 출처를 요약해 가져오다 보니 미묘한 뉘앙스가 부정확해지는 경우가 있음. 추가로 강하게 추궁하면 뉘앙스 차이가 드러나고, 사용자의 의견에 쉽게 맞춰 답변을 바꾸는 '의지의 약함' 같은 특성이 보인다는 관찰.

https://x.com/kiyoshi_shin/status/2024094719354012125

#sonnet #llm #ai #modelevaluation

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

悪いところもわかってきた。調査先をサマリーを持ってくるのでニュアンスが不正確になることがある。さらにしつこく突っ込むとニュアンス違いを明らかにする。というか、すぐ意見をこちらに合わせて変節する。この辺の意思の弱さはSonnetらしい。

X (formerly Twitter)

Prediction Arena (@predictionbench)

Zai_org의 모델 GLM 4.7이 최근 유가(가스) 예측에서 큰 손실을 기록했고, predictionarena.ai에서 해당 손실과 모델의 회복 여부를 추적할 수 있다는 알림성 트윗입니다. 모델 평가·경쟁 플랫폼에서의 실시간 성능 변동 사례로 유의미합니다.

https://x.com/predictionbench/status/2023538132923412945

#glm #forecasting #prediction #modelevaluation

Prediction Arena (@predictionbench) on X

GLM 4.7 by @Zai_org saw its biggest loss ever today from an inaccurate prediction on last week's gas prices 😱 Follow along on https://t.co/8hPIo4i8iu to see if it can recover

X (formerly Twitter)