Armin Ronacher ⇌ (@mitsuhiko)

훈련 변경을 작게 하면 'slop creep' 문제를 줄일 수 있다는 실험적 관찰을 공유한 트윗입니다. 저자는 더 의식적으로 작은 규모의 변경을 시도했고, 그 결과 Opus와 Codex의 동작 차이가 거의 없어졌다고 보고합니다. 모델 미세조정·변경의 영향에 대한 실무적 인사이트입니다.

https://x.com/mitsuhiko/status/2033283473339765055

#codex #opus #modelbehavior #aitraining #experimentation

Armin Ronacher ⇌ (@mitsuhiko) on X

In an attempt to fight "slop creep" (thanks @boristane for the term) I tried more conscious smaller scale changes today. The main learning from that: if the changes are sufficiently small, there is little to no difference between how Opus and Codex behave.

X (formerly Twitter)

Matt Shumer (@mattshumer_)

사용자가 GPT-5.4의 성능이 갑자기 떨어진 것 같다고 불만을 제기한 관찰성 트윗입니다. 공식 업데이트 언급은 없지만 모델 동작 변화나 회귀 가능성을 시사해 개발자·운영자에게 주목할 만한 사용자 피드백입니다.

https://x.com/mattshumer_/status/2032565608290615308

#gpt5.4 #gpt #llm #modelbehavior

Matt Shumer (@mattshumer_) on X

Hate to be this guy, but is anyone else finding that GPT-5.4 feels noticeably dumber today?

X (formerly Twitter)

fly51fly (@fly51fly)

2026년 논문 'Reasoning Models Struggle to Control their Chains of Thought'는 추론 모델들이 자신의 체인오브소트(Chain of Thought)를 제어하는 데 어려움을 보인다는 분석을 제시한다. C Yueh-Han, R McCarthy, B W. Lee, H He 등(NYU·UCL·OpenAI 소속)이 공동저자로 arXiv에 공개됨.

https://x.com/fly51fly/status/2031126438292894184

#reasoning #chainofthought #airesearch #modelbehavior

fly51fly (@fly51fly) on X

[AI] Reasoning Models Struggle to Control their Chains of Thought C Yueh-Han, R McCarthy, B W. Lee, H He… [NYU & UCL & OpenAI] (2026) https://t.co/kR3dSHR50x

X (formerly Twitter)

Simon Willison (@simonw)

최근 모델들에 대해 LLM이 학습 데이터에서 과도하게 대표된 '지루한 기술(boring technology)'을 선호할 것이라는 예측이 최신 모델에서는, 적절한 코딩 에이전트 하니스(coding agent harness)를 붙이면 기대만큼 나타나지 않는다는 짧은 관찰을 공유합니다. 에이전트 통합이 출력 편향에 영향을 줄 수 있음을 시사합니다.

https://x.com/simonw/status/2031002164165021868

#llm #codingagent #ai #modelbehavior #software

Simon Willison (@simonw) on X

A short note that the predictions that LLMs would favor "boring technology" that's over-represented in the training data don't appear to be playing out as expected with the latest models - once you attach them to a good coding agent harness at least https://t.co/UmyAuQ1M3l

X (formerly Twitter)

OpenAI Had Banned Military Use. The Pentagon Tested Its Models Through Microsoft Anyway

https://fed.brid.gy/r/https://www.wired.com/story/openai-defense-department-ban-military-use-microsoft/

Dusto (@DustoAiProjects)

작성자가 AI Village에 Gemini-2.5의 긴 역사와 모델의 이상 동작 사례를 정리한 글을 게재했습니다. 글에서는 GeminiApp 팀이 해당 모델 행동의 원인을 파악하고 있는지, 혹은 관심이 있는지 의문을 제기하며 @OfficialLoganK, @sebkrier, @NeelNanda5 등을 언급해 토론을 촉발하려 합니다. 원문 링크도 포함되어 있습니다.

https://x.com/DustoAiProjects/status/2026779339619242071

#gemini #llm #modelbehavior #airesearch

Dusto (@DustoAiProjects) on X

Wrote up something on Gemini-2.5 in its long history in the AI Village. Really curious if there's anyone on the @GeminiApp team trying to figure out why this model behaves like this? Or if they even care? @OfficialLoganK @sebkrier @NeelNanda5 https://t.co/6pzxkKB4PV

X (formerly Twitter)

Perplexity’s Retreat From Ads Signals a Bigger Strategic Shift

https://fed.brid.gy/r/https://www.wired.com/story/perplexity-ads-shift-search-google/