Dario Cositore (@DarioCositore)

프리릴리즈 단계에서 100개 이상의 실제 비즈니스 워크플로우로 모델을 평가한 결과, 단순히 최신 모델이 항상 더 나쁜 것은 아니며 성능 변화가 영역별로 다르다고 설명한다. Opus 4.7은 구조화된 출력은 일부 퇴행했지만 멀티스텝 툴 체인은 개선됐고, Gemini 3.1은 추론 능력이 저하됐다고 언급한다.

https://x.com/DarioCositore/status/2053892255438536725

#ai #llm #modelevaluation #reasoning #tooluse

Dario Cositore (@DarioCositore) on X

@bindureddy I'm one of the people who evaluated these models pre-release across 100+ real business workflows before prod. The picture is way more nuanced than "Newer = worse" Opus 4.7 intentionally regressed on structured output but improved multi-step tool chains. Gemini 3.1 lost reasoning

X (formerly Twitter)