TestingCatalog News (@testingcatalog)

ARC-AGI-3 벤치마크가 공개되었습니다. 최첨단 모델들이 과제 해결에 2달러에서 9천달러까지 소요했지만 달성률은 0.2~0.3%에 그쳤다고 언급해, 범용 추론/AGI 평가에서 매우 어려운 새 기준이 등장했음을 보여줍니다.

https://x.com/testingcatalog/status/2036887376614555993

#benchmark #agi #evaluation #reasoning #llm

TestingCatalog News 🗞 (@testingcatalog) on X

ARC-AGI-3 benchmark is here 👀 It took from $2 to $9k for frontier models to complete the task at 0.2-0.3% acheivemnt. How soon would you expect it to get saturated?

X (formerly Twitter)