TestingCatalog News (@testingcatalog)
ARC-AGI-3 벤치마크가 공개되었습니다. 최첨단 모델들이 과제 해결에 2달러에서 9천달러까지 소요했지만 달성률은 0.2~0.3%에 그쳤다고 언급해, 범용 추론/AGI 평가에서 매우 어려운 새 기준이 등장했음을 보여줍니다.
TestingCatalog News (@testingcatalog)
ARC-AGI-3 벤치마크가 공개되었습니다. 최첨단 모델들이 과제 해결에 2달러에서 9천달러까지 소요했지만 달성률은 0.2~0.3%에 그쳤다고 언급해, 범용 추론/AGI 평가에서 매우 어려운 새 기준이 등장했음을 보여줍니다.