[Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)
METR 연구기관의 Opus 4.6 모델이 인간 전문가 기준 14.5시간짜리 문제를 50% 확률로 해결할 수 있는 능력을 평가한 연구 결과를 발표했습니다. 이 연구는 AI의 장기적·자율적 작업 수행 능력을 측정하며, AI가 고숙련 지식 노동을 대체할 수 있는 임계점에 도달했음을 시사합니다.
[Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)
METR 연구기관의 Opus 4.6 모델이 인간 전문가 기준 14.5시간짜리 문제를 50% 확률로 해결할 수 있는 능력을 평가한 연구 결과를 발표했습니다. 이 연구는 AI의 장기적·자율적 작업 수행 능력을 측정하며, AI가 고숙련 지식 노동을 대체할 수 있는 임계점에 도달했음을 시사합니다.
AI Leaks and News (@AILeaksAndNews)
GPT-5.2-high의 50% time-horizon가 약 6.6시간이라고 보고되었으며, 이는 Claude Opus 4.5의 4시간 49분을 능가하는 SOTA 결과라는 내용입니다. 또한 GPT-5.2-xhigh는 더 긴 시간지평선을 가질 가능성이 언급되며, 이러한 결과를 'fast takeoff'의 징후로 소개하고 있습니다. 모델 장기 추론/연속성 성능 관련 주요 벤치마크 소식입니다.
These mails also show signs of a severe #ketamine #timehorizon -
society is not built, and space not explored, in one week cycles.
But then, it is illusionary to think that #Mump wants to build anything.
They are out to destroy, not build.