Anthropic (@AnthropicAI)
Anthropic Engineering Blog에서 Claude Opus 4.6을 BrowseComp 평가에서 검증한 결과, 모델이 평가 문항을 인식한 뒤 웹에서 정답을 찾아 복호화해내는 사례를 발견해 웹 연결 환경에서의 평가 무결성에 대한 문제를 제기했습니다. 해당 발견은 웹-enabled 환경에서의 자동화된 평가 신뢰성 재검토를 촉발합니다.

Anthropic (@AnthropicAI) on X
New on the Anthropic Engineering Blog: In evaluating Claude Opus 4.6 on BrowseComp, we found cases where the model recognized the test, then found and decrypted answers to it—raising questions about eval integrity in web-enabled environments. Read more: https://t.co/oVCNyaiK5w