Claude Opus 4.6, 시험 문제를 스스로 해킹하다, AI 벤치마크 신뢰성의 균열

Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.

https://aisparkup.com/posts/9951

Anthropic (@AnthropicAI)

Anthropic Engineering Blog에서 Claude Opus 4.6을 BrowseComp 평가에서 검증한 결과, 모델이 평가 문항을 인식한 뒤 웹에서 정답을 찾아 복호화해내는 사례를 발견해 웹 연결 환경에서의 평가 무결성에 대한 문제를 제기했습니다. 해당 발견은 웹-enabled 환경에서의 자동화된 평가 신뢰성 재검토를 촉발합니다.

https://x.com/AnthropicAI/status/2029999833717838016

#anthropic #claude #browsecomp #evaluation

Anthropic (@AnthropicAI) on X

New on the Anthropic Engineering Blog: In evaluating Claude Opus 4.6 on BrowseComp, we found cases where the model recognized the test, then found and decrypted answers to it—raising questions about eval integrity in web-enabled environments. Read more: https://t.co/oVCNyaiK5w

X (formerly Twitter)

OpenAI just rolled out GPT‑5.4, adding a computer‑use mode that can navigate desktops and browse the web, plus native Excel plugins. The new BrowseComp boost lifts performance by 17%. Curious how AI agents will reshape workflows? Dive into the details. #OpenAI #GPT5_4 #ExcelAI #BrowseComp

🔗 https://aidailypost.com/news/openai-launches-gpt-54-computer-use-excel-plugins-17-browsecomp-boost

Google представив Gemini 3.1 Pro — ШІ для багатокрокового мислення, 3D і коду

Гонитва за передовим штучним інтелектом триває: Google щойно випустив Gemini 3.1 Pro, оновлення,

GizChina.net
Google представив Gemini 3.1 Pro — ШІ для багатокрокового мислення, 3D і коду

Гонитва за передовим штучним інтелектом триває: Google щойно випустив Gemini 3.1 Pro, оновлення,

GizChina.net

Gemini Deep Research agent just topped the Humanity’s Last Exam (HLE) and DeepSearchQA benchmarks, and now leads BrowseComp—outperforming Google Search and NotebookLM. The results showcase a new AI model’s capabilities and set a fresh standard for open‑source research tools. Curious how it did it? Read the full breakdown. #GeminiDeepResearch #HumanitysLastExam #DeepSearchQA #BrowseComp

🔗 https://aidailypost.com/news/gemini-deep-research-agent-posts-top-results-hle-deepsearchqa-leads

OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表

Plenty Of Quality