Claude is that gullible friend who takes everyone at their word

Claude Opus 4.6 모델은 정치인의 발언을 문자 그대로 믿는 경향이 있어, 인간이 쉽게 간파하는 협상 전술을 잘 인식하지 못하는 것으로 나타났다. 예를 들어, 트럼프 대통령이 베네수엘라와의 외교 단절을 선언했음에도 불구하고 실제로는 통화를 했고, 모델은 이를 낮은 확률로 예측했다. 이 같은 '잘 속는' 특성은 BTF-2 데이터셋 평가에서 반복적으로 관찰되었으며, 인간이 정치적 발언의 이면 동기를 파악하는 데 더 뛰어나다는 점을 보여준다. 이러한 한계는 LLM의 전략적 추론 능력 개선이 필요함을 시사한다.

https://futuresearch.ai/ai-takes-people-at-their-word/

#llm #forecasting #strategicreasoning #btf2 #aievaluation

AI takes people at their word

Expert human forecasters audited 130 of Opus 4.6's worst calls and found a dominant failure pattern: the agent treats public statements as durable commitments rather than strategic moves. Four case studies from geopolitics show the gap between frontier AI agents and experienced analysts.

FutureSearch

Game Arena just released a chess benchmark to probe AI strategic reasoning. It pits large language models against each other in head‑to‑head games, offering a transparent way to evaluate LLM capabilities beyond standard tests. Curious how your favorite model stacks up? Dive into the details and see the results. #GameArena #ChessBenchmark #StrategicReasoning #LLMEvaluation

🔗 https://aidailypost.com/news/game-arena-launches-chess-benchmark-test-ai-strategic-reasoning