Bindu Reddy (@bindureddy)
Gemini Pro 3.1이 LiveBench에서 거의 모든 리더보드를 큰 차이로 선도하고 있다는 보고입니다. 다만 숨겨진(보지 못한) 질문들에선 낮게 나와 벤치마크 최적화 의혹이 제기되며, 실제 일반화 성능에는 유의할 점이 있습니다.

Bindu Reddy (@bindureddy) on X
Gemini Pro 3.1 IS ON TOP OF LIVEBENCH - BEATS EVER OTHER MODEL BY A LOT While it's on top of almost all leaderboards, we do find that it scores lower on hidden or "unseen" questions This implies that the model is benchmark optimized. However even on our internal rankings it







