merve (@mervenoyann)
Community Evals를 공개해 평가 투명성을 개선했습니다. Benchmark Datasets가 리더보드를 호스팅하며, 모델 리포지토리에 PR을 열어 평가 결과를 추가하면 해당 결과가 리더보드에 반영됩니다. GPQA, HLE, MMLU-Pro 데이터셋이 라이브 상태이며 Kimi 2.5 등 최신(soTA) 모델들과의 성능 비교를 확인할 수 있습니다.
https://x.com/mervenoyann/status/2019784907178811644
#communityevals #benchmarkdatasets #evaluation #leaderboards #datasets

merve (@mervenoyann) on X
we released Community Evals to fix transparency in evals 🤝 → Benchmark Datasets host leaderboards → create PRs to add eval result to the leaderboard, link models 🔗 leaderboards GPQA, HLE and MMLU-Pro are live, check how sota models like Kimi 2.5 compare 🙌🏻