Hugging Face (@huggingface)

Community Evals와 Benchmark Datasets를 배포했다고 공지했습니다. 벤치마크 데이터셋이 리더보드를 호스팅하며, 모델 리포지토리에 PR을 제출해 평가 결과를 기여할 수 있고 모든 PR은 Benchmark Datasets에 반영됩니다. 또한 'Chat with datasets' 기능으로 데이터 내에서 에이전트가 동작하는 기능이 제공됩니다.

https://x.com/huggingface/status/2019754567685050384

#communityevals #benchmarkdatasets #chatwithdatasets #agents #evaluation

Hugging Face (@huggingface) on X

We have been shipping 🛳️❤️ 📦 Community Evals & Benchmark Datasets: Benchmark datasets host benchmark leaderboards, you can now contribute eval results by opening a PR to model repositories, all PRs are fed to benchmark datasets 📦 Chat with datasets: agents live in Data

X (formerly Twitter)

merve (@mervenoyann)

Community Evals를 공개해 평가 투명성을 개선했습니다. Benchmark Datasets가 리더보드를 호스팅하며, 모델 리포지토리에 PR을 열어 평가 결과를 추가하면 해당 결과가 리더보드에 반영됩니다. GPQA, HLE, MMLU-Pro 데이터셋이 라이브 상태이며 Kimi 2.5 등 최신(soTA) 모델들과의 성능 비교를 확인할 수 있습니다.

https://x.com/mervenoyann/status/2019784907178811644

#communityevals #benchmarkdatasets #evaluation #leaderboards #datasets

merve (@mervenoyann) on X

we released Community Evals to fix transparency in evals 🤝 → Benchmark Datasets host leaderboards → create PRs to add eval result to the leaderboard, link models 🔗 leaderboards GPQA, HLE and MMLU-Pro are live, check how sota models like Kimi 2.5 compare 🙌🏻

X (formerly Twitter)