Hugging Face (@huggingface)

Community Evals와 Benchmark Datasets를 배포했다고 공지했습니다. 벤치마크 데이터셋이 리더보드를 호스팅하며, 모델 리포지토리에 PR을 제출해 평가 결과를 기여할 수 있고 모든 PR은 Benchmark Datasets에 반영됩니다. 또한 'Chat with datasets' 기능으로 데이터 내에서 에이전트가 동작하는 기능이 제공됩니다.

https://x.com/huggingface/status/2019754567685050384

#communityevals #benchmarkdatasets #chatwithdatasets #agents #evaluation

Hugging Face (@huggingface) on X

We have been shipping 🛳️❤️ 📦 Community Evals & Benchmark Datasets: Benchmark datasets host benchmark leaderboards, you can now contribute eval results by opening a PR to model repositories, all PRs are fed to benchmark datasets 📦 Chat with datasets: agents live in Data

X (formerly Twitter)

merve (@mervenoyann)

Community Evals를 공개해 평가 투명성을 개선했습니다. Benchmark Datasets가 리더보드를 호스팅하며, 모델 리포지토리에 PR을 열어 평가 결과를 추가하면 해당 결과가 리더보드에 반영됩니다. GPQA, HLE, MMLU-Pro 데이터셋이 라이브 상태이며 Kimi 2.5 등 최신(soTA) 모델들과의 성능 비교를 확인할 수 있습니다.

https://x.com/mervenoyann/status/2019784907178811644

#communityevals #benchmarkdatasets #evaluation #leaderboards #datasets

merve (@mervenoyann) on X

we released Community Evals to fix transparency in evals 🤝 → Benchmark Datasets host leaderboards → create PRs to add eval result to the leaderboard, link models 🔗 leaderboards GPQA, HLE and MMLU-Pro are live, check how sota models like Kimi 2.5 compare 🙌🏻

X (formerly Twitter)

Hugging Face (@huggingface)

커뮤니티 기반 분산 평가를 지원하기 위해 Community Evals와 Benchmark 저장소를 배포했습니다. 사용자가 보고한 점수는 리더보드에 반영되고, 벤치마크 데이터셋은 실시간 리더보드를 호스팅합니다. 또한 PR로 점수를 추가하면 모델 저장소에서 해당 결과가 유지되어 탈중앙화된 평가와 투명한 비교를 가능하게 합니다.

https://x.com/huggingface/status/2019433129241403473

#communityevals #benchmarks #evaluation #leaderboards

Hugging Face (@huggingface) on X

We just shipped Community Evals and Benchmark repositories for decentralized evals 🤗 > Scores you and model authors report are on leaderboards 🙌🏻 > Benchmark datasets host live leaderboards of reported results 🚀 > You can open PRs to add scores, they live in model

X (formerly Twitter)