[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну...  возможно . Но SWE-bench Verified это не показывает. Он...

Хабр
🌘 超圖上的拉姆齊類問題
➤ 當人工智慧跨越數學邊界:FrontierMath 與超圖問題的突破
https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs
本文探討 Epoch AI 如何利用先進的人工智慧模型,攻克數學領域中具高度挑戰性的組合數學難題——超圖(Hypergraph)構造問題。研究目標在於優化 $H(n)$ 的下界,這涉及在特定條件下尋找超圖的最佳構造。AI 模型(如 GPT-5.4 Pro)透過提供創新演算法,成功突破了過往數學界認為難以優化的構造效率,並在數學家的驗證下獲得證實。此成果不僅展示了 AI 在解決高階數學命題上的潛力,也為數學證明與自動化構造提供了新思路。
+ 令人驚訝,AI 不僅能處理符號運算,竟能理解並改進組合數學中的構造邏輯,這對數學研究來說是一個重要的里程碑。
+ 將 AI 應用於類似 Ramsey 理論這種極具挑戰的領域非常有趣,期待看到後續關於這些構造是否能推導出更通用數學規律的研究。
#人工智慧 #組合數學 #FrontierMath #演算法
A Ramsey-style Problem on Hypergraphs

Construct hypergraphs as large as possible that do not have a certain easy-to-check, difficult-to-find property.

Epoch AI

Epoch confirms GPT5.4 Pro solved a Frontier Math Open Problem for the first time

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

#HackerNews #Epoch #GPT5.4 #FrontierMath #OpenProblem #AIInnovation

A Ramsey-style Problem on Hypergraphs

Construct hypergraphs as large as possible that do not have a certain easy-to-check, difficult-to-find property.

Epoch AI

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/990406/

#FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI...

Хабр

Epoch AI giới thiệu FrontierMath Open Problems, một tiêu chuẩn đánh giá toán học mở cấp chuyên gia thách thức các chuyên gia. #EpochAI #FrontierMath #AI #ToánHọc #CôngNghệ

https://www.reddit.com/r/singularity/comments/1qor3a0/epoch_ai_introduces_frontiermath_open_problems_a/

🚀 GPT‑5.2 Pro đạt kỷ lục mới trên FrontierMath Tier 4 với 31% điểm, vượt mức cao nhất trước đó 19%! #AI #MachineLearning #GPT5 #FrontierMath #CôngNghệ #TríTuệNhânTạo

https://www.reddit.com/r/singularity/comments/1ql1kjd/new_record_on_frontiermath_tier_4_gpt52_pro/

Polymarket dự đoán 67% khả năng Gemini 3 vượt trội 40% so với Frontier Math (T1-3). Thị trường này trước đây đã khá chính xác với Gemini 3. Nếu Gemini 3 đạt >35%, đó sẽ là một bước tiến đáng kể.
#AI #Gemini3 #FrontierMath #TríTuệNhânTạo #DựĐoán

https://www.reddit.com/r/singularity/comments/1p15y7o/polymarket_predicts_67_gemini_3_40_on_frontier/

OpenAI faces criticism after Epoch AI’s benchmark results show its o3 model performing far below the company's claims. The discrepancy raises concerns about transparency, testing practices, and credibility in AI reporting.

#OpenAI #EpochAI #AITransparency #FrontierMath #AIEthics #ModelTesting #TechAccountability #AIModels #AIResearch #TECHi

Read Full Article :- https://www.techi.com/openai-o3-model-scores-low-benchmark-concerns-raised/

Open AI’s o3 Model Scores Low on Benchmark, Concerns Raised

The variation between the claims of OpenAI and Epoch AI findings sparked concerns about the transparency and model testing practices of OpenAI. 

TECHi