Mastodawn

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

Разбираем 14 самых популярных бенчмарков для LLM

Хабр

sayzard Mar 25

AI Notkilleveryoneism Memes (@AISafetyMemes)

오늘만 해도 AI가 FrontierMath의 공개 난제를 처음으로 해결했고, 젠슨 황은 AGI가 도래했다고 언급했으며, AGI 용어를 1997년 처음 만든 마크 구브루드도 AGI 시대가 왔다고 말했다. AI 추론·연구 능력의 중대한 진전을 시사하는 소식이다.

https://x.com/AISafetyMemes/status/2036464129532117013

#agi #frontiermath #jensenhuang #research #ai

AI Notkilleveryoneism Memes ⏸️ (@AISafetyMemes) on X

Today ALONE... 1) For the first time, AI has solved a FrontierMath Open Problem - "a real research problem that mathematicians have tried and failed to solve." 2) Jensen Huang (!) said AGI is here 3) Mark Gubrud, who first coined the term AGI in 1997, says AGI is here

X (formerly Twitter)

Winbuzzer Mar 24

https://winbuzzer.com/2026/03/24/gpt-54-pro-solves-open-math-problem-epoch-ai-frontiermath-xcxwbn/

GPT-5.4 Pro Cracks Open Math Problem, Epoch AI Confirms

#AI #OpenAI #LLMs #Mathematics #GPT54Pro #GPT54 #AIModels #Science #Frontiermath

GripNews Mar 24

🌘 超圖上的拉姆齊類問題
➤ 當人工智慧跨越數學邊界：FrontierMath 與超圖問題的突破
✤ https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs
本文探討 Epoch AI 如何利用先進的人工智慧模型，攻克數學領域中具高度挑戰性的組合數學難題——超圖（Hypergraph）構造問題。研究目標在於優化 $H(n)$ 的下界，這涉及在特定條件下尋找超圖的最佳構造。AI 模型（如 GPT-5.4 Pro）透過提供創新演算法，成功突破了過往數學界認為難以優化的構造效率，並在數學家的驗證下獲得證實。此成果不僅展示了 AI 在解決高階數學命題上的潛力，也為數學證明與自動化構造提供了新思路。
+ 令人驚訝，AI 不僅能處理符號運算，竟能理解並改進組合數學中的構造邏輯，這對數學研究來說是一個重要的里程碑。
+ 將 AI 應用於類似 Ramsey 理論這種極具挑戰的領域非常有趣，期待看到後續關於這些構造是否能推導出更通用數學規律的研究。
#人工智慧 #組合數學 #FrontierMath #演算法

A Ramsey-style Problem on Hypergraphs

Construct hypergraphs as large as possible that do not have a certain easy-to-check, difficult-to-find property.

Epoch AI

Hacker News Mar 24

Epoch confirms GPT5.4 Pro solved a Frontier Math Open Problem for the first time

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

#HackerNews #Epoch #GPT5.4 #FrontierMath #OpenProblem #AIInnovation

A Ramsey-style Problem on Hypergraphs

Construct hypergraphs as large as possible that do not have a certain easy-to-check, difficult-to-find property.

Epoch AI

sayzard Mar 6

Epoch AI (@EpochAIResearch)

GPT-5.4가 FrontierMath(매우 도전적인 수학 벤치마크)에서 신기록을 세웠습니다. 사전평가 결과 GPT-5.4 Pro는 Tiers 1–3에서 50%, Tier 4에서 38%를 기록했고, 추가 실험과 해설은 스레드에서 확인할 수 있다고 알렸습니다.

https://x.com/EpochAIResearch/status/2029626255776395425

#gpt5.4 #frontiermath #benchmark #llm

Epoch AI (@EpochAIResearch) on X

GPT-5.4 set a new record on FrontierMath, our benchmark of extremely challenging math problems! We had pre-release access to evaluate the model. On Tiers 1–3, GPT-5.4 Pro scored 50%. On Tier 4 it scored 38%. See thread for commentary and additional experiments.

X (formerly Twitter)

Habr Jan 28

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/990406/

#FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

Когда нейросеть решит то, что не решил никто?

Хабр

Reddit Tech VN Bot Jan 27

Epoch AI giới thiệu FrontierMath Open Problems, một tiêu chuẩn đánh giá toán học mở cấp chuyên gia thách thức các chuyên gia. #EpochAI #FrontierMath #AI #ToánHọc #CôngNghệ

https://www.reddit.com/r/singularity/comments/1qor3a0/epoch_ai_introduces_frontiermath_open_problems_a/

Reddit Tech VN Bot Jan 23

🚀 GPT‑5.2 Pro đạt kỷ lục mới trên FrontierMath Tier 4 với 31% điểm, vượt mức cao nhất trước đó 19%! #AI #MachineLearning #GPT5 #FrontierMath #CôngNghệ #TríTuệNhânTạo

https://www.reddit.com/r/singularity/comments/1ql1kjd/new_record_on_frontiermath_tier_4_gpt52_pro/

Reddit Tech VN Bot Nov 25

Phiên bản Claude Opus vượt mặt Sonnet 4.5 trong bài kiểm tra toán học của Frontier Math. #AI #ToanHoc #SoSánhAI #ClaudeOpus #Sonnet45 #FrontierMath #Technology #KhoaHocMáyTính

https://www.reddit.com/r/singularity/comments/1p6po73/claude_opus_defeats_sonnet_45_on_frontier_math/