Epoch AI (@EpochAIResearch)

GPT-5.4가 FrontierMath(매우 도전적인 수학 벤치마크)에서 신기록을 세웠습니다. 사전평가 결과 GPT-5.4 Pro는 Tiers 1–3에서 50%, Tier 4에서 38%를 기록했고, 추가 실험과 해설은 스레드에서 확인할 수 있다고 알렸습니다.

https://x.com/EpochAIResearch/status/2029626255776395425

#gpt5.4 #frontiermath #benchmark #llm

Epoch AI (@EpochAIResearch) on X

GPT-5.4 set a new record on FrontierMath, our benchmark of extremely challenging math problems! We had pre-release access to evaluate the model. On Tiers 1–3, GPT-5.4 Pro scored 50%. On Tier 4 it scored 38%. See thread for commentary and additional experiments.

X (formerly Twitter)

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/990406/

#FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI...

Хабр

Epoch AI giới thiệu FrontierMath Open Problems, một tiêu chuẩn đánh giá toán học mở cấp chuyên gia thách thức các chuyên gia. #EpochAI #FrontierMath #AI #ToánHọc #CôngNghệ

https://www.reddit.com/r/singularity/comments/1qor3a0/epoch_ai_introduces_frontiermath_open_problems_a/

🚀 GPT‑5.2 Pro đạt kỷ lục mới trên FrontierMath Tier 4 với 31% điểm, vượt mức cao nhất trước đó 19%! #AI #MachineLearning #GPT5 #FrontierMath #CôngNghệ #TríTuệNhânTạo

https://www.reddit.com/r/singularity/comments/1ql1kjd/new_record_on_frontiermath_tier_4_gpt52_pro/

Polymarket dự đoán 67% khả năng Gemini 3 vượt trội 40% so với Frontier Math (T1-3). Thị trường này trước đây đã khá chính xác với Gemini 3. Nếu Gemini 3 đạt >35%, đó sẽ là một bước tiến đáng kể.
#AI #Gemini3 #FrontierMath #TríTuệNhânTạo #DựĐoán

https://www.reddit.com/r/singularity/comments/1p15y7o/polymarket_predicts_67_gemini_3_40_on_frontier/

OpenAI faces criticism after Epoch AI’s benchmark results show its o3 model performing far below the company's claims. The discrepancy raises concerns about transparency, testing practices, and credibility in AI reporting.

#OpenAI #EpochAI #AITransparency #FrontierMath #AIEthics #ModelTesting #TechAccountability #AIModels #AIResearch #TECHi

Read Full Article :- https://www.techi.com/openai-o3-model-scores-low-benchmark-concerns-raised/

Open AI’s o3 Model Scores Low on Benchmark, Concerns Raised

The variation between the claims of OpenAI and Epoch AI findings sparked concerns about the transparency and model testing practices of OpenAI. 

TECHi

Search Engine Journal: OpenAI Secretly Funded Benchmarking Dataset Linked To o3 Model. “In addition to accessing the benchmarking dataset, OpenAI funded its creation, a fact that was withheld from the mathematicians who contributed to developing FrontierMath. Epoch AI belatedly disclosed OpenAI’s funding only in the final paper published on Arxiv.org, which announced the benchmark. Earlier […]

https://rbfirehose.com/2025/01/26/search-engine-journal-openai-secretly-funded-benchmarking-dataset-linked-to-o3-model/

Search Engine Journal: OpenAI Secretly Funded Benchmarking Dataset Linked To o3 Model | ResearchBuzz: Firehose

ResearchBuzz: Firehose | Individual posts from ResearchBuzz

Exploring the impact of advanced AI benchmarks like FrontierMath on Asia's tech landscape and its role in global AI innovation.As AI benchmarks evolve, particularly with the introduction of the FrontierMath benchmark, Asia's tech companies and research institutions are adapting to these new standards. #AI #Asia #benchmarks #FrontierMath #innovation #investment #research #technology

https://redrobot.online/2025/01/ai-benchmarks-redefine-intelligence-standards-asias-strategic-response/

AI Benchmarks Redefine Intelligence Standards: Asia’s Strategic Response

Exploring the impact of advanced AI benchmarks like FrontierMath on Asia's tech landscape and its role in global AI innovation.As AI benchmarks evolve, particul

Le Red Robot

Some people decided to throw non trivial mathematical problems to LLMs. Surprising no one, LLMs miserably fail to resolve the problems.

"FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI".

https://arxiv.org/pdf/2411.04872

#FrontierMath #AI #LLM #LLMS