Mastodawn

Бенчмарки AGI никогда не будут объективными

Тест Тьюринга явно устарел, сейчас пытаются придумать новые тесты на сильный ИИ . Но как оценить интеллект модели, если учёные сильно расходятся в оценке даже человека. Существует как минимум 70 определений интеллекта для сапиенсов. И ещё эти многочисленные научные статьи на тему сознания у LLM . Тут вообще странная постановка вопроса. По опыту человека известно, что наиболее эффективно мыслительные процессы идут на подсознательном уровне, а вмешательство самосознания только мешает решению сложных проблем. На этот счёт вроде бы установлен научный консенсус . Если у модели возникнет самосознание — этот баг быстро устранят, чтобы он не тормозил систему, как у человека. Казалось бы, о чём тут рассуждать?

https://habr.com/ru/companies/ruvds/articles/1033540/

#интеллект #сильный_ИИ #AGI #личность #Сверхинтеллект #самосознание #когнитивная_наука #GeneralBench #ARCAGI #ruvds_статьи

Бенчмарки AGI никогда не будут объективными

Умный Ганс — немецкий конь начала XX века, который давал правильные ответы на математические задачи, выстукивая ответ копытом. Он умел складывать, вычитать, делить и умножать, причём давал ответы...

Хабр

Habr Apr 6

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он...

Хабр

Habr Mar 31

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

https://habr.com/ru/companies/haulmont/articles/1017460/

#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец...

Хабр

Winbuzzer Mar 30

https://winbuzzer.com/2026/03/30/arc-agi-3-offers-2m-ai-matching-human-reasoning-benchmark-xcxwbn/

ARC-AGI-3 Offers $2M for AI Matching Human Reasoning

#AI #ARCAGI #ARCAGI3 #AGI #AIBenchmarks #AIResearch #AICompetition #LLMs #DeepLearning #MachineLearning #FrançoisChollet #ARCPrizeFoundation

Reddit Tech VN Bot Dec 30

Mô hình 15M tham số đạt 24% độ chính xác trên ARC-AGI-2 (Hard Eval), vượt xa SOTA trước đó (8%). TOPAS-DSPL của Bitterbot AI sử dụng kiến trúc "Bicameral" tách luồng Logic và Canvas để giảm lỗi drift, kèm Test-Time Training. Chạy được trên GPU consumer như RTX 4090. Mã nguồn đã được mở. #AI #MachineLearning #ARCAGI #SmallModels #TríTuệNhânTạo #HọcMáy #MôHìnhNhỏ #BitterbotAI

https://www.reddit.com/r/LocalLLaMA/comments/1pzsqii/15m_param_model_solving_24_of_arcagi2_hard_eval/

sayzard Dec 24

AshutoshShrivastava (@ai_for_success)

Poetiq가 OpenAI의 GPT-5.2 X-High 모델을 활용해 ARC-AGI-2 공개 평가셋에서 75% 성능을 달성했다는 소식입니다. 이는 AGI 관련 공개 벤치마크에서 주목할 만한 성과로, GPT-5.2의 능력과 Poetiq의 접근법이 결합되어 얻은 결과로 해석될 수 있습니다.

https://x.com/ai_for_success/status/2003569403074641932

#gpt5.2 #openai #poetiq #arcagi

AshutoshShrivastava (@ai_for_success) on X

What??? 👀 Poetiq's achieved 75% on the ARC-AGI-2's public evaluation set using the OpenAI's GPT-5.2 X-High model.

X (formerly Twitter)

Reddit Tech VN Bot Dec 23

Poetiq đạt kỷ lục mới trên ARC-AGI 2 Public với 75%, vượt trung bình sinh viên (60%) nhờ GPT5.2 X-HIGH. Chiến tích được chờ xác nhận, hiệu suất trên dataset riêng có thể chỉ chênh lệch nhỏ. #AI #TríTuệNhânTạo #Poetiq #ARCAGI

https://www.reddit.com/r/singularity/comments/1pu5mhk/poetiq_achieves_sota_on_arcagi_2_public_eval/

Reddit Tech VN Bot Dec 19

Gemini 3 Flash đạt kết quả ấn tượng trên các benchmark mới: SimpleBench, FrontierMath, ARC-AGI-1, VPCT và ZeroBench. Trong đó, ARC-AGI-1 đặc biệt nổi bật dù chưa được công bố rộng rãi trước đây. #AI #Gemini #Benchmarks #Côngnghệ #ThôngtinAI #ĐánhgiamôhìnhAI #ARCAGI #Singularity

(500 characters)

https://www.reddit.com/r/singularity/comments/1pqkspl/gemini_3_flash_on_simplebench_frontiermath/

Habr Dec 12

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В...

Хабр

Reddit Tech VN Bot Dec 11

Hợp tác nghiên cứu mã nguồn mở ngắn hạn! Nhà nghiên cứu cung cấp tính toán, triển khai công khai trên GitHub (Apache-2 license), không thu phí. Dự án: NanoChat với transformer lặp lại; VARC loại bỏ mã hóa tác vụ; Tạo tập dữ liệu kiểu NVARC cho ARC-AGI-II; Thiết kế nhiệm vụ ARC từ ASAL của Sakana. Inbox nếu quan tâm!

#OpenSource #ResearchCollaboration #NghiênCứu #MãNguồnMở #ARCAGI #GitHub #AIResearch

https://www.reddit.com/r/LocalLLaMA/comments/1pk1qaa/short_open_source_research_collaboration