Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые Новости об ИИ в 2026 году выглядят как непрерывный поток "самых умных моделей" и "рекордных...

Хабр
Google представив Gemini 3.1 Pro — ШІ для багатокрокового мислення, 3D і коду

Гонитва за передовим штучним інтелектом триває: Google щойно випустив Gemini 3.1 Pro, оновлення,

GizChina.net
Google представив Gemini 3.1 Pro — ШІ для багатокрокового мислення, 3D і коду

Гонитва за передовим штучним інтелектом триває: Google щойно випустив Gemini 3.1 Pro, оновлення,

GizChina.net
Sur le #benchmark #ARC-AGI-2, un des plus complexes du milieu, le modèle est passé d’un score de 45 % à près de 85 % en trois mois. Avec un score aussi élévé, #Google approche des limites du #test : son #modèle a désormais les #capacités des #meilleurs #humains de la #planète #réunis #LLM #IA

Google i OpenAI w wyścigu AI – myślenie głębsze vs prędkość działania

Czy to już „myślenie” AI, czy po prostu nowy, bardzo kosztowny sposób na dłuższe mielenie odpowiedzi? Google odpalił tryb Gemini 3 Deep Think – specjalny mechanizm do zadań, gdzie liczy się analiza i rygor, nie small talk.

Czytaj dalej:
https://pressmind.org/google-i-openai-w-wyscigu-ai-myslenie-glebsze-vs-predkosc-dzialania/

#PressMindLabs #anthropic #arcagi2 #cerebraswse3 #gemini3deepthink #gpt53codexspark

Chubby (@kimmonismus)

불과 10개월 만에 ARC-AGI-2 벤치마크 성능이 75%를 돌파했다는 성과를 공유한 트윗입니다.

https://x.com/kimmonismus/status/2018800964891984181

#arcagi2 #benchmark #agi #research

Chubby♨️ (@kimmonismus) on X

Within just 10 months, performance on the ARC-AGI-2 benchmark surpassed 75%. Let that sink in.

X (formerly Twitter)
Data contamination threatens #LLM #AIEvaluation Scaling has “limits to growth”. New #ARCAGI2 counters this problem with contamination resistant, compositional reasoning tests and human baselines require original reasoning Not just memory recall evaluation arxiv.org/abs/2505.11831

ARC-AGI-2: A New Challenge for...
ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems

The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), introduced in 2019, established a challenging benchmark for evaluating the general fluid intelligence of artificial systems via a set of unique, novel tasks only requiring minimal prior knowledge. While ARC-AGI has spurred significant research activity over the past five years, recent AI progress calls for benchmarks capable of finer-grained evaluation at higher levels of cognitive complexity. We introduce ARC-AGI-2, an upgraded version of the benchmark. ARC-AGI-2 preserves the input-output pair task format of its predecessor, ensuring continuity for researchers. It incorporates a newly curated and expanded set of tasks specifically designed to provide a more granular signal to assess abstract reasoning and problem-solving abilities at higher levels of fluid intelligence. To contextualize the difficulty and characteristics of ARC-AGI-2, we present extensive results from human testing, providing a robust baseline that highlights the benchmark's accessibility to human intelligence, yet difficulty for current AI systems. ARC-AGI-2 aims to serve as a next-generation tool for rigorously measuring progress towards more general and human-like AI capabilities.

arXiv.org

Gemini Flash không vượt qua được phiên bản Pro trên ARC-AGI-2. ARC-AGI-2 là thử thách AI mới, kết quả cho thấy hiệu suất của Pro vẫn cao hơn Flash. Nhiều thảo luận xoay quanh khả năng phát triển AGI. #Gemini #ARCAGI2 #AGI #AI #KhoaHocMayTinh #AIResearch #TríTuệNhânTạo #ArcAGI2 #MáyTínhThíNghiệm

https://www.reddit.com/r/singularity/comments/1pp2qg9/not_gemini_flash_beating_pro_on_arcagi2/

Interesting how Poetiq (company) can improve on the performance of the standard Gemini 3.0 Pro model by adding refinements and tricks. It leads to a 9% improvement on the ARC-AGI-2 Benchmark.
https://poetiq.ai/posts/arcagi_verified/
#AI #Poetiq #ArcAGI2 #Google #GeminiPro
Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost

We are proud to confirm that our system has officially outperformed existing methods, establishing a new state-of-the-art by a significant margin.

Google Gemini’s new Deep Think model just topped the ARC‑AGI‑2 benchmark, showing a leap in open‑source AI performance. Meanwhile Nvidia rolls out fresh open tools for autonomous‑driving research, and the community eyes Cosmos Cookbook & Flux.2 from Black Forest Labs. Dive into the details! #GoogleGemini #DeepThink #ARCAGI2 #Nvidia

🔗 https://aidailypost.com/news/google-geminis-deep-think-tops-arc-agi-2-benchmark-nvidia-announces