ARC Prize (@arcprize)

ARC-AGI-2 Semi Private 벤치마크의 국제 모델 성적 요약: Kimi K2.5(@Kimi_Moonshot) 12% ($0.28), Minimax M2.5(@MiniMax_AI) 5% ($0.17), GLM-5(@Zai_org) 5% ($0.27), Deepseek V3.2(@deepseek_ai) 4% ($0.12). 작성자는 이들 모델이 2025년 7월의 Frontier Labs 성능보다 낮다고 언급하고 있습니다. 여러 국제 모델의 비교·평가 결과입니다.

https://x.com/arcprize/status/2028563647212265565

#benchmark #arcagi #models #evaluation

ARC Prize (@arcprize) on X

International models on ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 These models score below July 2025 frontier labs

X (formerly Twitter)

Lisan al Gaib (@scaling01)

Google이 Gemini 3 Flash, Gemini 3.1 Pro, Gemini 3 Deep Think 등 여러 Gemini 계열로 ARC-AGI-2 벤치마크에서 지배적 성과를 내고 있다는 트윗. 여러 변형이 동일 벤치에서 경쟁 우위를 확보하며 실험적 우수성을 과시하고 있음.

https://x.com/scaling01/status/2024520825085305037

#google #gemini #arcagi #benchmark

Lisan al Gaib (@scaling01) on X

Google is now dominating ARC-AGI-2 with Gemini 3 Flash, Gemini 3.1 Pro and Gemini 3 Deep Think (Feb)

X (formerly Twitter)

ARC Prize (@arcprize)

Gemini 3.1 Pro가 Google DeepMind의 ARC-AGI 세미프라이빗 평가에서 성능을 공개: ARC-AGI-1에서 98% 달성(과제당 비용 $0.52), ARC-AGI-2에서 77% 달성(과제당 비용 $0.96). Gemini 계열이 성능과 비용 효율성의 파레토 프론티어를 밀어붙이고 있음을 시사.

https://x.com/arcprize/status/2024522812728496470

#gemini #arcagi #benchmark #modelefficiency

ARC Prize (@arcprize) on X

Gemini 3.1 Pro on ARC-AGI Semi-Private Eval @GoogleDeepMind - ARC-AGI-1: 98%, $0.52/task - ARC-AGI-2: 77%, $0.96/task Gemini to push the Pareto Frontier of performance and efficiency

X (formerly Twitter)

Derya Unutmaz, MD (@DeryaTR_)

Gemini Pro 3.1이 ARC-AGI에서 뛰어난 성능을 보였다는 보고: ARC-AGI-1은 현재 98% 달성(작업당 비용 $0.52)으로 사실상 완료 수준이며, ARC-AGI-2는 77%로 2위이지만 Gemini Deep Think와 근접한 성능을 보이면서도 비용은 10배 저렴한 $0.96/작업 수준이라는 분석으로, 짧은 기간 내 큰 진전으로 평가됩니다.

https://x.com/DeryaTR_/status/2024581128468713858

#gemini #geminipro #arcagi #benchmark #llm

Derya Unutmaz, MD (@DeryaTR_) on X

Gemini Pro 3.1 totally crushed ARC-AGI! ARC-AGI-1 is now essentially completed at 98%, at an amazing cost of $0.52/task! ARC-AGI-2 at 77% is second best and close to Gemini Deep Think, but at 10x lower cost of $0.96/task! This is incredible progress in such short period!

X (formerly Twitter)

ARC Prize (@arcprize)

Gemini 3 Deep Think(2/26) 반공개 평가 결과: Google DeepMind의 새로운 모델이 ARC‑AGI 벤치마크에서 SOTA를 기록했습니다. ARC‑AGI‑1에서 정확도 96.0% 및 비용 $7.17/문제, ARC‑AGI‑2에서 정확도 84.6% 및 비용 $13.62/문제 결과를 보고했으며, 새로운 ARC‑AGI SOTA 모델로 공개되었습니다.

https://x.com/arcprize/status/2021985585066652039

#gemini3 #deepmind #arcagi #sota

ARC Prize (@arcprize) on X

Gemini 3 Deep Think (2/26) Semi Private Eval - ARC-AGI-1: 96.0%, $7.17/task - ARC-AGI-2: 84.6% $13.62/task New ARC-AGI SOTA model from @GoogleDeepMind

X (formerly Twitter)

ARC Prize (@arcprize)

ARC-AGI 공개 SOTA 제출 소식: V1은 94.5% (작업당 $11.4), V2는 72.9% (작업당 $38.9)를 보고했습니다. 해당 제출물은 GPT 5.2 기반이며 @LandJohan이 여러 접근법을 앙상블한 맞춤형 정제 방식으로 구성된 것으로 보입니다. (벤치마크·비용·모델 정보 포함)

https://x.com/arcprize/status/2018746794310766668

#arcagi #gpt5.2 #sota #benchmark

ARC Prize (@arcprize) on X

New SOTA public submission to ARC-AGI: - V1: 94.5%, $11.4/task - V2: 72.9%, $38.9/task Based on GPT 5.2, this bespoke refinement submission by @LandJohan ensembles many approaches together

X (formerly Twitter)

Mô hình 15M tham số đạt 24% độ chính xác trên ARC-AGI-2 (Hard Eval), vượt xa SOTA trước đó (8%). TOPAS-DSPL của Bitterbot AI sử dụng kiến trúc "Bicameral" tách luồng Logic và Canvas để giảm lỗi drift, kèm Test-Time Training. Chạy được trên GPU consumer như RTX 4090. Mã nguồn đã được mở. #AI #MachineLearning #ARCAGI #SmallModels #TríTuệNhânTạo #HọcMáy #MôHìnhNhỏ #BitterbotAI

https://www.reddit.com/r/LocalLLaMA/comments/1pzsqii/15m_param_model_solving_24_of_arcagi2_hard_eval/

AshutoshShrivastava (@ai_for_success)

Poetiq가 OpenAI의 GPT-5.2 X-High 모델을 활용해 ARC-AGI-2 공개 평가셋에서 75% 성능을 달성했다는 소식입니다. 이는 AGI 관련 공개 벤치마크에서 주목할 만한 성과로, GPT-5.2의 능력과 Poetiq의 접근법이 결합되어 얻은 결과로 해석될 수 있습니다.

https://x.com/ai_for_success/status/2003569403074641932

#gpt5.2 #openai #poetiq #arcagi

AshutoshShrivastava (@ai_for_success) on X

What??? 👀 Poetiq's achieved 75% on the ARC-AGI-2's public evaluation set using the OpenAI's GPT-5.2 X-High model.

X (formerly Twitter)

Poetiq đạt kỷ lục mới trên ARC-AGI 2 Public với 75%, vượt trung bình sinh viên (60%) nhờ GPT5.2 X-HIGH. Chiến tích được chờ xác nhận, hiệu suất trên dataset riêng có thể chỉ chênh lệch nhỏ. #AI #TríTuệNhânTạo #Poetiq #ARCAGI

https://www.reddit.com/r/singularity/comments/1pu5mhk/poetiq_achieves_sota_on_arcagi_2_public_eval/

Gemini 3 Flash đạt kết quả ấn tượng trên các benchmark mới: SimpleBench, FrontierMath, ARC-AGI-1, VPCT và ZeroBench. Trong đó, ARC-AGI-1 đặc biệt nổi bật dù chưa được công bố rộng rãi trước đây. #AI #Gemini #Benchmarks #Côngnghệ #ThôngtinAI #ĐánhgiamôhìnhAI #ARCAGI #Singularity

(500 characters)

https://www.reddit.com/r/singularity/comments/1pqkspl/gemini_3_flash_on_simplebench_frontiermath/