AI Still Can't Add Up: New Tests Reveal Persistent Math Failures in Top Models

New ORCA benchmark results show AI models improving slightly at everyday maths, but the best performer still scores under 73% on 500 practical problems.

The Daily Perspective

OpenAI đã thực hiện đánh giá hiệu suất mô hình Kimi K2.5, thu hút sự chú ý từ cộng đồng AI. Dữ liệu benchmark cho thấy khả năng xử lý nhiệm vụ tiên tiến, đặc biệt trong suy luận và xử lý văn bản dài. Thông tin do người dùng d4m1n chia sẻ trên X, đang được thảo luận sôi nổi. #AI #OpenAI #KimiAI #TríTuệNhânTạo #AIbenchmark

https://www.reddit.com/r/singularity/comments/1qqba7r/openai_benchmarked_kimi_k25/

Meituan Longcat vừa ra mắt AMO Bench, bộ tiêu chuẩn đánh giá AI Toán học. Theo đó, Kimi k2 Thinking được xác định là AI tốt nhất về giải toán. AMO Bench gồm 50 bài toán mới, độ khó cấp IMO, chấm điểm tự động chính xác cao.

#AIBenchmark #MathAI #KimiK2Thinking #MeituanLongcat #TríTuệNhânTạo #ToánHọc

https://www.reddit.com/r/LocalLLaMA/comments/1p18lim/meituan_longcat_releases_amo_bench_kimi_k2/

xAI claims its new Grok 4.1 tops high‑difficulty benchmarks, showing stronger multi‑step reasoning than previous models. If you follow the race for the most capable LLMs, this update from Elon Musk’s lab is worth a look. How does it compare to other open‑source giants? Dive in for the details. #Grok41 #xAI #AIbenchmark #MultiStepReasoning

🔗 https://aidailypost.com/news/xai-says-grok-41-is-its-most-capable-model-beating-highdifficulty

OpenAI launches GDPval to measure AI performance on real-world economic tasks

https://web.brid.gy/r/https://nerds.xyz/2025/09/openai-gdpval/

SWE-Bench Pro mới được ra mắt, tập trung vào giải quyết vấnô nhiễm bộ dữ liệu đánh giá AI. Công cụ quan trọng cho kiểm tra chất lượng mô hình AI trong lĩnh vực kỹ thuật phần mềm. #AI #MachineLearning #SWE-Bench #AIbenchmark #VietnamAI #CongNgheAI #AIVietnam

https://www.reddit.com/r/LocalLLaMA/comments/1nnmfne/swebench_pro_released_targeting_dataset/

Benchmark AI trên PC gaming với WSL2: RTX 4090 xử lý GPT-OSS-120B đạt 312.99 t/s (pp512), Qwen3 Coder 30B đạt 6392.5 t/s. Mẹo tối ưu: dùng iGPU cho màn hình, tắt Shared GPU Memory, bật XMP, điều chỉnh RAM trong WSL. #AIBenchmark #GamingPC #WSL2 #ViTinh #AI

https://www.reddit.com/r/LocalLLaMA/comments/1nmhtsg/wsl2_windows_gaming_pc_benchmarks/