AI Still Can't Add Up: New Tests Reveal Persistent Math Failures in Top Models
#ArtificialIntelligence #AIBenchmark #LLM #ChatGPT #Gemini #AusNews
AI Still Can't Add Up: New Tests Reveal Persistent Math Failures in Top Models
#ArtificialIntelligence #AIBenchmark #LLM #ChatGPT #Gemini #AusNews
OpenAI đã thực hiện đánh giá hiệu suất mô hình Kimi K2.5, thu hút sự chú ý từ cộng đồng AI. Dữ liệu benchmark cho thấy khả năng xử lý nhiệm vụ tiên tiến, đặc biệt trong suy luận và xử lý văn bản dài. Thông tin do người dùng d4m1n chia sẻ trên X, đang được thảo luận sôi nổi. #AI #OpenAI #KimiAI #TríTuệNhânTạo #AIbenchmark
https://www.reddit.com/r/singularity/comments/1qqba7r/openai_benchmarked_kimi_k25/
Windows 11 est le dernier des Windows
https://fed.brid.gy/r/https://korben.info/windows-11-performances-degradation-benchmark.html
Meituan Longcat vừa ra mắt AMO Bench, bộ tiêu chuẩn đánh giá AI Toán học. Theo đó, Kimi k2 Thinking được xác định là AI tốt nhất về giải toán. AMO Bench gồm 50 bài toán mới, độ khó cấp IMO, chấm điểm tự động chính xác cao.
#AIBenchmark #MathAI #KimiK2Thinking #MeituanLongcat #TríTuệNhânTạo #ToánHọc
https://www.reddit.com/r/LocalLLaMA/comments/1p18lim/meituan_longcat_releases_amo_bench_kimi_k2/
xAI claims its new Grok 4.1 tops high‑difficulty benchmarks, showing stronger multi‑step reasoning than previous models. If you follow the race for the most capable LLMs, this update from Elon Musk’s lab is worth a look. How does it compare to other open‑source giants? Dive in for the details. #Grok41 #xAI #AIbenchmark #MultiStepReasoning
🔗 https://aidailypost.com/news/xai-says-grok-41-is-its-most-capable-model-beating-highdifficulty
AA-Omniscience: New AI Reliability Benchmark Reveals Top Models Are More Likely to Hallucinate
#AI #LLM #GenAI #AIBenchmark #Hallucination #AISafety #OpenAI #Anthropic #xAI #Grok #GPT51 #ClaudeAI
Cập nhật kết quả SWE-rebench: Sonnet 4.5, GPT-5-Codex, MiniMax M2... trên 51 nhiệm vụ mới #SWErebench #AI #MachineLearning #TríTuệNhânTạo #HọcMáy #SWErebenchUpdates #AIBenchmark
https://www.reddit.com/r/LocalLLaMA/comments/1owanay/updated_swerebench_results_sonnet_45_gpt5codex/
OpenAI launches GDPval to measure AI performance on real-world economic tasks
https://web.brid.gy/r/https://nerds.xyz/2025/09/openai-gdpval/
SWE-Bench Pro mới được ra mắt, tập trung vào giải quyết vấnô nhiễm bộ dữ liệu đánh giá AI. Công cụ quan trọng cho kiểm tra chất lượng mô hình AI trong lĩnh vực kỹ thuật phần mềm. #AI #MachineLearning #SWE-Bench #AIbenchmark #VietnamAI #CongNgheAI #AIVietnam
https://www.reddit.com/r/LocalLLaMA/comments/1nnmfne/swebench_pro_released_targeting_dataset/
Benchmark AI trên PC gaming với WSL2: RTX 4090 xử lý GPT-OSS-120B đạt 312.99 t/s (pp512), Qwen3 Coder 30B đạt 6392.5 t/s. Mẹo tối ưu: dùng iGPU cho màn hình, tắt Shared GPU Memory, bật XMP, điều chỉnh RAM trong WSL. #AIBenchmark #GamingPC #WSL2 #ViTinh #AI
https://www.reddit.com/r/LocalLLaMA/comments/1nmhtsg/wsl2_windows_gaming_pc_benchmarks/