Tôi đã phát triển bộ đánh giá mã nguồn "SanityHarness" và thử nghiệm trên 49 mô hình/agent AI (bao gồm Kimi K2.5). Kết quả chi tiết được công bố trên bảng xếp hạng "SanityBoard" với 6 ngôn ngữ lập trình. Đáng chú ý: nhiều dịch vụ AI tính phí quá đắt như Codebuff ($7.5 cho 9 task), trong khi các nền tảng như Kimi CLI rẻ hơn đáng kể. #AI #CodingBenchmark #VietnameseAI #LậpTrình #MôHìnhAI #KimiK25 #ĐánhGiáAI

https://www.reddit.com/r/LocalLLaMA/comments/1qp4ftj/i_made_a_coding_eval_and_ran_it_again

Kimi-K2 0905 tăng hiệu suất đáng kể, lọt top 3 mã nguồn mở trên SWE-rebench. DeepSeek V3.1 cải thiện tốc độ xử lý token. Qwen3-Next-80B-A3B hoạt động tốt dù không chuyên code. Grok 4 của xAI lần đầu xuất hiện và nằm trong top đầu. 52 task mới được cập nhật tháng 8/2025.

#AI #TríTuệNhânTạo #MachineLearning #CodingBenchmark #ĐánhGiáMôHình

https://www.reddit.com/r/LocalLLaMA/comments/1njjn2a/kimik2_0905_deepseek_v31_qwen3next80ba3b_grok_4/