Opus 4.5 vừa lấy lại vị trí #1 trên bảng xếp hạng SWE-bench, nhưng với cách biệt rất nhỏ so với Gemini 3 (chỉ 0.2%). Opus 4.5 vẫn đắt hơn các mô hình khác đạt điểm cao. Cần đặt giới hạn bước (step limit) tối thiểu 100 để đạt hiệu suất tối đa.

#LLM #AI #Opus45 #Gemini3 #SWEbench #Vietnamese #tritue #congnghe

https://www.reddit.com/r/LocalLLaMA/comments/1p5wjia/opus_45_only_narrowly_reclaims_1_on_official/