Bạn có thể để agent viết mã tự động benchmark llama.cpp và tìm cấu hình nhanh nhất cho mỗi model. Bằng cách liệt kê các flag (Flash Attention, KV cache, batch, offload…), chạy thử, ghi TPS và tạo script chạy tối ưu. Trên M1 Ultra đạt +8‑12% TPS, tốc độ nạp prompt nhanh hơn, không giảm chất lượng. Thử ngay! #llama_cpp #AI #benchmark #tuning #opensource #TríTuệNhânTạo