Một người dùng đang tìm kiếm thiết lập tối ưu cho mô hình gpt-oss-20b trên card GPU 24GB VRAM nhưng chỉ đạt 23 token/giây (so với mức 100 token/giây do cộng đồng báo cáo). Cấu hình hiện tại: context 64k, batch 8096, threads-batch 10, và các tùy chọn --mlock, --no-mmap. Ai có kinh nghiệm tối ưu hóa mô hình AI trên VRAM mời chia sẻ phương pháp!
#AI #machinelearning #technology #GPU #AIperf #gpt #tốiưuhoáAI #môhìnhrời
https://www.reddit.com/r/LocalLLaMA/comments/1poz1p7/optimal_gptoss20b_settin