Một người dùng đang tìm kiếm thiết lập tối ưu cho mô hình gpt-oss-20b trên card GPU 24GB VRAM nhưng chỉ đạt 23 token/giây (so với mức 100 token/giây do cộng đồng báo cáo). Cấu hình hiện tại: context 64k, batch 8096, threads-batch 10, và các tùy chọn --mlock, --no-mmap. Ai có kinh nghiệm tối ưu hóa mô hình AI trên VRAM mời chia sẻ phương pháp!

#AI #machinelearning #technology #GPU #AIperf #gpt #tốiưuhoáAI #môhìnhrời

https://www.reddit.com/r/LocalLLaMA/comments/1poz1p7/optimal_gptoss20b_settin

Việc chạy gpt-oss-120b trên LM Studio với 16GB VRAM và 80GB RAM đạt 6.5 tokens/giây. Nâng cấp 2 GPU 5060Ti & RAM 128GB có cải thiện hiệu suất? #LocalLLaMA #AIperf #TốiưuHARD #HardwareUpgrade

https://www.reddit.com/r/LocalLLaMA/comments/1pi6x6c/improving_tps_from_gptoss120b_on_16gb_vram_80gb/