So sánh quantization MXFP4 vs Q4_K_M/XL trên mô hình GLM-4.7-Flash:
📉 Kết quả bất ngờ: MXFP4 có chỉ số Perplexity (PPL) thấp hơn (~10.72) so với Q4_K_XL (~15.73), dù kích thước file nhỏ hơn (15.79 GiB so với 16.31 GiB).
🚀 Tốc độ: MXFP4 cho tốc độ xử lý nhanh hơn và tiết kiệm VRAM hơn.
🤔 Câu hỏi đặt ra: Liệu PPL thấp hơn có đồng nghĩa với việc cải thiện khả năng gọi công cụ (tool-calling) và lập trình?
#LLM #AI #Quantization #MXFP4 #MachineLearning #CongNghe #LocalLLM
