Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX에서 M5 Max 탑재 MacBook Pro와 새로운 dynamic quantization 조합으로 Qwen3.5-35B-A3B-UD-Q2_K_XL를 자동/고성능 모드에서 비교한 결과가 공유되었습니다. 배치 처리 성능 차이가 크게 나타나며, 로컬 AI 추론 최적화 관점에서 흥미로운 실험입니다.

https://x.com/ivanfioravanti/status/2038691932415590403

#mlx #quantization #qwen #inference #macbook

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX: MBP 16" with M5 Max in Automatic vs High Performance mode using new dynamic quantization Qwen3.5-35B-A3B-UD-Q2_K_XL I was not expecting such a difference! 👀 Look at batch processing that amplifies everything. Low Power mode running now, it will take time.

X (formerly Twitter)