Daniel T. Vela (@danieltvela)

mlx-community의 qwen3.5-35b-a3b가 M4 Pro(14c)에서 83.87 tok/sec로 매우 빠르게 동작하는 반면, 같은 프롬프트로 Qwen의 GGUF 버전은 LM Studio에서 35.45 tok/sec로 절반 수준의 성능을 보여 큰 차이가 발생함을 보고하며 원인(포맷·옵티마이제이션·런타임 등)을 묻고 있음.

https://x.com/danieltvela/status/2028123896600211792

#qwen #gguf #lmstudio #benchmark #m4pro

Daniel T. Vela (@danieltvela) on X

mlx-community/qwen3.5-35b-a3b runs at 83.87 tok/sec on my M4 Pro (14c). Impressive!!! But GGUF version by Qwen only runs at 35.45 tok/sec with the same prompt. Both using LM Studio. Anyone knows why? @alexocheema @Prince_Canuma @ivanfioravanti

X (formerly Twitter)