Daniel T. Vela (@danieltvela)
mlx-community의 qwen3.5-35b-a3b가 M4 Pro(14c)에서 83.87 tok/sec로 매우 빠르게 동작하는 반면, 같은 프롬프트로 Qwen의 GGUF 버전은 LM Studio에서 35.45 tok/sec로 절반 수준의 성능을 보여 큰 차이가 발생함을 보고하며 원인(포맷·옵티마이제이션·런타임 등)을 묻고 있음.
Daniel T. Vela (@danieltvela)
mlx-community의 qwen3.5-35b-a3b가 M4 Pro(14c)에서 83.87 tok/sec로 매우 빠르게 동작하는 반면, 같은 프롬프트로 Qwen의 GGUF 버전은 LM Studio에서 35.45 tok/sec로 절반 수준의 성능을 보여 큰 차이가 발생함을 보고하며 원인(포맷·옵티마이제이션·런타임 등)을 묻고 있음.