Awni Hannun (@awnihannun)

Qwen3.5가 mlx-lm에서 잘 동작하며 프런티어급 하이브리드 모델이라는 평가. 컨텍스트 길이는 증가하지만 추론 속도와 메모리 사용은 거의 변하지 않음. 예시로 M3 Ultra에서 Q4가 스페이스 인베이더 게임을 생성했고, 4,120토큰을 37.6 tok/s 속도로 생성했다.

https://x.com/awnihannun/status/2023462412092059679

#qwen #mlxlm #m3ultra #generative

Awni Hannun (@awnihannun) on X

Qwen3.5 runs quite well in mlx-lm. Awesome that we have a frontier-level hybrid model. The context gets longer but the inference speed and memory use barely change. Here's the Q4 generating a space invaders game on an M3 Ultra. Generated 4,120 tokens at 37.6 tok/s.

X (formerly Twitter)