Ivan Fioravanti ᯅ (@ivanfioravanti)
vllm-metal에서 PR 작업을 통해 M3 Ultra에서 최대 32K 컨텍스트로 Qwen3-0.6B 테스트를 실행한 내용이 공유됐다. mlx-lm이 여전히 더 낫다고 언급하며, TTFT는 적절한 지표가 아니고 개선 작업이 진행 중이라고 밝혔다. 히트맵과 Prefill/Decode 차트도 업데이트됐다.

Ivan Fioravanti ᯅ (@ivanfioravanti) on X
I did my first PR on vllm-metal and I was able to run tests with up to 32K context on M3 Ultra with Qwen3-0.6B. mlx-lm is still the winner and TTFT is not the correct one there, improvement is WIP. Mega heatmap andPrefill/Decode charts updated. ctx rows leverages caching.






