Ollama가 Apple의 ML 프레임워크 MLX 기반으로 Apple Silicon(M5/M5 Pro/M5 Max)에서 미리보기로 가속됩니다. Qwen3.5-35B-A3B에서 prefill·decode 속도 크게 향상되고 NVFP4 양자화로 생산 환경과 동등한 품질 유지가 가능해졌습니다. 캐시 재사용·스마트 체크포인트·스마트 삭제로 응답성·메모리 효율 개선. Ollama 0.19 공개(통합메모리 32GB 권장).

https://ollama.com/blog/mlx

#applesilicon #mlx #nvfp4 #localllm #performance

Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

Today, we're previewing the fastest way to run Ollama on Apple silicon, powered by MLX, Apple's machine learning framework.