Awni Hannun (@awnihannun)
LFM2.5가 mlx-lm에서 M5 노트북으로 매우 빠른 prefill 성능을 보였습니다. 전체 정밀도 모델이 28k 토큰 프롬프트를 6초 미만(<6s)에 처리(>5k tok/s)하여, 소형 기기와 뉴럴 가속기를 활용한 온디바이스 추론에 적합한 경량 모델 후보로 평가됩니다.
Awni Hannun (@awnihannun)
LFM2.5가 mlx-lm에서 M5 노트북으로 매우 빠른 prefill 성능을 보였습니다. 전체 정밀도 모델이 28k 토큰 프롬프트를 6초 미만(<6s)에 처리(>5k tok/s)하여, 소형 기기와 뉴럴 가속기를 활용한 온디바이스 추론에 적합한 경량 모델 후보로 평가됩니다.
Awni Hannun (@awnihannun)
2026년 첫 mlx-lm 릴리스를 발표했습니다. pip로 mlx-lm을 업그레이드하면 다수의 신규 모델이 추가되고 mlx_lm.server의 도구 호출 및 추론 지원이 크게 개선되며, mxfp8 및 nvfp4 양자화 형식 지원이 포함됩니다(사전 릴리스 mlx 필요). 기여자로 kernelpool, John Mai가 언급됩니다.

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)
mzba (@LiMzba)
로컬 머신에서 실행 가능한 지능형 모델 MiniMax 2.1 사용 예시를 공개했습니다. GitHub의 mlx-lm 레포를 클론하고 설치한 뒤 mlx_lm.server 명령으로 mlx-community/MiniMax-M2.1-4bit 모델을 로드해 로컬에서 동작시키는 방법을 소개합니다.
mzba (@LiMzba)
로컬에서 실행되는 인텔리전스 모델 경험: MLX 리포지토리를 클론·설치한 뒤 mlx_lm.server로 mlx-community/MiniMax-M2.1-4bit 모델을 로컬에서 구동해 Minimax 2.1(4bit)의 로컬 실행을 시연했습니다.
Awni Hannun (@awnihannun)
mlx-lm의 2026년 첫 정식 릴리스가 공개되었습니다. 다수의 신규 모델 추가, mlx_lm.server에서 툴 호출과 추론(reasoning) 지원 대폭 개선, mxfp8 및 nvfp4 양자화 지원 등 주요 기능이 포함되어 있으며 nvfp4/mxfp8 지원은 사전 릴리스 mlx가 필요합니다. (기여자: @kernelpool, @JohnMai_Dev)

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)
Romario Yabar (@ryabarv)
MLX-LM이 Anthropic의 API 구조와 유사한지 여부를 묻는 짧은 질문형 트윗으로, MLX-LM과 Anthropic API 간의 호환성 또는 설계 유사성에 대한 논의를 암시합니다.
Awni Hannun (@awnihannun)
MiniMax M2.1을 4비트로 양자화해 Apple M3 Ultra에서 mlx-lm으로 구동했습니다. 5098 토큰으로 Space Invaders 게임을 생성했고 처리 속도는 초당 약 47.2 토큰을 기록하여, 경량화(4-bit)된 LLM의 실사용 성능 및 게임 생성 같은 창의적 애플리케이션 가능성을 보여줍니다.