Awni Hannun (@awnihannun)

LFM2.5가 mlx-lm에서 M5 노트북으로 매우 빠른 prefill 성능을 보였습니다. 전체 정밀도 모델이 28k 토큰 프롬프트를 6초 미만(<6s)에 처리(>5k tok/s)하여, 소형 기기와 뉴럴 가속기를 활용한 온디바이스 추론에 적합한 경량 모델 후보로 평가됩니다.

https://x.com/awnihannun/status/2008569887124582883

#lfm2.5 #edgeai #mlxlm #ondevice

Awni Hannun (@awnihannun) on X

LFM2.5 has pretty fast prefill on an M5 laptop with mlx-lm. The full precision model processes a 28k token prompt in < 6 seconds (>5k tok/s). Could be a very nice model for small devices with neural accelerators.

X (formerly Twitter)

Awni Hannun (@awnihannun)

2026년 첫 mlx-lm 릴리스를 발표했습니다. pip로 mlx-lm을 업그레이드하면 다수의 신규 모델이 추가되고 mlx_lm.server의 도구 호출 및 추론 지원이 크게 개선되며, mxfp8 및 nvfp4 양자화 형식 지원이 포함됩니다(사전 릴리스 mlx 필요). 기여자로 kernelpool, John Mai가 언급됩니다.

https://x.com/awnihannun/status/2008342409386618882

#mlxlm #quantization #mxfp8 #nvfp4 #llm

Awni Hannun (@awnihannun) on X

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)

X (formerly Twitter)

mzba (@LiMzba)

로컬 머신에서 실행 가능한 지능형 모델 MiniMax 2.1 사용 예시를 공개했습니다. GitHub의 mlx-lm 레포를 클론하고 설치한 뒤 mlx_lm.server 명령으로 mlx-community/MiniMax-M2.1-4bit 모델을 로드해 로컬에서 동작시키는 방법을 소개합니다.

https://x.com/LiMzba/status/2008312337158074770

#minimax #mlx #mlxlm #localai #llm

mzba (@LiMzba) on X

I wasn't expecting such an intelligence model on my local machine. Minimax 2.1 on MLX🔥 git clone https://t.co/eI9y8MDLII cd mlx-lm && pip install -e . mlx_lm.server --model mlx-community/MiniMax-M2.1-4bit

X (formerly Twitter)

mzba (@LiMzba)

로컬에서 실행되는 인텔리전스 모델 경험: MLX 리포지토리를 클론·설치한 뒤 mlx_lm.server로 mlx-community/MiniMax-M2.1-4bit 모델을 로컬에서 구동해 Minimax 2.1(4bit)의 로컬 실행을 시연했습니다.

https://x.com/LiMzba/status/2008312337158074770

#minimax #localllm #mlxlm #4bit

mzba (@LiMzba) on X

I wasn't expecting such an intelligence model on my local machine. Minimax 2.1 on MLX🔥 git clone https://t.co/eI9y8MDLII cd mlx-lm && pip install -e . mlx_lm.server --model mlx-community/MiniMax-M2.1-4bit

X (formerly Twitter)

Awni Hannun (@awnihannun)

mlx-lm의 2026년 첫 정식 릴리스가 공개되었습니다. 다수의 신규 모델 추가, mlx_lm.server에서 툴 호출과 추론(reasoning) 지원 대폭 개선, mxfp8 및 nvfp4 양자화 지원 등 주요 기능이 포함되어 있으며 nvfp4/mxfp8 지원은 사전 릴리스 mlx가 필요합니다. (기여자: @kernelpool, @JohnMai_Dev)

https://x.com/awnihannun/status/2008342409386618882

#mlxlm #quantization #mxfp8 #nvfp4 #tooling

Awni Hannun (@awnihannun) on X

First release of mlx-lm in 2026 is packed: pip install -U mlx-lm - Bunch of new models (h/t @kernelpool, @JohnMai_Dev) - Much better support for tool calling and reasoning in mlx_lm.server - Support for mxfp8 and nvfp4 quantization (require pre-release mlx)

X (formerly Twitter)

Romario Yabar (@ryabarv)

MLX-LM이 Anthropic의 API 구조와 유사한지 여부를 묻는 짧은 질문형 트윗으로, MLX-LM과 Anthropic API 간의 호환성 또는 설계 유사성에 대한 논의를 암시합니다.

https://x.com/ryabarv/status/2004602615121019048

#mlxlm #anthropic #api #llm

Romario Yabar (@ryabarv) on X

@ivanfioravanti MLX-LM with Anthropic API structure? 🚀

X (formerly Twitter)

Awni Hannun (@awnihannun)

MiniMax M2.1을 4비트로 양자화해 Apple M3 Ultra에서 mlx-lm으로 구동했습니다. 5098 토큰으로 Space Invaders 게임을 생성했고 처리 속도는 초당 약 47.2 토큰을 기록하여, 경량화(4-bit)된 LLM의 실사용 성능 및 게임 생성 같은 창의적 애플리케이션 가능성을 보여줍니다.

https://x.com/awnihannun/status/2004571219874721864

#minimax #quantization #mlxlm #m3ultra #llm