Alex Cheema (@alexocheema)

Kimi K2.5가 MacBook Pro와 4대의 M3 Ultra Mac Studio에서 구동된 사례 공유. ExoLabs(@exolabs)가 이기종 장치들로 구성된 메시에 분산 추론(distributed inference)을 지원하며, 향후 M5 Pro/Max/Ultra가 나오면 클러스터에 추가해 사용할 수 있다는 안내로 하드웨어-소프트웨어 혼합 클러스터 활용 사례를 소개.

https://x.com/alexocheema/status/2027815923684392973

#distributedinference #exolabs #kimi #m3ultra #macbookpro

Alex Cheema (@alexocheema) on X

Kimi K2.5 on MacBook Pro + 4 x M3 Ultra Mac Studios. @exolabs supports distributed inference on a mesh of heterogeneous devices. When M5 Pro/Max/Ultra lands, you can add it to your cluster.

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

사용자가 2대의 Ubuntu 서버에서 약 200GB 크기의 GLM-4.7-IQ4 모델을 이용해 분산 추론 실험을 진행했으며, 이후 약 500GB 규모의 GLM-5-Q4 모델로 확장하여 테스트하려는 계획을 언급함. 대용량 AI 모델의 분산 추론과 관련된 실험적 시도로, 대규모 언어 모델 운영 효율화에 도움이 될 만한 기술적 사례임.

https://x.com/AiXsatoshi/status/2025338288949916139

#glm5 #distributedinference #ubuntu #llm #ai

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

2x ubuntuでGLM-4.7-IQ4(約200GB)の分散推論の練習 次は500GB近くのGLM-5-Q4動かしたい

X (formerly Twitter)

Awni Hannun (@awnihannun)

mlx-lm 최신 버전이 공개되었습니다. 신규 모델 Kimi K2.5, Step3.5 flash, LongCat Flash lite(@kernelpool 기여) 추가되었고, mlx_lm.server로 분산 추론 지원(@angeloskath 기여)이 도입되었습니다. 또한 DeepSeek v3 등 MLA 기반 모델들의 속도 및 메모리 효율이 크게 개선되었습니다.

https://x.com/awnihannun/status/2019434709273718856

#mlxlm #llm #distributedinference #deepseek #opensource

Awni Hannun (@awnihannun) on X

Latest mlx-lm is out: - New models: Kimi K2.5, Step3.5 flash, LongCat Flash lite thanks to @kernelpool - Support for distributed inference with mlx_lm.server thanks to @angeloskath - Much faster and more memory efficient DeepSeek v3 (and other MLA-based models)

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX 분산 추론을 2대의 M3 Ultra(각 512GB)에서 Step-3.5-Flash-6bit 모델로 테스트 중이며, 로컬에서 구동되는 Space Invaders 게임을 Vite + JavaScript + Phaser 3 엔진으로 곧 공개할 예정이라는 개발/테스트 업데이트.

https://x.com/ivanfioravanti/status/2018643250769514905

#distributedinference #m3ultra #phaser3 #vite #javascript

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX Distributed inference testing with Step-3.5-Flash-6bit in progress on 2 x M3 Ultra 512GB. Space Invaders coded locally coming soon! 👾 Vite + JavaScript + Phaser 3 as engine.

X (formerly Twitter)
Announcing the llm-d community! | llm-d

Debut announcement of llm-d project and community