Alex Cheema - e/acc (@alexocheema)
GLM-4.7-Flash를 4대의 M4 Pro Mac Mini에서 Exolabs를 통해 실행 중이라는 보고. Thunderbolt 기반 RDMA와 MLX 백엔드를 활용한 텐서 병렬화로 초당 약 100토큰 처리 성능을 기록하며, Exolabs에서 최적화를 진행해 동일 구성에서 약 200 tok/sec 달성을 목표로 하고 있음.

Alex Cheema - e/acc (@alexocheema) on X
Running GLM-4.7-Flash on 4 x M4 Pro Mac Minis using @exolabs. Uses tensor parallelism with RDMA over Thunderbolt & MLX backend (h/t @awnihannun). Runs at 100 tok/sec. We're working on optimizing this at @exolabs. Aiming to hit ~200 tok/sec on this setup soon.