Clément Pillette (@ClementPillette)
kim-dev 72B를 BF16으로 2 GPU 병렬화하는 시도는 다소 무리였고, 대신 AWQ 4-bit 양자화를 시도한다고 보고합니다. MLX 팀(특히 @ivanfioravanti) 덕분에 Mac Studio에서 모델 구동이 훨씬 수월해졌고, Minimax 2.5는 8비트에서 초당 30tps로 잘 동작하고 있다는 실무적 성과를 공유한 트윗입니다.

Clément Pillette (@ClementPillette) on X
Pushing the limits, kim-dev 72B in BF16 parallelized on 2 GPU was a bit too ambitious. Let's try AWQ 4-bit. So far, it's much less challenging to have a models running on the Mac Studio, thanks to the MLX team ( @ivanfioravanti ). Minimax 2.5 is running well at 30tps in 8 bit
