Ivan Fioravanti ᯅ (@ivanfioravanti)

tensor-parallel을 사용하려면 num_k_heads와 num_v_heads가 3으로 나누어떨어져야 할 것 같아 머신 4대가 필요하지 않겠냐고 @angeloskath에게 확인하는 기술적 고민. 이 경우 M5 Ultra 2대를 추가로 구입해야 할 수도 있다는 인프라·모델 병렬화 관련 논의입니다.

https://x.com/ivanfioravanti/status/2034369592085090426

#tensorparallel #modelparallel #m5ultra #infrastructure

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Wait... I think num_k_heads and num_v_heads should be divisible by 3 to run tensor-parallel... so I'll need 4 machines, am I right @angeloskath ? In this case I will have to buy 2 M5 Ultra 👀

X (formerly Twitter)

Awni Hannun (@awnihannun)

MLX Distributed에서 텐서 병렬성(tensor parallelism)이 어떻게 동작하는지 저수준 연산부터 텐서 병렬 Llama 추론(full tensor-parallel Llama inference)까지 설명한 블로그 포스트를 소개하는 글입니다. 분산·병렬화 설계와 추론 최적화 관점에서 유용한 기술자료입니다.

https://x.com/awnihannun/status/2016595555569586442

#tensorparallelism #mlxdistributed #llama #modelparallel

Awni Hannun (@awnihannun) on X

This is a nice blog post on how tensor parallelism works with MLX distributed. From the low level ops all the way up to full tensor-parallel Llama inference:

X (formerly Twitter)