Ivan Fioravanti ᯅ (@ivanfioravanti)

tensor-parallel을 사용하려면 num_k_heads와 num_v_heads가 3으로 나누어떨어져야 할 것 같아 머신 4대가 필요하지 않겠냐고 @angeloskath에게 확인하는 기술적 고민. 이 경우 M5 Ultra 2대를 추가로 구입해야 할 수도 있다는 인프라·모델 병렬화 관련 논의입니다.

https://x.com/ivanfioravanti/status/2034369592085090426

#tensorparallel #modelparallel #m5ultra #infrastructure

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Wait... I think num_k_heads and num_v_heads should be divisible by 3 to run tensor-parallel... so I'll need 4 machines, am I right @angeloskath ? In this case I will have to buy 2 M5 Ultra 👀

X (formerly Twitter)