Ivan Fioravanti ᯅ (@ivanfioravanti)
tensor-parallel을 사용하려면 num_k_heads와 num_v_heads가 3으로 나누어떨어져야 할 것 같아 머신 4대가 필요하지 않겠냐고 @angeloskath에게 확인하는 기술적 고민. 이 경우 M5 Ultra 2대를 추가로 구입해야 할 수도 있다는 인프라·모델 병렬화 관련 논의입니다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
tensor-parallel을 사용하려면 num_k_heads와 num_v_heads가 3으로 나누어떨어져야 할 것 같아 머신 4대가 필요하지 않겠냐고 @angeloskath에게 확인하는 기술적 고민. 이 경우 M5 Ultra 2대를 추가로 구입해야 할 수도 있다는 인프라·모델 병렬화 관련 논의입니다.
Awni Hannun (@awnihannun)
MLX Distributed에서 텐서 병렬성(tensor parallelism)이 어떻게 동작하는지 저수준 연산부터 텐서 병렬 Llama 추론(full tensor-parallel Llama inference)까지 설명한 블로그 포스트를 소개하는 글입니다. 분산·병렬화 설계와 추론 최적화 관점에서 유용한 기술자료입니다.