Ivan Fioravanti ᯅ (@ivanfioravanti)

tensor-parallel을 사용하려면 num_k_heads와 num_v_heads가 3으로 나누어떨어져야 할 것 같아 머신 4대가 필요하지 않겠냐고 @angeloskath에게 확인하는 기술적 고민. 이 경우 M5 Ultra 2대를 추가로 구입해야 할 수도 있다는 인프라·모델 병렬화 관련 논의입니다.

https://x.com/ivanfioravanti/status/2034369592085090426

#tensorparallel #modelparallel #m5ultra #infrastructure

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Wait... I think num_k_heads and num_v_heads should be divisible by 3 to run tensor-parallel... so I'll need 4 machines, am I right @angeloskath ? In this case I will have to buy 2 M5 Ultra 👀

X (formerly Twitter)

Alex Cheema - e/acc (@alexocheema)

GLM-4.7-Flash를 4대의 M4 Pro Mac Mini에서 Exolabs를 통해 실행 중이라는 보고. Thunderbolt 기반 RDMA와 MLX 백엔드를 활용한 텐서 병렬화로 초당 약 100토큰 처리 성능을 기록하며, Exolabs에서 최적화를 진행해 동일 구성에서 약 200 tok/sec 달성을 목표로 하고 있음.

https://x.com/alexocheema/status/2013694573910937980

#glm #macmini #exolabs #rdma #tensorparallel

Alex Cheema - e/acc (@alexocheema) on X

Running GLM-4.7-Flash on 4 x M4 Pro Mac Minis using @exolabs. Uses tensor parallelism with RDMA over Thunderbolt & MLX backend (h/t @awnihannun). Runs at 100 tok/sec. We're working on optimizing this at @exolabs. Aiming to hit ~200 tok/sec on this setup soon.

X (formerly Twitter)

Bài hỏi về việc sử dụng Tensor Parallel (TP) khi không tất cả GPU là đồng loại. Người dùng muốn biết liệu có thể chia 50% tải cho RTX 6000 và 50% cho 4x RTX 3090 không? Đây là cách tiết kiệm khi chưa có GPU thêm. #TensorParallel #GPU #LocalLLaMA #TốiưuHệThống #TensorParallel #GPU #LocalLLaMA #OptimizeSystem

https://www.reddit.com/r/LocalLLaMA/comments/1pt0vbz/tensor_parallel_with_some_gpu_but_not_all/

Strix Halo thử nghiệm batching với tensor parallel và pipeline parallel trên vllm. Kết quả cho thấy TP (tensor parallel) cho hiệu năng tốt hơn PP (pipeline parallel). #AI #LLM #LocalLLaMA #StrixHalo #TensorParallel #PipelineParallel #TríTuệNhânTạo #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1p8nped/strix_halo_batching_with_tensor_parallel_and/