Strix Halo thử nghiệm batching với tensor parallel và pipeline parallel trên vllm. Kết quả cho thấy TP (tensor parallel) cho hiệu năng tốt hơn PP (pipeline parallel). #AI #LLM #LocalLLaMA #StrixHalo #TensorParallel #PipelineParallel #TríTuệNhânTạo #MôHìnhNgônNgữ
https://www.reddit.com/r/LocalLLaMA/comments/1p8nped/strix_halo_batching_with_tensor_parallel_and/