vLLMを用いたモデル並列化手法の性能評価 - Qiita

はじめに 記事を開いていただきありがとうございます。三菱電機の佐々木です。 本記事では、LLM推論エンジンvLLMがサポートするモデル並列化手法であるテンソル並列、パイプライン並列、およびエキスパート並列について、複数GPUを搭載した単一ホスト環境で性能評価した結果を紹介...

Qiita