Mastodawn

🌗 看看吧，沒有氣泡了！為 Llama-1B 設計低延遲巨核心
➤ 透過巨核心架構，大幅提升大型語言模型的效能與反應速度。
✤ https://hazyresearch.stanford.edu/blog/2025-05-27-no-bubbles
Hazy Research 團隊深入研究了在現代 GPU 上執行開源大型語言模型（LLM）的速度極限。他們發現，現有的 LLM 推理引擎（如 vLLM 和 SGLang）在執行 Llama-1B 時，僅能利用 GPU 頻寬的 50%。問題根源在於現有系統將模型前向傳播分解為數百個獨立的核心，導致頻繁的啟動和拆卸延遲，並阻礙了模型權重的持續加載。為了克服這一問題，研究團隊設計了一個「巨核心」（megakernel），將整個 Llama-1B 的前向傳播合併為單一核心，消除了核心邊界。結果顯示，該巨核心在 H100 上使用了 78% 的記憶體頻寬，效能提升了 1.5 倍以上，實現了目前已知的 Llama-1B 在 bfloat16 格式下的最低延遲前向傳播。
+ 這篇文章深入探討了 LLM 推理
#人工智慧 #深度學習 #GPU #效能優化

Look Ma, No Bubbles! Designing a Low-Latency Megakernel for Llama-1B