RT @TeksEdge: TRANSLASION: 🚀 vLLM v0.20.0 ist da! Ich freue mich auf TurboQuant! • 752 Commits von 320 Mitwirkenden (123 neue) 🎉 • TurboQuant 2-Bit KV-Cache → 4× Kapazität + FA3/FA4 Prefill 🗜️⚡ • FA4 wieder als Standard-MLA-Prefill aktiviert (SM90+ GPUs) • vLLM-IR-Grundlage + rmsnorm (zukünftige Kernel-Basis) 🧱 • 2,1 % E2E-Latenzgewinn durch fused RMS norm 📈 Neue Baselines: CUDA 13, PyTorch 2.11, Python 3.14, Transformers v5 Hardware/Modelle • DeepSeek V4 (MegaMoE auf Blackwell) + Hunyuan v3 Preview 🔥 • Jetson Thor, AMD ROCm-Upgrades, Intel XPU-Unterstützung • Einfachere GB200/Grace-Blackwell-Einrichtung Großes Update! vLLM (@vllmproject) vLLM v0.20.0 ist da! 752 Commits von 320 Mitwirkenden (123 neue). 🎉 Highlights: DeepSeek V4, Hunyuan v3 Preview-Unterstützung, CUDA 13 / PyTorch 2.11 / Transformers v5 als Baseline, FA4 als Standard-MLA-Prefill, TurboQuant 2-Bit KV (4× Kapazität), vLLM-IR-Grundlage. Thread 👇 — https://nitter.net/vllmproject/status/2048918629144805619#m
mehr auf Arint.info
#AIInfrastructure #DeepSeekV4 #LLM #MachineLearning #TurboQuant #vLLM #arint_info




