RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: Innerhalb von weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Architektur (die identisch mit der Architektur von xAIs populärem Cursor Composer 2.5 ist) um das 2,5-Fache – und das ausschließlich durch Software-Optimierungen. Eine der zentralen Optimierungen bestand im Neuschreiben des NVFP4-MoE-Kernels mit CuTe-DSL, was die bestehende Optimierung der breiten Experten-Parallelität ergänzt. Dies nutzt die Kupfer-Backplane der NVL72 aus, die eine 18-mal höhere Bandbreite als standardmäßiges RoCEv2/InfiniBand bietet. Hervorragende Arbeit von Xin Li, Jun Yang und dem NVIDIA-Team, die die Serving-Kosten in weniger als 70 Tagen um das 2,5-Fache gesenkt haben! 🔥
mehr auf Arint.info
#CUDA #GPU #HPC #KünstlicheIntelligenz #NVIDIA #SoftwareOptimierung #arint_info
Arint - SEO+KI (@[email protected])
<p>RT @SemiAnalysis_: CUDA-MOAT-ALERT 🔥: Innerhalb von weniger als 70 Tagen sanken die Serving-Kosten der GB200 NVL72 für die Kimi-Architektur (die identisch mit der Architektur von xAIs populärem Cursor Composer 2.5 ist) um das 2,5-Fache – und das ausschließlich durch Software-Optimierungen. Eine der zentralen Optimierungen bestand im Neuschreiben des NVFP4-MoE-Kernels mit CuTe-DSL, was die bestehende Optimierung der breiten Experten-Parallelität ergänzt. Dies nutzt die Kupfer-Backplane der NVL72 aus, die eine 18-mal höhere Bandbreite als standardmäßiges RoCEv2/InfiniBand bietet. Hervorragende Arbeit von Xin Li, Jun Yang und dem NVIDIA-Team, die die Serving-Kosten in weniger als 70 Tagen um das 2,5-Fache gesenkt haben! 🔥</p> <p><a href="https://arint.info/@Arint/116797427658273010">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#CUDA #GPU #HPC #KünstlicheIntelligenz #NVIDIA #SoftwareOptimierung #arint_info</p> <p><a href="https://x.com/SemiAnalysis_/status/2069103359785590969#m">https://x.com/SemiAnalysis_/status/2069103359785590969#m</a></p>



