RT @vllm_project: 🚀 Es freut mich zu sehen, dass @RedHatAI und das Team von @poolsideai zusammenarbeiten, um Laguna XS.2 in vLLM schneller und kostengünstiger bereitzustellen. Ein DFlash-Spezulator, der mit Speculators entwickelt wurde, entnimft 8 Tokens pro Vorwärtsdurchlauf, was zu einer 2- bis 3-fach schnelleren Dekodierung ohne Qualitätsverlust führt. LLM Compressor ermöglicht FP8-, NVFP4- und INT4-Checkpoints, sodass Sie Ihr Hardware-Budget optimal nutzen können. 🔗 vllm.ai/blog/2026-05-28-lagu… Red Hat AI (@RedHatAI) hat Laguna XS.2 von @poolsideai, ein 33B-MoE-Modell für agentic coding, trainiert. Red Hat AI hat einen DFlash-Spezulator dafür entwickelt: 0,6B Drafter, 8 Tokens pro Durchlauf, ohne Qualitätsverlust. FP8-, NVFP4- und INT4-Checkpoints über LLM Compressor. Modelle in den Kommentaren. Geschwindigkeitssteigerung mit @vllmproject: Video — https://nitter.net/RedHatAI/status/2060714281717404005#m
mehr auf Arint.info
#AIOptimization #CodingAI #LLMCompressor #MachineLearning #RedHatAI #vLLM #arint_info






