RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.

mehr auf Arint.info

#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info

https://x.com/witcheer/status/2065727929003151813#m

Arint - SEO+KI (@[email protected])

<p>RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.</p> <p><a href="https://arint.info/@Arint/116743687510129152">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info</p> <p><a href="https://x.com/witcheer/status/2065727929003151813#m">https://x.com/witcheer/status/2065727929003151813#m</a></p>

Mastodon Glitch Edition

RT @akshay_pachaar: Forscher haben einen Weg gefunden, LLMs um das 8,5-Fache zu beschleunigen! (ohne Kompromisse bei der Genauigkeit) Speculative Decoding ist eine äußerst effektive Methode, um das Single-Token-Bottleneck bei der herkömmlichen LLM-Inferenz zu adressieren. Ein kleines „Draft“-Modell generiert zunächst die nächsten mehrere Tokens, dann verifiziert das große Modell alle auf einmal in einem einzigen Forward-Pass. Falls ein Token an einer beliebigen Position falsch ist, behält man alles davor und startet von dort neu. Diese Methode schneidet nie schlechter ab als normales Decoding. Doch aktuelle Drafter im Speculative Decoding raten immer noch ein Token nach dem anderen. Das macht den Draft-Schritt selbst zu einem Engpass und begrenzt die realen Geschwindigkeitssteigerungen auf das 2- bis 3-Fache. DFlash ist eine neue Technik, die den autoregressiven Drafter durch ein leichtgewichtiges Block-Diffusionsmodell ersetzt, das alle Tokens in einem einzigen parallelen Schritt rät. Die Kosten für das Drafting bleiben konstant, unabhängig davon, wie viele Tokens man spekuliert. Darüber hinaus ist der Drafter auf versteckte Features konditioniert, die aus mehreren Schichten des Zielmodells gezogen und in jede Draft-Schicht injiziert werden, sodass er deutlich bessere Schätzungen abgibt als ein Drafter, der bei Null beginnt. In der unten gezeigten Gegenüberstellung läuft normales Decoding mit 48,5 Tokens/Sekunde. DFlash erreicht 415 Tokens/Sekunde auf demselben Modell, ohne Qualitätsverlust. Es ist bereits mit vLLM, SGLang und Transformers integriert, mit Draft-Modellen auf HuggingFace für ve…

mehr auf Arint.info

#AI #DFlash #LLM #MachineLearning #SpeculativeDecoding #arint_info

https://x.com/akshay_pachaar/status/2065111470552310109#m

Arint - SEO+KI (@[email protected])

<p>RT @akshay_pachaar: Forscher haben einen Weg gefunden, LLMs um das 8,5-Fache zu beschleunigen! (ohne Kompromisse bei der Genauigkeit) Speculative Decoding ist eine äußerst effektive Methode, um das Single-Token-Bottleneck bei der herkömmlichen LLM-Inferenz zu adressieren. Ein kleines „Draft“-Modell generiert zunächst die nächsten mehrere Tokens, dann verifiziert das große Modell alle auf einmal in einem einzigen Forward-Pass. Falls ein Token an einer beliebigen Position falsch ist, behält man alles davor und startet von dort neu. Diese Methode schneidet nie schlechter ab als normales Decoding. Doch aktuelle Drafter im Speculative Decoding raten immer noch ein Token nach dem anderen. Das macht den Draft-Schritt selbst zu einem Engpass und begrenzt die realen Geschwindigkeitssteigerungen auf das 2- bis 3-Fache. DFlash ist eine neue Technik, die den autoregressiven Drafter durch ein leichtgewichtiges Block-Diffusionsmodell ersetzt, das alle Tokens in einem einzigen parallelen Schritt rät. Die Kosten für das Drafting bleiben konstant, unabhängig davon, wie viele Tokens man spekuliert. Darüber hinaus ist der Drafter auf versteckte Features konditioniert, die aus mehreren Schichten des Zielmodells gezogen und in jede Draft-Schicht injiziert werden, sodass er deutlich bessere Schätzungen abgibt als ein Drafter, der bei Null beginnt. In der unten gezeigten Gegenüberstellung läuft normales Decoding mit 48,5 Tokens/Sekunde. DFlash erreicht 415 Tokens/Sekunde auf demselben Modell, ohne Qualitätsverlust. Es ist bereits mit vLLM, SGLang und Transformers integriert, mit Draft-Modellen auf HuggingFace für ve…</p> <p><a href="https://arint.info/@Arint/116735143174332898">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #DFlash #LLM #MachineLearning #SpeculativeDecoding #arint_info</p> <p><a href="https://x.com/akshay_pachaar/status/2065111470552310109#m">https://x.com/akshay_pachaar/status/2065111470552310109#m</a></p>

Mastodon Glitch Edition
🚀👏 Behold, the ultimate manifesto on "speculative decoding" – because why wouldn't you want to spend 19 minutes decoding nonsense about tokens, attention, and roofline maths? 🤯 It's like that one friend who insists on explaining their #crypto investments, but with even more #jargon and fewer results. 📉🔍
https://fergusfinn.com/blog/economics-of-speculative-decoding/ #speculativedecoding #attentiontokens #rooflinemaths #techhumor #HackerNews #ngated
The economics of speculative decoding

Two underexplored axes: what MoE routing does to the decode roofline, and how compressed attention takes away the slack that used to make speculated tokens free.

The economics of speculative decoding

Two underexplored axes: what MoE routing does to the decode roofline, and how compressed attention takes away the slack that used to make speculated tokens free.

Oh, wow, another groundbreaking collaboration 🦅🔧 from the EAGLE 3.1 team, #vLLM, and #TorchSpec, promising to revolutionize... speculative decoding! 🎉💡 Because who doesn't love to speculate while decoding? 🙄 Can't wait to see what this powerhouse trio will "speculate" on next! 🚀🔍
https://vllm.ai/blog/2026-05-26-eagle-3-1 #EAGLE3.1 #SpeculativeDecoding #TechInnovation #HackerNews #ngated
EAGLE 3.1: Advancing Speculative Decoding Through Collaboration Between the EAGLE Team, vLLM, and TorchSpec

The EAGLE series — including EAGLE 1, EAGLE 2, and EAGLE 3 — has become one of the most widely adopted and practically deployed families of speculative decoding

RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!

mehr auf Arint.info

#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info

https://x.com/danielhanchen/status/2055274688025378854#m

Arint - SEO+KI (@[email protected])

<p>RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!</p> <p><a href="https://arint.info/@Arint/116587929399884850">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info</p> <p><a href="https://x.com/danielhanchen/status/2055274688025378854#m">https://x.com/danielhanchen/status/2055274688025378854#m</a></p>

Mastodon Glitch Edition

RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, eine Steigerung von 1,4x vor nur zwei Tagen!

mehr auf Arint.info

#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info

https://x.com/danielhanchen/status/2055274688025378854#m

Arint - SEO+KI (@[email protected])

<p>RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, eine Steigerung von 1,4x vor nur zwei Tagen!</p> <p><a href="https://arint.info/@Arint/116579426735022973">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info</p> <p><a href="https://x.com/danielhanchen/status/2055274688025378854#m">https://x.com/danielhanchen/status/2055274688025378854#m</a></p>

Mastodon Glitch Edition

New research shows how speculative decoding trains a draft model to guess tokens, then verifies them with the main LLM—cutting compute and boosting token generation speed. The approach promises big gains in model efficiency and opens doors for open‑source AI training. Dive into the details! #SpeculativeDecoding #TokenGeneration #ModelEfficiency #OpenSourceAI

🔗 https://aidailypost.com/news/speculative-decoding-trains-drafter-guess-verify-llm-outputs

Researchers have discovered a clever trick: by embedding a mask token directly into the weight matrix, they can bypass the costly embedding lookup and generate up to three times faster token streams. The method works with parallel computation and speculative decoding, promising big gains for open‑source LLMs. Read on to see how ConfAdapt powers this speed‑up. #LLMinference #SpeculativeDecoding #MultiTokenPrediction #ModelAcceleration

🔗 https://aidailypost.com/news/researchers-embed-mask-token-llm-weights-achieve-3-faster-inference

The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works

A deep dive into PagedAttention, speculative decoding, FlashAttention, and continuous batching — the clever tricks that make modern LLMs respond in milliseconds instead of minutes.

TechLife