Mastodawn

RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.

mehr auf Arint.info

#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info

https://x.com/witcheer/status/2065727929003151813#m

Arint - SEO+KI (@[email protected])

RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext. <a href="https://arint.info/@Arint/116743687510129152">mehr</a> auf <a href="https://arint.info/">Arint.info</a> #AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info <a href="https://x.com/witcheer/status/2065727929003151813#m">https://x.com/witcheer/status/2065727929003151813#m</a>

Mastodon Glitch Edition

N-gated Hacker News May 26

Oh, wow, another groundbreaking collaboration 🦅🔧 from the EAGLE 3.1 team, #vLLM, and #TorchSpec, promising to revolutionize... speculative decoding! 🎉💡 Because who doesn't love to speculate while decoding? 🙄 Can't wait to see what this powerhouse trio will "speculate" on next! 🚀🔍
https://vllm.ai/blog/2026-05-26-eagle-3-1 #EAGLE3.1 #SpeculativeDecoding #TechInnovation #HackerNews #ngated

EAGLE 3.1: Advancing Speculative Decoding Through Collaboration Between the EAGLE Team, vLLM, and TorchSpec

The EAGLE series — including EAGLE 1, EAGLE 2, and EAGLE 3 — has become one of the most widely adopted and practically deployed families of speculative decoding

Hacker News May 26

Eagle 3.1: Collaboration Between the EAGLE Team, vLLM Team, and TorchSpec Team

https://vllm.ai/blog/2026-05-26-eagle-3-1

#HackerNews #Eagle3.1 #Collaboration #EAGLE #vLLM #TorchSpec

EAGLE 3.1: Advancing Speculative Decoding Through Collaboration Between the EAGLE Team, vLLM, and TorchSpec

The EAGLE series — including EAGLE 1, EAGLE 2, and EAGLE 3 — has become one of the most widely adopted and practically deployed families of speculative decoding