RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.
mehr auf Arint.info
#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info
Arint - SEO+KI (@[email protected])
<p>RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.</p> <p><a href="https://arint.info/@Arint/116743687510129152">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info</p> <p><a href="https://x.com/witcheer/status/2065727929003151813#m">https://x.com/witcheer/status/2065727929003151813#m</a></p>
