RT @DJLougen: Etwas, das die Leute vorerst bei Laune hält, ist dies eine Zwischenveröffentlichung. Sie ist eine Verbesserung der Ornstein-Reasoning und unterstützt MTP.

mehr auf Arint.info

#AI #HuggingFace #MTP #OpenSource #Ornstein #Support #arint_info

https://x.com/DJLougen/status/2067254339211522276#m

Arint - SEO+KI (@[email protected])

<p>RT @DJLougen: Etwas, das die Leute vorerst bei Laune hält, ist dies eine Zwischenveröffentlichung. Sie ist eine Verbesserung der Ornstein-Reasoning und unterstützt MTP.</p> <p><a href="https://arint.info/@Arint/116769122641816631">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #HuggingFace #MTP #OpenSource #Ornstein #Support #arint_info</p> <p><a href="https://x.com/DJLougen/status/2067254339211522276#m">https://x.com/DJLougen/status/2067254339211522276#m</a></p>

Mastodon Glitch Edition

@Killator

Laure Nouhala, a ecrit un livre qui s'appelle "comment rester ecolo sans finir dépressif ?"
Je ne me rappelle plus de tout le contenu.. elle precise quelle n'aurait jamais pu l'intituler "comment rester ecolo sans devenir dépressif ?"

Le lien a la nature et a notre environnement fait notre dépendance affective...

Elle ouvre 2 portes que j'ai retenu
-le travail qui relie #wtr #tqr johana #macy entre autre. A aborder avec son enfant en ayant compris les principes. La touche de boudhisme me dérange un chouïa. @amans peut en parler

-la marche du temps profond, #deeptimewalk #mtp est une experience qui existe pour des enfants...
1/2

 LOVE FOOTBALL HATE FIFA 

Un petit Monsieur M pour tous ceux qui aiment le ballon.

#Foot #CoupeDuMonde #AntiFascisme #ExtremeDroite #OM #SW87 #MTP

https://youtu.be/TzTwKLwz5SE

Monsieur M Amoureux du ballon rond

YouTube

 LOVE FOOTBALL HATE FIFA  

"Être de gauche et aimer le football, ça n’est pas toujours simple. La passion du ballon a souvent bien du mal à se justifier face aux dérives financières et idéologiques de ce sport ultra-médiatique. Entre les joueurs sommés de ne pas donner leur avis sur la politique, les compétitions organisées dans des dictatures, les tentatives (ratées) de la droite radicale pour s’emparer du sujet, comment concilier l’amour du jeu et la défense de nos idées ?"

#ExtremeDroite #Foot #CoupeDuMonde #AutoGestion #AntiFascisme #MFC1871 #Ultra #SW87 #MTP #OM
https://www.binge.audio/podcast/programme-b/faut-il-laisser-le-foot-a-la-droite"

binge.audio

Le réseau de podcast nouvelle génération

binge.audio

RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.

mehr auf Arint.info

#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info

https://x.com/witcheer/status/2065727929003151813#m

Arint - SEO+KI (@[email protected])

<p>RT @witcheer: TRANSLASION: Alle drei spekulativen Entwurfsmodelle für Gemma 4 wurden getestet: MTP vs. EAGLE-3 vs. DFlash. Das verwendete Modell ist 26B-A4B. Bei einem einzelnen Stream, gemittelt über drei Durchläufe, im Vergleich zu einer Basislinie von 193 Tokens pro Sekunde: DFlash 2,19x · MTP 2,13x · EAGLE-3 1,69x. Es ist ein sehr enges Rennen an der Spitze, und die Art und Weise, wie sie sich die Spitze teilen, ist der interessante Teil: MTP trifft 71 % seiner vier entworfenen Tokens. DFlash trifft nur 16 % seiner 15, entwirft aber den gesamten Block in einem einzigen parallelen Vorwärtsdurchlauf, anstatt den Entwurfsalgorithmus k-mal auszuführen, sodass es in der realen Ausführungszeit mit MTP mithalten kann. MTP gewinnt bei der Genauigkeit, DFlash bei den Entwurfskosten – dasselbe Ziel. EAGLE-3s schwererer autoregressiver Entwurf liegt zurück, da der pro-Schritt-Overhead den Gewinn bei einem kostengünstigen aktiven MoE aufzehrt. DFlash ist ein „Alles-oder-Nichts“-Modell: nahezu nutzlos bei Fließtext (1,04x), aber überlegen bei strukturiertem/wiederholendem Text (4,37x). Sein Block zahlt sich nur aus, wenn die nächsten 16 Tokens vorhersagbar sind. MTP ist der solide Allrounder. Wähle nach Arbeitslast: DFlash für Code/JSON/Logs, MTP für gemischte Texte oder Fließtext.</p> <p><a href="https://arint.info/@Arint/116743687510129152">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIModeling #DFlash #EAGLE3 #Gemma4 #MTP #SpeculativeDecoding #arint_info</p> <p><a href="https://x.com/witcheer/status/2065727929003151813#m">https://x.com/witcheer/status/2065727929003151813#m</a></p>

Mastodon Glitch Edition

RT @JoelDeTeves: Es sieht so aus, als ob das Qwen-Tool-Calling in @droid behoben wurde. Ich verwende @DJLougen Ornstein3.6-27B-MTP-NSC-ACE-SABER und es ist ein fantastisches Modell für allgemeine Programmieraufgaben. Es ist nicht nur intelligent, sondern auch ziemlich schnell, wobei MTP etwa 75 Token pro Sekunde erreicht. Das ist eine großartige lokale Kombination.

mehr auf Arint.info

#Coding #LocalAI #MTP #Ornstein3 #Qwen #ToolCalling #arint_info

https://x.com/JoelDeTeves/status/2064833144227049472#m

Arint - SEO+KI (@[email protected])

<p>RT @JoelDeTeves: Es sieht so aus, als ob das Qwen-Tool-Calling in @droid behoben wurde. Ich verwende @DJLougen Ornstein3.6-27B-MTP-NSC-ACE-SABER und es ist ein fantastisches Modell für allgemeine Programmieraufgaben. Es ist nicht nur intelligent, sondern auch ziemlich schnell, wobei MTP etwa 75 Token pro Sekunde erreicht. Das ist eine großartige lokale Kombination.</p> <p><a href="https://arint.info/@Arint/116729477649912916">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Coding #LocalAI #MTP #Ornstein3 #Qwen #ToolCalling #arint_info</p> <p><a href="https://x.com/JoelDeTeves/status/2064833144227049472#m">https://x.com/JoelDeTeves/status/2064833144227049472#m</a></p>

Mastodon Glitch Edition

Same week, small update: Run LLMs Locally

Multi-Token-Prediction (MTP) for Gemma-4-E4B and Gemma-4-26B from Unsloth. After 50% from QAT, this brings another 25-90% improvement in token generation speed.

The OpenCode config slide received a small update to reduce prompt sizes with "rtk" and "opencode-tool-search", reducing default prompt size by 60 percent.
Also added logging all prompts to the parameter list.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #localai #gemma4 #opencode #mtp #unsloth

New week, new slides and small updates: Run LLMs Locally

Added an example to create Mermaid diagrams in llama.cpp UI.
Added QAT (Quantization-Aware Training) variants of Gemma 4 which are 50 percent faster in token generation with my local setup.
Added definitions for Deterministic and Probabilistic results.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly #mellum2

Arint - SEO+KI (@[email protected])

<p>RT @2022_technology: llama.cpp unterstützt MTP für Gemma4</p> <p><a href="https://arint.info/@Arint/116712502392318080">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma4 #GGML #llama #MachineLearning #MTP #arint_info</p> <p><a href="https://x.com/2022_technology/status/2063619279854137557#m">https://x.com/2022_technology/status/2063619279854137557#m</a></p>

Mastodon Glitch Edition
Gemma 4 QAT is here - now I’m waiting for Ollama TurboQuant so the full stack is ready: QAT, MoE, sparse-active models, smarter attention, and MTP speculative decoding. #Gemma4 #Ollama #TurboQuant #QAT #MoE #MTP #LocalAI