🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/
🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/
Accelerating Gemma 4: faster inference with multi-token prediction drafters
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
#HackerNews #Gemma4 #Accelerated #Inference #MultiTokenPrediction #AI
Researchers have discovered a clever trick: by embedding a mask token directly into the weight matrix, they can bypass the costly embedding lookup and generate up to three times faster token streams. The method works with parallel computation and speculative decoding, promising big gains for open‑source LLMs. Read on to see how ConfAdapt powers this speed‑up. #LLMinference #SpeculativeDecoding #MultiTokenPrediction #ModelAcceleration
🔗 https://aidailypost.com/news/researchers-embed-mask-token-llm-weights-achieve-3-faster-inference
Alibaba's new Qwen 3.5 397B-A17 outperforms even larger rivals by using multi-token prediction and a sparse mixture-of-experts architecture. It cuts inference cost while keeping top-tier performance, hinting at a new era for multimodal AI. Curious how 397 billion parameters can be cheaper? Read the full story. #Qwen3_5 #AlibabaAI #MixtureOfExperts #MultiTokenPrediction
🔗 https://aidailypost.com/news/alibabas-qwen-35-397b-a17-beats-larger-model-via-multitoken
Apple przyspiesza działanie modeli AI nawet 5 razy
Apple opublikowało badania opisujące nową technikę, która pozwala modelom językowym (LLM) generować odpowiedzi nawet pięć razy szybciej, bez utraty jakości.
Tradycyjnie modele LLM tworzą tekst token po tokenie (autoregresja), co spowalnia proces. Apple odkryło, że modele – mimo trenowania na przewidywanie jednego tokena – mają wiedzę o kilku kolejnych. Na tej podstawie powstał framework Multi-Token Prediction (MTP), w którym model przewiduje naraz kilka tokenów.
Badacze wprowadzili specjalne tokeny maskujące w treści promptów (np. „Kot jest ”), które model wypełnia w jednym kroku („bardzo puszysty”). Jeśli przewidywanie nie jest zgodne z klasycznym trybem, system wraca do standardowej metody. Dzięki temu zachowana jest wysoka dokładność.
Testy z modelem open-source Tulu3-8B pokazały:
Pełny artykuł naukowy dostępny jest na stronach arXiv.
#aiApple #Apple #AppleIntelligence #badaniaApple #gatedLoRAAdaptation #generowanieTekstu #LLM #modeleJęzykowe #MTP #MultiTokenPrediction #optymalizacjaAI #przyspieszenieAI #sztucznaInteligencja #szybkieAI #Tulu38B