Apple opracowuje model językowy, który generuje długie teksty nawet 128 razy szybciej

Naukowcy Apple i Ohio State University przedstawili nowy model językowy FS-DFM (Few-Step Discrete Flow-Matching), zdolny do generowania pełnych fragmentów tekstu w zaledwie 8 szybkich krokach, osiągając jakość porównywalną z tradycyjnymi modelami dyfuzyjnymi wymagającymi ponad tysiąca iteracji.

Kluczowe różnice:

  • Autoregresywne modele LLM (np. ChatGPT) generują tekst sekwencyjnie, token po tokenie.
  • Modele dyfuzyjne wytwarzają wiele tokenów jednocześnie, udoskonalając je w wielu krokach.
  • Flow-matching pozwala uzyskać końcowy wynik w jednym przebiegu, pomijając wieloetapowe iteracje.

FS-DFM korzysta z trzystopniowej metody: dostosowuje się do różnych liczby iteracji, wspiera go model „nauczycielski” dla większej precyzji oraz optymalizuje każdy krok, aby przyspieszyć generowanie tekstu.

W testach model osiągnął niższą perplexity (dokładniejszy, naturalniejszy tekst) i stabilniejszą entropię (bardziej spójny dobór słów) w porównaniu z większymi modelami dyfuzyjnymi, nawet przy mniejszej liczbie parametrów (1,7 – 0,17 mld).

Apple planuje udostępnić kod i checkpointy FS-DFM, aby umożliwić dalsze badania i reprodukcję wyników.

#AI #AIresearch #Apple #arXiv #badaniaApple #dyfuzja #flowmatching #FSDFM #generowanietekstu #innowacjeAI #LLM #modelejęzykowe #NLP #sztucznainteligencja #szybkiegenerowanietekstu #technologia

Apple przyspiesza działanie modeli AI nawet 5 razy

Apple opublikowało badania opisujące nową technikę, która pozwala modelom językowym (LLM) generować odpowiedzi nawet pięć razy szybciej, bez utraty jakości.

Tradycyjnie modele LLM tworzą tekst token po tokenie (autoregresja), co spowalnia proces. Apple odkryło, że modele – mimo trenowania na przewidywanie jednego tokena – mają wiedzę o kilku kolejnych. Na tej podstawie powstał framework Multi-Token Prediction (MTP), w którym model przewiduje naraz kilka tokenów.

Badacze wprowadzili specjalne tokeny maskujące w treści promptów (np. „Kot jest ”), które model wypełnia w jednym kroku („bardzo puszysty”). Jeśli przewidywanie nie jest zgodne z klasycznym trybem, system wraca do standardowej metody. Dzięki temu zachowana jest wysoka dokładność.

Testy z modelem open-source Tulu3-8B pokazały:

  • 2–3 razy szybsze działanie w typowych zadaniach (Q&A, czat)
  • do 5 razy szybsze w przewidywalnych domenach, takich jak programowanie i matematyka
  • brak utraty jakości dzięki technice gated LoRA adaptation

Pełny artykuł naukowy dostępny jest na stronach arXiv.

#aiApple #Apple #AppleIntelligence #badaniaApple #gatedLoRAAdaptation #generowanieTekstu #LLM #modeleJęzykowe #MTP #MultiTokenPrediction #optymalizacjaAI #przyspieszenieAI #sztucznaInteligencja #szybkieAI #Tulu38B