Ich finde weiterhin die Themen maschinelles Lernen und Weltmodell super interessant. Sind euch in letzter Zeit spannende Ansätze aus der KI-Forschung aufgefallen jenseits von generativer KI und Transformer-Modellen, die in die Richtung gehen? Also die Idee, dass eine andere Architektur oder ein ganz anderer Ansatz mehr "Weltwissen", Weltmodell, Kontext oder generell mehr Generalisierbarkeit im maschinellen Lernen ermöglicht?
@evawolfangel passt vielleicht nicht ganz, aber was mich überrascht hat, dass Apple für das Codieren kein Transformer sondern ein Diffuser Modell verwendet hat. Stand zumindest so auf Hugging Face.
@Okuna @evawolfangel weiß nicht was du mit "codieren" meinst, aber Diffusion ist eine Form von generativen Modellen (die sind meistens entweder Diffusion/Flowmatching bei Bildern, Musik, Filmen etc. oder Autoregressiv bei Texten). Transformer ist die darunter liegende Architektur. Auch Diffusion Modelle sind heute fast alle Transformers basiert (kommt aber immer auf die Modalität an)
Apple Introduces DiffuCoder: A 7B Diffusion LLM Tailored for Code Generation

Apple unveils DiffuCoder, a 7B open-source diffusion LLM optimized for non-autoregressive and high-accuracy code generation tasks

MarkTechPost
@Okuna @evawolfangel das kannte ich noch nicht, danke. Es wird schon seit langem versucht Diffusion basierte LLMs zu bauen, bisher ist da aber nichts aus der Konzeptionsphase rausgekommen und auch Apples Modell ist ja eher ein kleines Testmodel und nichts für den ernsthaften Gebrauch. Tokenbasierte Autoregressive Modelle sind meiner Meinung nach auf lange Sicht eine Sackgasse. Ob Diffusion da besser ist, k.a. Das wird die Zeit zeigen.