Mastodawn

Ich finde weiterhin die Themen maschinelles Lernen und Weltmodell super interessant. Sind euch in letzter Zeit spannende Ansätze aus der KI-Forschung aufgefallen jenseits von generativer KI und Transformer-Modellen, die in die Richtung gehen? Also die Idee, dass eine andere Architektur oder ein ganz anderer Ansatz mehr "Weltwissen", Weltmodell, Kontext oder generell mehr Generalisierbarkeit im maschinellen Lernen ermöglicht?

Show thread

Okuna

@evawolfangel passt vielleicht nicht ganz, aber was mich überrascht hat, dass Apple für das Codieren kein Transformer sondern ein Diffuser Modell verwendet hat. Stand zumindest so auf Hugging Face.

Show thread

Kai Feb 16

@Okuna @evawolfangel weiß nicht was du mit "codieren" meinst, aber Diffusion ist eine Form von generativen Modellen (die sind meistens entweder Diffusion/Flowmatching bei Bildern, Musik, Filmen etc. oder Autoregressiv bei Texten). Transformer ist die darunter liegende Architektur. Auch Diffusion Modelle sind heute fast alle Transformers basiert (kommt aber immer auf die Modalität an)

Show thread

Okuna Feb 16

@kaidu @evawolfangel codieren heisst code schreiben für mich.
https://www.marktechpost.com/2025/07/16/apple-introduces-diffucoder-a-7b-diffusion-llm-tailored-for-code-generation/

https://huggingface.co/apple/DiffuCoder-7B-cpGRPO

https://github.com/apple/ml-diffucoder

Das meinte ich.

Apple Introduces DiffuCoder: A 7B Diffusion LLM Tailored for Code Generation

Apple unveils DiffuCoder, a 7B open-source diffusion LLM optimized for non-autoregressive and high-accuracy code generation tasks

MarkTechPost

Show thread

Kai Feb 16

@Okuna @evawolfangel das kannte ich noch nicht, danke. Es wird schon seit langem versucht Diffusion basierte LLMs zu bauen, bisher ist da aber nichts aus der Konzeptionsphase rausgekommen und auch Apples Modell ist ja eher ein kleines Testmodel und nichts für den ernsthaften Gebrauch. Tokenbasierte Autoregressive Modelle sind meiner Meinung nach auf lange Sicht eine Sackgasse. Ob Diffusion da besser ist, k.a. Das wird die Zeit zeigen.