Ich habe Mistral gerade mal ausprobiert. Ich teste Nischenwissen, über welches wenig im Netz verfügbar ist, und dafür nehme ich gern die Assembly-Programmiersprache IC10 im Spiel “Stationeers”. Das Ergebnis war einfach nur unterirdisch schlecht, denn der gesamte Output war von Anfang bis Ende komplett halluziniert. Kompletter Unfug. Es wurden Scriptbeispiele genannt, die so aussahen wie Javascript-Pseudocode und absolut nichts mit IC10 zu tun hatten. Auf den Hinweis, dass es sich bei IC10 um eine MIPS-orientierte assembly language handelt kam dann die “Korrektur”, welche mit erfundenen MIPS-ähnlichen Instructions irgendwelchen weiteren kompletten Unsinn dargestellt hat. Darüber hinaus wurden noch Mechaniken erfunden, die es im Spiel überhaupt nicht gibt.
Ich bin sowieso kritisch eingestellt, was die Nutzung von LLMs als “Universalwerkzeug” angeht, und habe meinen ChatGPT-Account bereits gekündigt. Frage mich aber, wie Menschen solche Chatbots ernsthaft produktiv nutzen wollen. Ein System, welches Wissenslücken mit Lügen im selbstbewusstem Tonfall füllt ist einfach absolut nicht hilfreich. Man könnte natürlich argumentieren, dass Chatbots für andere Wissensbereiche (z.B. Python) eine wesentlich bessere Datengrundlage haben und das dann besser funktioniert. Aber kann man einem System auch nur halbwegs vertrauen wenn es sich bei Wissenslücken um Kopf und Kragen halluziniert? Ich hätte da Bedenken. Bei Fragen mit einer besseren Datengrundlage sind die Fehler dann subtiler und schwieriger zu finden, aber das Grundprinzip LLM bleibt ja das selbe.