1/3
Ich schaue gerade wunderbar amüsiert einem #llm dabei zu, wie es eine halbe Bibel in den Thinking Block schreibt und nicht mehr fertig wird, weil es mein System Prompt mit "alle 3 bis 5 Nachrichten... Ignoriere dabei meine letzte Nachricht..." komplett zerdenkt.

Okay, Falle erkannt, wird geändert. Aber abgesehen davon, liefert das #ai #model #gemma4 12B erstaunliche Ergebnisse. Und ja, 12B, ohne GPU Offload, 6 CPU Threads und 27.000 Tokens (ca. 10 GB RAM).
⬇️

2/3
Nachdem #mistralai #ministral 3B zwar bereit war, meine Anfragen zu beantworten, die bewusst... "spicy"... gehalten waren, zu beantworten, aber grammatikalischen und inhaltlichen Müll ablieferte, probierte ich mal #gemma4 E4B. Das war zwar besser, aber gleiches Problem, wie bei Ministral. Und #qwen3, egal welcher Größe, weigerten sich schlichtweg, eine Antwort zu liefern.
⬇️

3/3
Also dachte ich, nachdem Gemma das wohl beste der 3B - 4B Modelle war, "Warum nicht größer?". Größer geht. Und die Ergebnisse sind kein Vergleich mehr zum 4B Modell. Eine ganz andere Welt tut sich mir mit dem 12B Modell mit Quantisierung auf. Vorausgesetzt, es verheddert sich nicht in einem 39 minütigen Thinking, in dem es 5 1/4 DIN A4 Seiten in den Block schreibt.

Meine Hoffnung nach dieser Spielerei: Auch europäische Modelle vergleichbarer Größe laufen zu lassen.
@TheMorpheus

@TheMorpheus P.S. Es muss nicht immer #code sein.