1/3
Ich schaue gerade wunderbar amüsiert einem #llm dabei zu, wie es eine halbe Bibel in den Thinking Block schreibt und nicht mehr fertig wird, weil es mein System Prompt mit "alle 3 bis 5 Nachrichten... Ignoriere dabei meine letzte Nachricht..." komplett zerdenkt.
Okay, Falle erkannt, wird geändert. Aber abgesehen davon, liefert das #ai #model #gemma4 12B erstaunliche Ergebnisse. Und ja, 12B, ohne GPU Offload, 6 CPU Threads und 27.000 Tokens (ca. 10 GB RAM).
⬇️