RT @stevibe: Parameter-Scaling ist gerade bei mir abgestürzt. Ich habe 90 Matheaufgaben als Bilder an 10 lokale Vision-Modelle gegeben, jeweils 3 Durchläufe, wobei nur konsistente Antworten über alle 3 Durchläufe gezählt wurden. Zwei Erkenntnisse: Gemma 4 war die konsistenteste Familie, 31B holte sich den Sieg mit 89,6%. Doch Qwen 3.5 4B lag nur zwei Antworten dahinter. Ein 4B-Modell. Auf Platz 2 von 10. Vision-Mathematik ist nicht eine Fähigkeit, sondern zwei: das Bild lesen, dann lösen. Die eigentliche Lektion für alle, die lokal arbeiten: klein ≠ schwach. Wenn du agentic Workflows baust, ist es wichtiger, das richtige Modell für jede Aufgabe zu finden, als sich für das größte Modell zu entscheiden. In diesem Test lief das 4B-Modell aufgrund seiner Größe weit schneller, erzielte höhere Punktzahlen und ließ VRAM für den Rest deines Stacks frei. Vollständige Ergebnisse: 🥇 Gemma 4 31B — 242/270 (89,6%) 🥈 Qwen 3.5 4B — 240/270 (88,9%) 🥉 Gemma 4 E4B — 222/270 (82,2%) 🥉 Qwen 3.6 27B — 222/270 (82,2%) 5. Gemma 4 26B A4B — 216/270 (80,0%) 6. Qwen 3.5 2B — 201/270 (74,4%) 7. Gemma 4 E2B — 192/270 (71,1%) 8. Qwen 3.6 35B A3B — 192/270 (71,1%) 9. Qwen 3.5 9B — 168/270 (62,2%) 10. Qwen 3.5 0.8B — 45/270 (16,7%) Alle GGUF + mmproj, Unsloth's Q6KXL Quantisierung. Video
mehr auf Arint.info
#AI #Gemma #LocalLLM #MachineLearning #Qwen #VisionModels #arint_info
Arint - SEO+KI (@[email protected])
<p>RT @stevibe: Parameter-Scaling ist gerade bei mir abgestürzt. Ich habe 90 Matheaufgaben als Bilder an 10 lokale Vision-Modelle gegeben, jeweils 3 Durchläufe, wobei nur konsistente Antworten über alle 3 Durchläufe gezählt wurden. Zwei Erkenntnisse: Gemma 4 war die konsistenteste Familie, 31B holte sich den Sieg mit 89,6%. Doch Qwen 3.5 4B lag nur zwei Antworten dahinter. Ein 4B-Modell. Auf Platz 2 von 10. Vision-Mathematik ist nicht eine Fähigkeit, sondern zwei: das Bild lesen, dann lösen. Die eigentliche Lektion für alle, die lokal arbeiten: klein ≠ schwach. Wenn du agentic Workflows baust, ist es wichtiger, das richtige Modell für jede Aufgabe zu finden, als sich für das größte Modell zu entscheiden. In diesem Test lief das 4B-Modell aufgrund seiner Größe weit schneller, erzielte höhere Punktzahlen und ließ VRAM für den Rest deines Stacks frei. Vollständige Ergebnisse: 🥇 Gemma 4 31B — 242/270 (89,6%) 🥈 Qwen 3.5 4B — 240/270 (88,9%) 🥉 Gemma 4 E4B — 222/270 (82,2%) 🥉 Qwen 3.6 27B — 222/270 (82,2%) 5. Gemma 4 26B A4B — 216/270 (80,0%) 6. Qwen 3.5 2B — 201/270 (74,4%) 7. Gemma 4 E2B — 192/270 (71,1%) 8. Qwen 3.6 35B A3B — 192/270 (71,1%) 9. Qwen 3.5 9B — 168/270 (62,2%) 10. Qwen 3.5 0.8B — 45/270 (16,7%) Alle GGUF + mmproj, Unsloth's Q6KXL Quantisierung. Video</p> <p><a href="https://arint.info/@Arint/116593590091895617">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma #LocalLLM #MachineLearning #Qwen #VisionModels #arint_info</p> <p><a href="https://x.com/stevibe/status/2055666729460932626#m">https://x.com/stevibe/status/2055666729460932626#m</a></p>
