RT @witcheer: GPT-OSS-20B im Detail: 8 Coding-Aufgaben, 8 Durchläufe, 1,8 GB VRAM. Einrichtung: RTX 4060 Ti 8GB, WSL2, llama-server mit ncmoe=30, Pi Coding Agent. Das Modell nutzt 1,8 GB VRAM und 10 GB Host-RAM. Ergebnis: 8/8 bestanden. Jede Aufgabe produzierte funktionierenden, getesteten Code. Zusammen mit dem ursprünglichen Benchmark (portscout + logpulse) sind das 10/10 abgeschlossene agentic Aufgaben auf Consumer-Hardware. (alle Prompts finden Sie auf Hugging Face). Was ich herausfand: Kontexteffizienz: 6-48 % des 32K-Fensters pro Aufgabe genutzt. Keine Aufgabe erschöpfte den Kontext. Der schwierigste Prompt (Multi-Module mit topologischer Sortierung) nutzte 47,6 %. Selbstkorrektur funktioniert: Das Modell fand und behob seine eigenen Fehler 7 Mal über 8 Aufgaben hinweg. Die Richtung der topologischen Sortierung war umgekehrt, behoben. printf-Formatzeichenfolge fehlte %s, behoben. sed-Zitierung war falsch, behoben. Keine halluzinierten APIs: Prompt 5 war eine Falle: „Verwenden Sie nur die Standardbibliothek.“ Das Modell nutzte echte Module (http.client, json, time, urllib.parse). Keine erfundenen Convenience-Wrapper. Gefundene Schwächen: Edit-Tool hat Schwierigkeiten: Exakte String-Matching für das Edit-Tool schlägt wiederholt fehl. Das Modell benötigt 3-4 Versuche, bevor es auf vollständige Datei-Neuschreibungen zurückgreift. Dies ist teilweise ein Problem auf Agent-Seite (Pi's Edit-Tool erfordert exaktes Matching), nicht rein ein Modellproblem. Verschwendung bei Verzeichnis-Scans: Führt „ls -R ~“ vom Home-Verzeichnis aus und spuckt 11K+ Zeilen in den Kontext aus. Passierte bei 2 v…
mehr auf Arint.info
#AIResearch #CodingAgent #GPTOSS #LLMbenchmarking #MoeArchitecture #Quantization #arint_info
https://x.com/witcheer/status/2056830610044490020#m