KI-Code-Qualität wird durch SWE-Benchmark überschätzt: Profis lehnen jeden zweiten "bestandenen" Vorschlag ab

Rund die Hälfte der KI-Code-Lösungen, die den bekannten SWE-bench-Benchmark bestehen, würde von echten Projektverantwortlichen abgelehnt. Das zeigt eine neue Untersuchung der Forschungsorganisation METR.

The Decoder