Mastodawn

BullshitBench v2 zeigt: OpenAI und Google erfinden Antworten auf unsinnige Fragen.

Der Test prüft die Reaktion auf fehlerhafte Prompts. Die meisten Modelle fallen durch und fantasieren Lösungen. Anthropic und Alibabas Qwen widersprechen dagegen korrekt.

Interessant: Reasoning-Modelle schneiden schlechter ab. Sie versuchen zwanghaft, den Unsinn zu lösen, statt die Eingabe abzulehnen. #BullshitBench #Anthropic #OpenAI
https://www.all-ai.de/news/beitrage2026/bullshit-bench-ki

Der BullshitBench entlarvt die Schwächen von OpenAI und Google

Ein spezieller Benchmark zeigt, dass moderne KI-Systeme kaum noch Widerspruch einlegen. Einzig Anthropic verbessert sich kontinuierlich.

All-AI.de

BullshitBench Viewer

Der BullshitBench entlarvt die Schwächen von OpenAI und Google