BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev.
https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev.
https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
BullshitBench v2 zeigt: OpenAI und Google erfinden Antworten auf unsinnige Fragen.
Der Test prüft die Reaktion auf fehlerhafte Prompts. Die meisten Modelle fallen durch und fantasieren Lösungen. Anthropic und Alibabas Qwen widersprechen dagegen korrekt.
Interessant: Reasoning-Modelle schneiden schlechter ab. Sie versuchen zwanghaft, den Unsinn zu lösen, statt die Eingabe abzulehnen. #BullshitBench #Anthropic #OpenAI
https://www.all-ai.de/news/beitrage2026/bullshit-bench-ki