Chubby (@kimmonismus)
Peter Gostev가 만든 BullshitBench v2는 기존 벤치마크와 달리 AI 모델이 말도 안 되는(무의미한) 프롬프트를 검출해 거부할 수 있는지를 테스트합니다. 해당 벤치에서 Anthropic의 Claude 계열과 Alibaba의 Qwen 3.5만이 점수를 냈다는 결과를 알리고 있습니다.

Chubby♨️ (@kimmonismus) on X
BullshitBench v2, created by Peter Gostev, is a benchmark that does something refreshingly different: it tests whether AI models can detect and reject nonsensical prompts instead of confidently rolling with them. Only Anthropic's Claude models and Alibaba's Qwen 3.5 score








