Anthropic veröffentlicht mit BioMysteryBench einen Benchmark, der KI-Modelle an 99 unaufbereiteten Forschungsdatensätzen der Bioinformatik prüft.

Das Modell Claude Mythos löst 82,6 Prozent der durch Menschen lösbaren Aufgaben und knapp 30 Prozent der Experten-Probleme. Die Methodik zeigt jedoch Schwächen bei der Reproduzierbarkeit korrekter Antworten auf.

#Anthropic #BioMysteryBench #ClaudeMythos #Bioinformatik #AIGeneratedImage

https://www.all-ai.de/news/beitrage2026/anthropic-biomystery-bench

Anthropic stellt neuen »BioMysteryBench« vor

Ein neuer Bioinformatik-Test offenbart verblüffende analytische Fähigkeiten. Die neuesten Modelle lösen Aufgaben, an denen Fachleute scheitern.

All-AI.de