Anthropic veröffentlicht mit BioMysteryBench einen Benchmark, der KI-Modelle an 99 unaufbereiteten Forschungsdatensätzen der Bioinformatik prüft.
Das Modell Claude Mythos löst 82,6 Prozent der durch Menschen lösbaren Aufgaben und knapp 30 Prozent der Experten-Probleme. Die Methodik zeigt jedoch Schwächen bei der Reproduzierbarkeit korrekter Antworten auf.
#Anthropic #BioMysteryBench #ClaudeMythos #Bioinformatik #AIGeneratedImage
https://www.all-ai.de/news/beitrage2026/anthropic-biomystery-bench
