LLM -Ai2 SciArena: OpenAI's o3 tops new AI league table for answering scientific questions
https://www.nature.com/articles/d41586-025-02177-7
nonpaywalled: https://archive.fo/0IDls

Ai2 SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks
https://arxiv.org/abs/2507.01001
https://allenai.org/blog/sciarena

https://sciarena.allen.ai/

#LLM #Ai2 #SciArena #Chato3 #AllenAI #OpenAI

OpenAI’s o3 tops new AI league table for answering scientific questions

SciArena uses votes by researchers to evaluate large language models’ responses on technical topics.

#SciArena is a crowdsourced platform built by the #AllenInstituteForAI (#Ai2, @allenai) for testing #AI tools on scientific research tasks.
https://sciarena.allen.ai/

You can find its latest results in a July 1 blog post. If you use any AI tools for research purposes, note that the SciArena tool rankings differ by discipline.
https://allenai.org/blog/sciarena

Ai2 SciArena

Wie gut sind KI-Modelle wirklich – wenn echte Wissenschaftler sie testen? Die neue Plattform SciArena bewertet Sprachmodelle nicht mit Scores, sondern mit realen Forschungsfragen. OpenAI liegt vorn, aber Open Source holt auf. Was heißt das für die Forschung? Jetzt mehr erfahren: #OpenAI #SciArena #KI 👇
https://www.all-ai.de/news/news24/sci-arena-forschung-ki
Neue Plattform SciArena testet KI-Modelle mit echter Wissenschaft

OpenAI vorn, aber Open-Source holt auf: Wie SciArena mit echten Forschungsszenarien das KI-Ranking aufmischt – und was es jetzt zu beachten gilt?

All-AI.de