OpenAI、独自AIベンチマーク「MLE-bench」を公開、AIエージェントの能力を“人間”と比較
人工知能(AI)と人間の能力を直接比較する新たな舞台が誕生した。OpenAIが10月10日、機械学習エンジニアリング(MLE)の能力を評価する新しいベンチマーク「MLE-bench」を公開したのだ。この新たなツールは、AIエージェントがどれほど人間のデータサイエンティストに迫れるかを測定し、AI研究の進展を可視化することを目指している。 MLE-benchの革新性:Kaggle競争の再現 MLE-benchの核心は、その評価方法にある。このベンチマークは、データサイエンスのオンラインコミュニティKaggleで実際に行われた75の競争を厳選して再現している。これらの課題は、自然言語処理、コンピュータビジョン、信号処理など、多岐にわたる分野をカバーしている。 特筆すべきは、選ばれた競争の多くが現実世界で価値のある最先端の挑戦を含んでいることだ。例えば、COVID-19 […]https://xenospectrum.com/openai-releases-its-own-ai-benchmark-mle-bench/
