AppleのAI研究者はOpenAI o1が実際には“推論”能力は持っていないと主張している
AppleのAI研究チームが、最新の大規模言語モデル(LLM)の数学的推論能力に関する衝撃的な研究結果を発表した。この研究は、OpenAIの最新モデル「o1」を含む、現在最先端とされるAIモデルの能力に重大な疑問を投げかけている。 AIの数学的推論能力に疑問符:些細な変更で大幅な性能低下 研究チームは、既存の数学的推論データセットGSM8Kを基に、「GSM-Symbolic」という新たな評価ツールを開発した。GSM-Symbolicの特徴は、シンボリックテンプレートを導入し、問題の構造を保ちながら数値や名前を柔軟に変更できる点にある。さらに、問題の複雑さを段階的に変更する機能や、問題に関係のない情報を含める機能も備えている。これにより、AIモデルの数学的推論能力をこれまでにない精度で評価することが可能になった。 論文の主著者であるIman […]