Project Vend: может ли языковая модель продавать чипсы и вольфрам?
В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.
https://habr.com/ru/articles/923022/
#Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic