Mastodawn

Робот-пылесос на базе ИИ осознал себя, когда учёные попросили его принести масло
https://www.unian.net/techno/neiroseti/robot-pylesos-na-baze-ii-osoznal-sebya-kogda-uchenye-poprosili-ego-prinesti-maslo-13184241.html
#unian #Робот_пылесос #искусственныйинтеллект #ChatGPT #нейросети #Claude #Andon_Labs

Робот-пылесос на базе ИИ осознал себя, когда учёные попросили его принести масло

Робот взбесился, когда не смог встать на зарядку.

Habr Jun 29, 2025

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

https://habr.com/ru/articles/923022/

#Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

Вольфрамовый кубик. В результате общения с хитрыми покупателями агент-лавочник Claudius пришёл к выводу и необходимости продавать подобный товар в офисном холодильнике. Микроблог Anthropic В феврале...

Хабр

Habr Apr 28, 2025

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

https://habr.com/ru/articles/905042/

#большие_языковые_модели #БЯМ #VendingBench #REBench #бенчмарки_БЯМ #бенчмарки #вендинговые_автоматы #Claude_35_Sonnet #галлюцинации #Andon_Labs

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Хабр