Z.ai (@Zai_org)
GLM-5가 Vending Bench 2에서 오픈소스 모델 중 1위를 차지하며 최종 계정 잔액 $4,432로 마감했습니다. 이 결과는 장기 계획 및 자원관리 능력이 우수함을 보여주며, Claude Opus 4.5에 근접하는 성능을 시사합니다. 벤치마크에서의 강력한 성과 발표입니다.
Z.ai (@Zai_org)
GLM-5가 Vending Bench 2에서 오픈소스 모델 중 1위를 차지하며 최종 계정 잔액 $4,432로 마감했습니다. 이 결과는 장기 계획 및 자원관리 능력이 우수함을 보여주며, Claude Opus 4.5에 근접하는 성능을 시사합니다. 벤치마크에서의 강력한 성과 발표입니다.
Poor Claude! After 10 days of tending a (simulated) vending machine without sales, the model became stressed and asked for the non-existent vending machine support team.
Excerpt from https://arxiv.org/abs/2502.15840 by Axel Backlund and Lukas Petersson from Andon Labs
Claude Sonnet 4.5 đã thể hiện sự cải thiện đáng kể trong đánh giá Vending-Bench, vượt qua Opus 4.0 về giá trị ròng trung bình và số lượng đơn vị bán được. Một bước tiến lớn cho AI!
#Claude #Sonnet45 #Opus40 #AI #VendingBench #Anthropic #LLM #TríTuệNhânTạo #MôHìnhNgônNgữLớn
https://www.reddit.com/r/singularity/comments/1o46969/claude_sonnet_45_shows_major_improvement_in/
Project Vend: может ли языковая модель продавать чипсы и вольфрам?
В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.
https://habr.com/ru/articles/923022/
#Claude #Claude_37_Sonnet #большие_языковые_модели #БЯМ #ритейл #Project_Vend #VendingBench #галлюцинации #Andon_Labs #Anthropic
Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР
Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.
https://habr.com/ru/articles/905042/
#большие_языковые_модели #БЯМ #VendingBench #REBench #бенчмарки_БЯМ #бенчмарки #вендинговые_автоматы #Claude_35_Sonnet #галлюцинации #Andon_Labs
Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе...