Битрикс24 бенчмарк для оценки LLM

Картинка сгенерированая по запросу "сгенерируй картинку про битрикс24 и искусственный интеллект" неплохо отражает итоговые результаты

https://habr.com/ru/articles/932216/

#битрикс24 #llm #ии_чатбот #gemini #бенчмаркинг #бенчмарки_бям #бенчмарк_кода #битрикс_отладка_вебразработка #ииагенты

Битрикс24 бенчмарк для оценки LLM

В преддверии выхода GPT-5 хотелось сделать бенчмарк который по-настоящему проверит её способности. Не прекращаются споры – если LLM просто стохастические попугаи, то как решают олимпиадные задачи по...

Хабр

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

https://habr.com/ru/articles/905042/

#большие_языковые_модели #БЯМ #VendingBench #REBench #бенчмарки_БЯМ #бенчмарки #вендинговые_автоматы #Claude_35_Sonnet #галлюцинации #Andon_Labs

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе...

Хабр