Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

Air Canada проиграла суд за слова чат-бота. Дилер Chevrolet «продал» Tahoe за доллар. Корень один: LLM одновременно решает что сказать и как. Под давлением точность проигрывает беглости. Разбор паттерна, который это чинит.

https://habr.com/ru/articles/1027080/

#llm #большие_языковые_модели #чатботы #aiагенты #prompt_engineering #архитектура_по #sycophancyeval #галлюцинации_llm #prompt_injection #triageandvoice

Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

Почему саппорт-бот на LLM работает против вас LLM одновременно решает две вещи: что сказать и как это сказать. Под давлением пользователя (эмоциональным или манипулятивным) вторая задача почти всегда...

Хабр

[Перевод] Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились. В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

https://habr.com/ru/articles/845510/

#Бенчмарки #LLM #AlpacaEval #MTBench #llmarena #TrustLLM #TruthfulQA #SycophancyEval #CyberSecEval

Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации...

Хабр