Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем мультимодальность в ИИ-агентах на реальном примере из продакшена. Мы проанализировали 258 диалогов нашего агента-консультанта по 1С и поняли: у входящих и исходящих картинок совершенно разная физика. Для входящих критично качество распознавания, а для исходящих — надежная доставка. В статье я подробно рассказываю, почему мы осознанно отказались от модного Multimodal RAG и как на самом деле нужно выбирать архитектуру под свои данные. Спойлер: экономить копейки на токенах — плохая идея, а усложнять систему стоит только тогда, когда это приносит реальные деньги.
https://habr.com/ru/companies/llmstart/articles/1039444/
#RAG #multimodal_RAG #мультимодальность #vision_LLM #imageonly #ColPali #CLIP #LLMагенты #LangChain #context_engineering

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG
Мультимодальность в ИИ-агентах На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса. Сегодня разбираем мультимодальность в нашем ИИ-агенте для компании Айтон...
