Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем самое больное место разработки ИИ-агентов — как доказать, что они реально умнеют, а не просто пускают пыль в глаза. В статье я покажу изнанку нашей системы оценки: — Как 10 000 живых переписок превратились в эталоны для тестов. — Почему стандартные метрики безжалостно валили нашего агента (и зачем нам понадобился Венгерский алгоритм из 1955 года). — И что делать, если метрика падает просто потому, что ИИ оказался умнее вашего устаревшего эталона! Читайте полный разбор с цифрами, кейсами и откровенными провалами…

https://habr.com/ru/companies/llmstart/articles/1038512/

#evaluation #метрики_качества #LLMагенты #Ragas #LangFuse #RAG #Венгерский_алгоритм #AIdriven_разработка #LangChain #langchain_агенты

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru . Мы делаем AI-системы для бизнеса....

Хабр

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

https://habr.com/ru/companies/llmstart/articles/1038436/

#RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Агент 1С-консультант: от RAG-прототипа до агента в продакшне На связи Сергей Смирнов, AI-инженер LLMStart.ru . Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон:...

Хабр

Self-Hosted Observability for Large Language Models Emerges

Developers can now watch their LLM work locally using self-hosted Langfuse. This gives more control over data and insights. Learn how it works.

#LLMOps, #Langfuse, #vLLM, #OpenSource, #AI

https://newsletter.tf/self-hosted-llm-observability-langfuse-vllm/

Running your Large Language Models locally with Langfuse is now easier. This new method gives developers more control over their data compared to cloud services.

#LLMOps, #Langfuse, #vLLM, #OpenSource, #AI
https://newsletter.tf/self-hosted-llm-observability-langfuse-vllm/

New Way to Watch LLM Work Locally with Langfuse

Developers can now watch their LLM work locally using self-hosted Langfuse. This gives more control over data and insights. Learn how it works.

NewsletterTF

Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы

Обычно внедрение AI в компаниях происходит по такому сценарию: собрали одного ассистента, показали руководству, получили аплодисменты. Потом второго, третьего — и через полгода получается зоопарк с разными ключами, моделями и неконтролируемым бюджетом. Вместо набора разрозненных ассистентов мы сразу пошли в платформу. В статье рассказываем, из чего она состоит, как эволюционировало наше железо, зачем понадобилось два слоя наблюдаемости и почему маркетплейсный RAG ломается на PDF-файлах. С графиками, схемой архитектуры и выводами, которые сами хотели бы прочитать год назад.

https://habr.com/ru/companies/sminex_developer/articles/1037438/

#ai #llm #openwebui #langflow #langfuse #litellm #vllm #openai

Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы

Привет! Меня зовут Артём, я руковожу группой цифровой трансформации в Sminex. Последние два года моя команда занимается внедрением AI в компанию. В реальности это куда менее гламурная история, чем...

Хабр

Как подключить Langfuse к LLM через JWT?

Langfuse, помимо трассирования запросов, удобно использовать для prompt management и LLM-as-a-judge. Но в закрытой корпоративной среде он упирается в простую вещь: LF работает со статическим API key, а ваш LLM gateway — нет. То есть gateway требует короткоживущий JWT, а Langfuse не умеет его получать. И в этот момент интеграция ломается. Мы столкнулись именно с такой ситуацией. Модели self-hosted, OpenAI подобный API, но для доступа к нему на каждый запрос нужен JWT, который выдаётся централизованным провайдером. Langfuse в LLM Connection умеет передать API key и заголовки, но не сможет сам сходить в auth-сервис, получить временный токен и подставить его в запрос. В этой статье я рассказываю о своем опыте решения этой проблемы на продакшен уровне.

https://habr.com/ru/articles/1025168/

#llm #litellm #fastapi #proxy #proxyserver #langfuse

Как подключить Langfuse к LLM через JWT?

Langfuse, помимо трассирования запросов, удобно использовать для prompt management и LLM‑as‑a-judge. Но в корпоративной среде он упирается в простую вещь: LF работает со...

Хабр

Mastra をバックエンド + AI エージェントサーバーとして本番運用してみた
https://developers.cyberagent.co.jp/blog/archives/63059/

#developers #エンジニア #AI_エージェント #AI事業本部 #Langfuse #Mastra

Mastra をバックエンド + AI エージェントサーバーとして本番運用してみた | CyberAgent Developers Blog

こんにちは。 AI 事業本部 AI クリエイティブカンパニー BPO 事業部のエンジニアの佐藤 (@ ...

CyberAgent Developers Blog

Planning to make large behavioural changes to a (sometimes long-running) production-grade AI agent. Working with `pydantic-evals` today because I want to eval the agent before and after. So far it looks very similar to Langfuse datasets/runs for evalling, except that the data lives in your repository instead of in the Langfuse platform.

https://ai.pydantic.dev/evals/

#llms #pydantic #genai #agents #claude #langfuse

Pydantic Evals - Pydantic AI

GenAI Agent Framework, the Pydantic way

Наблюдаемость LLM-агентов: Часть 2. Разработка и отладка графа

Привет, Хабр! Меня зовут Владимир и это вторая часть материала о трассировке LLM-агентов. В первой части мы настроили инфраструктуру: подняли LangFuse, организовали трассировку и научились управлять промптами как кодом. Если вы ещё не читали — рекомендую начать с неё. В этой части перейдём от теории к практике: соберём агента, который пишет сказки. В графе будут задействованы инструменты, условные переходы и циклы обратной связи.

https://habr.com/ru/articles/1008402/

#langgraph #langfuse

Наблюдаемость LLM-агентов: Часть 2. Разработка и отладка графа

Привет, Хабр! Меня зовут Владимир и это вторая часть материала о трассировке LLM-агентов. В первой части мы настроили инфраструктуру: подняли LangFuse, организовали трассировку и научились управлять...

Хабр

Наблюдаемость LLM-агентов: Часть 1. Трассировка LangGraph и версионирование промптов с LangFuse

Привет, Хабр! Меня зовут Владимир и в последнее время я занимаюсь разработкой агентов на LangGraph. Отладка LangGraph-агента - это отдельная боль: когда граф начинает жить своей жизнью, а LLM уходит в бесконечные циклы, понять, что случилось, становится сложно. В этой статье я покажу, как связать LangGraph с LangFuse для трассировки и покажу как управлять промптами как кодом (версионирование и миграция).

https://habr.com/ru/articles/1008300/

#langfuse #langgraph

Наблюдаемость LLM-агентов: Часть 1. Трассировка LangGraph и версионирование промптов с LangFuse

Привет, Хабр! Меня зовут Владимир и в последнее время я занимаюсь разработкой агентов на LangGraph. Отладка LangGraph-агента - это отдельная боль: когда граф начинает жить своей жизнью, а LLM уходит в...

Хабр