GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

https://habr.com/ru/companies/raft/articles/937418/

#deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

Введение: Наш самый полезный баг Привет, я Рамиль, QA-инженер в компании Raft. В своей работе я фокусируюсь на автоматизации тестирования, в том числе для LLM-решений, где часто использую связку...

Хабр
Все по полочкам: как мы внедряли методологию управления проектами P3.express

Привет, меня зовут Руслан Усманов, я PM Head в Doubletapp . В конце прошлого года мы пересмотрели свою систему ведения проектов и внедрили методологию P3.express. В этой статье поделюсь опытом и...

Хабр

[Перевод] Метрики качества: Изучи, Примени, Внедри. Часть 1: Качество продукта

Что бы вы хотели знать о тестировании на своем проекте? Какое качество продукта, какая эффективность тестирования, статус QA или эффективность исправления ошибок? В сегодняшней статье расмотрим Качество продукта Удовлетворительно ли качество продукта? Стоит ли его улучшить? Давайте взглянем на несколько метрик, которые помогут нам разобраться.

https://habr.com/ru/articles/883036/

#инструменты_тестирования #метрики #метрики_качества #метрики_тестирования #testing #qa_metrics #testing_metrics #metrics #quality_assurance #qa_metrics

Метрики качества: Изучи, Примени, Внедри. Часть 1: Качество продукта

Что бы вы хотели знать о тестировании на своем проекте? Какое качество продукта, какая эффективность тестирования, статус QA или эффективность исправления ошибок? Эта серия статей даст вам ответы....

Хабр

Метрики для технологий письменного общения

Предлагаются метрики для оценки общения при помощи текста. Делается вывод, что по большинству метрик в интернете нет прогресса по сравнению с временами бумажного общения. Прежде чем писать техзадание для будущих платформ надо оценить текущее состояние технологий текстового общения при помощи метрик. Под таким общением я понимаю не только прямое общение при помощи социальных сетей, электронной почты, мессенджеров, форумов и корпоративных средств управления разработкой, но любых технологий на выходе, дающих какой-то текст доступный другим, включая книги, статьи и даже подкасты и умные видео. Перечисленные ниже метрики описывают качество текстов (1 и 2), долговечность и доступ к информации (3 – 5), связность информационного пространства (6 и 7) и отношения между людьми через тексты (7 – 9) . Метрики частично повторяются или дополняют друг друга, например, наличие быстрой обратной связи необходимо для обеспечения качества...

https://habr.com/ru/articles/864484/

#текст #социология #теория_коммуникации #дискурс #дискурсивные_техники #коммуникация #общение #письменность #метрики_качества #метрики

Метрики для технологий письменного общения

Предлагаются метрики для оценки общения при помощи текста. Делается вывод, что по большинству метрик в интернете нет прогресса по сравнению с временами бумажного общения. Alexander Leydenfrost, Наука...

Хабр

Как мы нашли новый подход к передаче сервисов в промышленную эксплуатацию

Привет, Хабр! Меня зовут Анна, я начальник управления поддержки проектов и клиентских сервисов в X5 Tech. Последние 16 лет я работаю в области сопровождения, и для меня одним из самых загадочных этапов в поддержке всегда был процесс приёма нового функционала. Ты как будто берёшь кота в мешке: вы ещё с ним не знакомы, он не приучен к лотку, ты не знаешь его возраст, цвет и как сильно он кусается. У нас получилось кардинально изменить один из подходов в разработке, а именно – процесс передачи решений в централизованную поддержку. Для этого мы провели с коллегами 50+ интервью, на расшифровку которых у нас ушло 120 часов, выпили 20+ литров кофе, выявили около 40 проблем, написали 80 выводов и выдвинули 30 гипотез возможных решений. Что именно мы сделали в итоге для бесшовной передачи сервиса в централизованную поддержку под ключ – читайте под катом.

https://habr.com/ru/companies/X5Tech/articles/817985/

#передача_в_поддержку #промышленная_эксплуатация #сопровождение #сопровождение_проектов #эксперт_поддержки #новый_функционал #метрики_качества #сервис #новый_подход #архитектурный_принцип

Как мы нашли новый подход к передаче сервисов в промышленную эксплуатацию

Привет, Хабр! Меня зовут Анна, я начальник управления поддержки проектов и клиентских сервисов в X5 Tech. Последние 16 лет я работаю в области сопровождения, и для меня одним из самых загадочных...

Хабр