От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Статья про то, как CV-сервис вырос с MVP до 10 миллионов проверок фото в месяц и не развалился в проде. 🔧 Это не про «у нас классные модели» и не про «просто прикрутили YOLO», а про честную инженерную продуктивизацию. Про то как универсальный классификатор путал фарш с грязью, почему часть анкет всё равно лучше отдавать человеку, зачем отдельно мониторить качество моделей и что приходится чинить, когда реальный мир меняется быстрее обучающей выборки. Внутри: компьютерное зрение, 26 моделей, 62 проверки, CNN, VLM, Triton, vLLM, Kafka, Human-in-the-loop, мониторинг качества, сезонность, баги под нагрузкой и немного «веган-версии ИИ». Заходите, читайте и делитесь своим опытом продакшена ML-сервисов ❤️

https://habr.com/ru/companies/X5Tech/articles/1047946/

#computer_vision #multimodal #yolo #resnet #vlm #cnn #tritoninferenceserver #humanintheloop #kafka #ритейл

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Привет, Хабр! Меня зовут Иван Попов, я руковожу командой компьютерного зрения CV Hub в дирекции искусственного интеллекта X5 Tech. А ещё у нас в команде есть Иваныч . Так пользователи «Пятёрочки»...

Хабр

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально. Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать. Спойлер: распознавание оказалось готовым к проду (93.9%), а вот confidence от модели — почти константой, на которой нельзя строить логику. И главная ошибка в калориях пряталась совсем не там, где я её искал.

https://habr.com/ru/articles/1046914/

#LLM #бенчмарк #распознавание_еды #computer_vision #RAG #Gemini #подсчёт_калорий #LLMasjudge #оценка_качества_моделей #нутриенты

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи,...

Хабр

Видеоаналитика на промышленном объекте: почему большинство внедрений разочаровывают и как сделать правильно

Там, где нет людей, нет времени и нет права на ошибку Хочу поделится одной историей из жизни. На удалённом нефтепромысле в -30С° за бортом бригада выполняет огневые работы — сварка, рядом с действующим трубопроводом. По регламенту каждый должен быть в полном комплекте СИЗ, с газоанализатором. Мастер провел инструктаж, расписался в наряде‑допуске и уехал на следующий объект. Инспектор по ТБ появится через два часа. Что происходит в эти два часа — не знает никто. Вот именно здесь я и хочу начать наш разговор о видеоаналитике в промышленности. Не о красивых дашбордах и не о технологиях будущего. А о конкретной задаче — увидеть то, что происходит на объекте прямо сейчас, когда физически там нет возможности присутствовать ответственному. Последние три года я плотно погрузился в сферу промышленной видеоаналитики — от пресейла и проектирования до запуска систем на объектах нефтегазового сектора и не только. До этого прошёл через телекоммуникации, управление ИТ‑инфраструктурой крупных нефтяных компаний, промышленную безопасность. Этот путь дал главное — понимание задачи изнутри, с обеих сторон: и как технический заказчик, который принимает систему, и как специалист, который её проектирует и внедряет. В этой статье — не маркетинг и не обзор рынка. Личный опыт, реальные цифры и честный разговор о том почему большинство внедрений не работают так как обещают.

https://habr.com/ru/articles/1045368/

#видеоаналитика #видеоаналитика_в_производстве #промышленная_безопасность #производственная_безопасность #охрана_труда #computer_vision #edge_computing

Видеоаналитика на промышленном объекте: почему большинство внедрений разочаровывают и как сделать правильно

Там, где нет людей, нет времени и нет права на ошибку Хочу поделится одной историей из жизни. На удалённом нефтепромысле в -30С° за бортом бригада выполняет огневые работы —...

Хабр

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто стоит у кассы в этот момент, и было ли приветствие вообще, если клиент коротко ответил "ага" на фоне работающего холодильника. Дано: сеть АЗС, ручной аудит покрывает несколько процентов смен. Всё остальное — "слепая зона". Заказчик хотел её закрыть с помощью существующих камер и микрофонов: взять архивные записи, автоматически выделить сессии обслуживания, проверить по чек-листу. Никакого нового оборудования, только то, что уже есть на точках. Ограничение, которое определило всю архитектуру: кассир у микрофона говорит громко и развёрнутыми фразами. Клиент отвечает коротко, тихо и иногда вообще кивает. Стандартный ASR-пайплайн из этой пары слышит только одну сторону. Видео первично: без стабильного ID клиента и временных границ сессии аудиоаналитика работает вхолостую. Начали с трекинга.

https://habr.com/ru/articles/1044914/

#ASR #распознавание_речи #компьютерное_зрение #vad #object_tracking #видеоаналитика #speech_recognition #computer_vision

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто стоит у кассы в этот момент, и было ли приветствие вообще, если клиент коротко...

Хабр

Как и зачем мы сделали собственный OCR-бенчмарк

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать. Почему так происходит, зачем мы потратили время на сборку собственного OCR-бенчмарка и пожалели ли мы об этом, рассказываю дальше.

https://habr.com/ru/companies/cloud_ru/articles/1043144/

#ocr #rag #LLM #deepseek #glm #markdown #векторный_поиск #data_science #computer_vision

Как и зачем мы сделали собственный OCR-бенчмарк

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно...

Хабр

Ускоряем в 10+ раз вычисление расстояния Хаусдорфа на упорядоченных контурах

История о том, как реальная performance-проблема привела к простой exact-оптимизации Hausdorff distance на упорядоченных контурах. как ускорить Hausdorff distance

https://habr.com/ru/articles/1042704/

#Hausdorff_distance #расстояние_Хаусдорфа #оптимизации #performance #обработка_изображений #image_processing #geometry #c++ #контуры #computer_vision

Ускоряем в 10+ раз вычисление расстояния Хаусдорфа на упорядоченных контурах

Как-то, при имплементации на C++ нового алгоритма поиска дефектов, возникла потребность оптимизации вычисления расстояния Хаусдорфа между контурами. Контуры представляли собой упорядоченные точки,...

Хабр

Эволюция детекции дипфейков: от подсчета морганий до распознавания микроскопических изменений цвета кожи

— …для начала нужно понять главное. — Что главное? — Ложки не существует. В 2026 году этот диалог из фильма «Матрица» звучит уже не как философская метафора, а как обыденность в интернете. Все понимают, что видео теперь не является доказательством, голос больше не подтверждает личность, а в фотографиях от реальности нет и следа. Для обычного пользователя это означает потерю доверия к контенту, а для бизнеса — риск подделки личности, мошенничества и ошибочных решений. Как же так вышло, что нас повсюду окружают симулякры?

https://habr.com/ru/companies/ru_mts/articles/1040822/

#deepfake #AI #machine_learning #computer_vision #synthetic_media #FaceForensics++ #Intel_FakeCatcher #MNW_Benchmark #информационная_безопасность #генеративный_ИИ

Эволюция детекции дипфейков: от подсчета морганий до распознавания микроскопических изменений цвета кожи

— …для начала нужно понять главное.  — Что главное?  — Ложки не существует. В 2026 году этот диалог из фильма «Матрица» звучит уже не как философская метафора, а как обыденность в интернете....

Хабр

Фотограмметрическая поворотка на Arduino за 2500 рублей

Ко мне на кафедре обратились двое старшекурсников. Они пишут программу для археологов: пользователь фотографирует, что нашел, программа лезет в модель (которая натренирована на исторические архивах) и возвращает карту вероятностей, где поблизости могут лежать неметаллические артефакты, которые металлоискатель не ловит. Дерево, керамика, кость, ткань и тд. Для обучения модели им нужен был большой датасет фотографий находок времен WW2 (значки, гильзы, медали, фрагменты обмундирования) под разными углами и наклонами. Они прикинули два варианта: либо снимать каждый предмет вручную с разных ракурсов, перетаскивая штатив или поворачивая объект пальцами, либо сначала вылепить 3D-модель каждого артефакта вручную и потом программно крутить её в виртуальной сцене под разным светом, рендеря оттуда кадры для датасета. По обоим выходило пара месяцев работы. Я предложил собрать автоматическую поворотку. Спроектировал, напечатал, написал прошивку и питоновский скрипт. Сразу не заработало, переделал пару дней. К ночи рабочей версии я сидел за столом и каждые 12 минут жал ресет на Arduino, меняя предмет на платформе. К утру датасет был готов.

https://habr.com/ru/articles/1040874/

#arduino_uno #фотограмметрия #поворотный_стол #28byj48 #датасет #computer_vision #dataset #diy #3dпечать #pyserial

Фотограмметрическая поворотка на Arduino за 2500 рублей

Ко мне на кафедре обратились двое старшекурсников. Они пишут программу для археологов: пользователь фотографирует, что нашел, программа лезет в модель (которая натренирована на исторические архивах) и...

Хабр

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у нас родилась идея: сделать онлайн-примерочную обоев. Кажется, звучит как киллер-фича — дать клиенту возможность до покупки увидеть, как конкретный паттерн будет смотреться в его реальном интерьере. На тот момент на рынке вовсю хайповали генеративные модели (такие как «Nano Banana»). На первый взгляд казалось, что проблема решается в два клика. План был надежен, как швейцарские часы: получить API-ключ, отправить по эндпоинту фотографию интерьера и текстуру обоев, сопроводить это правильным промптом (с указанием учитывать перспективу, освещение и масштаб) и забирать готовый результат. Но на практике оказалось, что задача не просто нетривиальная. Она вскрыла целый пласт проблем, о которых создатели популярных генеративок предпочитают умалчивать.

https://habr.com/ru/articles/1039804/

#computer_vision #stable_diffusion #нейросети #finetuning #ecommerce #визуализация_интерьеров #chatgpt

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у...

Хабр

Трекинг посетителей на fisheye-камерах: задача “со звездочкой”

Всем привет, на связи команда NeuroCore. Сегодня расскажем про кейс разработки системы видеоаналитики для магазинов самообслуживания: почему fisheye-камеры - настоящее проклятие, почему SORT и DeepSORT не справились с задачей, как мы выстроили конвейер от детекции до бизнес-событий, и какие инженерные решения позволили добиться стабильной работы в продакшене. Дано: магазины самообслуживания, которые работают без кассиров и продавцов. Покупатель входит по QR, выбирает товары, рассчитывается и выходит. Заказчику нужна автоматизированная система отслеживания: кто находится внутри, сколько времени, в каких зонах, а также распознает несанкционированный доступ и вход группами. В случае нарушений, система должна генерировать алерты по 7 типам событий. Что есть: одна потолочная fisheye-камера, которая покрывает весь зал. Это идеальный выбор для ритейла: угол обзора 180 градусов, не нужно ставить десятки обычных камер, не нужно сшивать панорамы. Но за этот комфорт приходится платить.

https://habr.com/ru/articles/1039354/

#ритейл #трекинг #computer_vision #машинное_зрение #компьютерное_зрение #yolo #видеоаналитика_в_retail #видеоаналитика

Трекинг посетителей на fisheye-камерах: задача “со звездочкой”

Всем привет, на связи команда NeuroCore. Сегодня расскажем про кейс разработки системы видеоаналитики для магазинов самообслуживания: почему fisheye-камеры - настоящее проклятие, почему SORT и...

Хабр