Mastodawn

Ускоряем в 10+ раз вычисление расстояния Хаусдорфа на упорядоченных контурах

История о том, как реальная performance-проблема привела к простой exact-оптимизации Hausdorff distance на упорядоченных контурах. как ускорить Hausdorff distance

https://habr.com/ru/articles/1042704/

#Hausdorff_distance #расстояние_Хаусдорфа #оптимизации #performance #обработка_изображений #image_processing #geometry #c++ #контуры #computer_vision

Ускоряем в 10+ раз вычисление расстояния Хаусдорфа на упорядоченных контурах

Как-то, при имплементации на C++ нового алгоритма поиска дефектов, возникла потребность оптимизации вычисления расстояния Хаусдорфа между контурами. Контуры представляли собой упорядоченные точки,...

Хабр

Habr 1d ago

Эволюция детекции дипфейков: от подсчета морганий до распознавания микроскопических изменений цвета кожи

— …для начала нужно понять главное. — Что главное? — Ложки не существует. В 2026 году этот диалог из фильма «Матрица» звучит уже не как философская метафора, а как обыденность в интернете. Все понимают, что видео теперь не является доказательством, голос больше не подтверждает личность, а в фотографиях от реальности нет и следа. Для обычного пользователя это означает потерю доверия к контенту, а для бизнеса — риск подделки личности, мошенничества и ошибочных решений. Как же так вышло, что нас повсюду окружают симулякры?

https://habr.com/ru/companies/ru_mts/articles/1040822/

#deepfake #AI #machine_learning #computer_vision #synthetic_media #FaceForensics++ #Intel_FakeCatcher #MNW_Benchmark #информационная_безопасность #генеративный_ИИ

Эволюция детекции дипфейков: от подсчета морганий до распознавания микроскопических изменений цвета кожи

Хабр

Habr 5d ago

Фотограмметрическая поворотка на Arduino за 2500 рублей

Ко мне на кафедре обратились двое старшекурсников. Они пишут программу для археологов: пользователь фотографирует, что нашел, программа лезет в модель (которая натренирована на исторические архивах) и возвращает карту вероятностей, где поблизости могут лежать неметаллические артефакты, которые металлоискатель не ловит. Дерево, керамика, кость, ткань и тд. Для обучения модели им нужен был большой датасет фотографий находок времен WW2 (значки, гильзы, медали, фрагменты обмундирования) под разными углами и наклонами. Они прикинули два варианта: либо снимать каждый предмет вручную с разных ракурсов, перетаскивая штатив или поворачивая объект пальцами, либо сначала вылепить 3D-модель каждого артефакта вручную и потом программно крутить её в виртуальной сцене под разным светом, рендеря оттуда кадры для датасета. По обоим выходило пара месяцев работы. Я предложил собрать автоматическую поворотку. Спроектировал, напечатал, написал прошивку и питоновский скрипт. Сразу не заработало, переделал пару дней. К ночи рабочей версии я сидел за столом и каждые 12 минут жал ресет на Arduino, меняя предмет на платформе. К утру датасет был готов.

https://habr.com/ru/articles/1040874/

#arduino_uno #фотограмметрия #поворотный_стол #28byj48 #датасет #computer_vision #dataset #diy #3dпечать #pyserial

Фотограмметрическая поворотка на Arduino за 2500 рублей

Хабр

Habr 6d ago

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у нас родилась идея: сделать онлайн-примерочную обоев. Кажется, звучит как киллер-фича — дать клиенту возможность до покупки увидеть, как конкретный паттерн будет смотреться в его реальном интерьере. На тот момент на рынке вовсю хайповали генеративные модели (такие как «Nano Banana»). На первый взгляд казалось, что проблема решается в два клика. План был надежен, как швейцарские часы: получить API-ключ, отправить по эндпоинту фотографию интерьера и текстуру обоев, сопроводить это правильным промптом (с указанием учитывать перспективу, освещение и масштаб) и забирать готовый результат. Но на практике оказалось, что задача не просто нетривиальная. Она вскрыла целый пласт проблем, о которых создатели популярных генеративок предпочитают умалчивать.

https://habr.com/ru/articles/1039804/

#computer_vision #stable_diffusion #нейросети #finetuning #ecommerce #визуализация_интерьеров #chatgpt

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

Хабр

Habr May 26

Трекинг посетителей на fisheye-камерах: задача “со звездочкой”

Всем привет, на связи команда NeuroCore. Сегодня расскажем про кейс разработки системы видеоаналитики для магазинов самообслуживания: почему fisheye-камеры - настоящее проклятие, почему SORT и DeepSORT не справились с задачей, как мы выстроили конвейер от детекции до бизнес-событий, и какие инженерные решения позволили добиться стабильной работы в продакшене. Дано: магазины самообслуживания, которые работают без кассиров и продавцов. Покупатель входит по QR, выбирает товары, рассчитывается и выходит. Заказчику нужна автоматизированная система отслеживания: кто находится внутри, сколько времени, в каких зонах, а также распознает несанкционированный доступ и вход группами. В случае нарушений, система должна генерировать алерты по 7 типам событий. Что есть: одна потолочная fisheye-камера, которая покрывает весь зал. Это идеальный выбор для ритейла: угол обзора 180 градусов, не нужно ставить десятки обычных камер, не нужно сшивать панорамы. Но за этот комфорт приходится платить.

https://habr.com/ru/articles/1039354/

#ритейл #трекинг #computer_vision #машинное_зрение #компьютерное_зрение #yolo #видеоаналитика_в_retail #видеоаналитика

Трекинг посетителей на fisheye-камерах: задача “со звездочкой”

Хабр

Habr May 21

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это. Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк. Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый. Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

https://habr.com/ru/articles/1037850/

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch #распознавание_текста #распознавание_рукописного_текста

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Хабр

Habr May 13

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

Задача, с которой пришел заказчик На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и...

Хабр

Habr May 13

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Я, как и многие, залип в датасеты , метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат. Чтобы закрыть вопрос реального процесса инспекции печатных плат, было принято решение собрать собственный компактный стенд (подиум на алюминиевом профиле, камера, два шаговых двигателя и много (очень много) хомутов для проведения автоматической инспекции. Основные критерии, которые были заложены в основу будущего стенда: он должен быть простым в управлении, достаточно компактным, чтобы уместиться на рабочем столе и универсальным. Чтобы была возможность решать различные задачи инспекции. В статье расскажу, почему я не стал делать конвейер, как в промышленности, какие компромиссы пришлось принять, что пошло не так при сборке и почему этот DIY-подход оказался полезнее, чем ещё один прогон модели на готовом датасете. Если коротко, то я собрал из того, что было под рукой (местами буквально "на коленке"), и это неожиданно дало больше понимания, чем ещё одно обучение модели.

https://habr.com/ru/articles/1034422/

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр #pcb #computer_vision #detection #arduino

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Хабр

Habr Apr 30

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы. Мы — не метеорологи. Но совсем недавно мы задались вопросом: можно ли взять SOTA‑идеи из алгоритмов генерации видео и применить их к задаче предсказания глобальной погодной карты, не превращая ML‑модель в усложненный пайплайн на базе специфических метеорологических знаний? Оказалось, что да, и весьма неплохо. В этой статье мы расскажем про нашу новую модель прогноза погоды на основе алгоритма Flow Matching под названием Marchuk, которая выгодно выделяется на фоне конкурентных подходов своей компактностью и производительностью. Она даже смогла предсказать морозы в январе 2026 года!

https://habr.com/ru/companies/airi/articles/1011256/

#прогноз_погоды #диффузионные_нейросети #Machine_Learning #Weather_Forecasting #Computer_Vision #Flow_Matching #Diffusion_Models #DiT #Research

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Введение: взгляд на атмосферу через объектив видеокамеры Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области...

Хабр

Habr Apr 17

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

https://habr.com/ru/articles/1024700/

#Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц - это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и...

Хабр