Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

https://habr.com/ru/companies/kryptonite/articles/970844/

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую...

Хабр

Куда лить бензин?

Представляете, китайская нейронка Qwen дико врёт! Встал на дороге. Хорошо рядом заправка. Могу дотолкать – силы есть. Интернет есть. Гугл какую-то фигню про мою машину пишет. Решил нейронку проверить – они же сейчас самые умные! Кидаю туда фотку, задаю вопрос. А она как сговорилась с Гуглом! Тоже, мол это электромобиль и бензин она не потребляет!

https://habr.com/ru/articles/969212/

#нейросеть #распознавание_изображений

Куда лить бензин?

Представляете, китайская нейронка Qwen дико врёт! Встал на дороге. Хорошо рядом заправка. Могу дотолкать – силы есть. Интернет есть. Гугл какую-то фигню про мою машину пишет. Решил нейронку проверить...

Хабр

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

https://habr.com/ru/articles/965706/?utm_source=habrahabr&utm_medium=rss&utm_campaign=965706

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV  или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется...

Хабр

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

https://habr.com/ru/articles/965706/

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV  или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется...

Хабр

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы. Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле. Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто. Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей:

https://habr.com/ru/articles/931070/

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально.  Пришел клиент, принес проект. Система поиска родственных связей по...

Хабр

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр! Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п. Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми. Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. Узнать подробности

https://habr.com/ru/companies/contentai/articles/924660/

#распознавание_образов #распознавание_изображений #распознавание_текста #документы_удостоверяющие_личность #паспорта #паспорт #ocr #ocrтехнологии

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр!  Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя,...

Хабр

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на 33 класса, каждый из которых соответствует одной букве русского алфавита. Эта статья посвящена распознаванию непрерывного дактильного языка. Мы расскажем о наших моделях, которые добиваются наилучших результатов на наборах данных непрерывного американского дактильного языка ChicagoFSWild и ChicagoFSWild+ , а также о нашем новом наборе данных Znaki — первом открытом наборе данных непрерывного русского дактильного языка, содержащем более 37 000 видео.

https://habr.com/ru/companies/sberbank/articles/921004/

#распознавание_изображений #машинное+обучение #глубокое_обучение #жестовый_язык

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на...

Хабр

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Привет, Хабр! В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь ) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло. Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

https://habr.com/ru/companies/contentai/articles/913152/

#ocr #распознавание_изображений #contentcapture

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Привет, Хабр! В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь ) начала работать на российских документах разного типа в контуре нашего продукта...

Хабр

Технологии распознавания паспорта – 10 лет. Хабрология от Smart Engines

Десять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр . Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах разделилась на два лагеря: одни сомневались в пользе решения, другие критиковали за недостаток возможностей и предлагали идеи по улучшению. Теперь, с высоты уже немалого времени докладываем: 1) идея себя оправдала и даже превзошла самые смелые ожидания; 2) работа по совершенствованию технологии была проделана; 3) работы было и будет очень много. Собрали для вас хайлайты этой увлекательной и яркой истории. Как это было?

https://habr.com/ru/companies/smartengines/articles/892420/

#ии #распознавание_образов #распознавание_изображений #распознавание_текста #распознавание_паспорта #документы #ocr #ocrтехнологии #компьютерное_зрение #программирование

Технологии распознавания паспорта – 10 лет.  Хабрология от Smart Engines

Десять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр . Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах...

Хабр

Распознавание день в день: как настроить шаблон нового документа без программирования

Привет, Хабр! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список документов, которые могут быть распознаны при помощи наших решений, – и будем делать это и дальше. Но что если бизнесу нужно оперативно настроить распознавание нового корпоративного документа с жесткой структурой? Сегодня такая потребность есть практически у любой организации. Можно прийти с этой задачей к нам, и мы обязательно поможем. Но есть и альтернативный сценарий – встроить возможность настройки распознавания к себе. Для этого мы выпустили специальный инструмент – дизайнер форм . С ним ждать никого не придется, а добавлять распознавание новых форм можно будет по мере их появления, буквально день в день . О нем мы сегодня и поговорим.

https://habr.com/ru/companies/smartengines/articles/888190/

#smart_engines #распознавание_образов #распознавание_изображений #документы #настройка_формы #ocr #ocrтехнологии #искусственный_интеллект #дизайнер #nocode

Распознавание день в день: как настроить шаблон нового документа без программирования

Привет, Хабр! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список...

Хабр