Генератор синтетических документов для обучения моделей ИИ

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ . Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

https://habr.com/ru/companies/isp_ras/articles/920346/

#синтетические_данные #распознавание_документов #ocr

Генератор синтетических документов для обучения моделей ИИ

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ . Выложил в открытый доступ проект, который...

Хабр

Как декомпозиция повышает точность распознавания текста: опыт с фотографиями СТС

Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито , занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии свидетельства транспортного средства (СТС). В статье описала особенности задачи и рассказала, как мы решали её с помощью декомпозиции. Материал будет полезен начинающим и мидл-DS-инженерам, которые хотят узнать больше про декомпозицию задачи на этапах разметки и построения моделей. А еще материал стоит прочитать тем, кто работает с доменами, где нужно иметь дело с задачами распознавания информации с документов — наш подход прекрасно переносится на другие категории. В целом рекомендую статью всем, кто интересуется компьютерным зрением и его применимостью в разных сферах.

https://habr.com/ru/companies/avito/articles/908650/

#Распознавание_текста_на_фото #распознавание_документов #компьтерное_зрение #ocr #ocrтехнологии #декомпозиция_задач #стс #fullstack_разработка

Как декомпозиция повышает точность распознавания текста: опыт с фотографиями СТС

Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито , занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии...

Хабр

Машинное обучение в страховании: как ИИ и большие данные меняют подходы к оценке рисков и борьбе с мошенничеством

Привет, Хабр! Меня зовут Дмитрий, я дата-сайентист в команде моделирования Росгосстраха. Страховые компании активно обращаются к технологиям машинного обучения (ML) и искусственного интеллекта (ИИ) для формирования тарифов, борьбы с мошенничеством, оптимизации различных процессов и улучшения качества обслуживания клиентов. В этом обзоре я хочу рассказать о том, как ML/ИИ трансформирует процессы в страховом секторе. Посмотрим, как технологии интегрируются в повседневную работу крупной страховой компании на примере нескольких характерных задач. Машинное обучение в страховой отрасли Согласитесь, что практически все люди в своей жизни сталкиваются с потребностью в страховании. Кто-то хочет застраховать новую машину, кто-то стремится защитить квартиру от залива, а кто-то – иметь подушку безопасности в случае проблем со здоровьем. Ключевой особенностью большинства неприятных событий является их принципиальная случайность, неожиданность. Страховой бизнес – одна из старейших областей, которая использует статистику и анализ данных как основу для своей деятельности. Исторически, в контексте страховой практики, соответствующий раздел математики называли актуарными расчетами. что происходит "за кулисами" страхования?

https://habr.com/ru/companies/rgs_it/articles/899140/

#машинное_обучение #искуственный_интеллект #страхование #каско #антифрод #мошенники #детекция_повреждений #распознавание_документов #клиентский_сервис #геоданные

Машинное обучение в страховании: как ИИ и большие данные меняют подходы к оценке рисков и борьбе с мошенничеством

Привет, Хабр! Меня зовут Дмитрий, я дата-сайентист в команде моделирования Росгосстраха. Страховые компании активно обращаются к технологиям машинного обучения (ML) и искусственного интеллекта (ИИ)...

Хабр

Распознавание банковской карты для подтверждения личности

В условиях стремительной цифровизации и активного развития дистанционных услуг подтверждение личности становится краеугольным камнем финансовых процессов. Задача быстрой и надежной идентификации уже день актуальна во всем мире. А сегодня мы поделимся с вами красивой идеей как можно с помощью современных технологий распознавания (на примере, естественно, продуктов Smart Engines ) надежно реализовать автоматизированный процесс подтверждения личности без использования сторонних сервисов.

https://habr.com/ru/companies/smartengines/articles/869780/

#smart_engines #подтверждение_личности #распознавание_документов #распознавание_банковских_карт #онбординг #финтех

Распознавание банковской карты для подтверждения личности

В условиях стремительной цифровизации и активного развития дистанционных услуг подтверждение личности становится краеугольным камнем финансовых процессов. Задача быстрой и надежной идентификации...

Хабр

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Всем привет! На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В современном мире автоматизация обработки документов стала неотъемлемой частью множества бизнес-процессов. Предобработка изображений документов является важным шагом для обеспечения точности и надежности дальнейшего распознавания атрибутов. В этой статье мы хотим рассказать о некоторых эффективных методах предпроцессинга документов, позволяющих увеличивать как качество OCR-систем (Optical Character Recognition), так и различные CV и NLP пайплайны. Всем, кому интересна эта тема, — добро пожаловать под кат.

https://habr.com/ru/companies/itfb/articles/844380/

#ocr #ocrтехнологии #распознавание #распознавание_изображений #распознавание_паспорта #распознавание_документов #распознавание_объектов #распознавание_номеров #распознавание_текста #idp

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Всем привет! На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В...

Хабр

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

В солнечных Афинах завершилась конференция ICDAR-2024. Причиной ли тому средиземноморское солнце или живой энтузиазм выступающих, но здесь было действительно жарко. Что неудивительно - ведь это главное международное мероприятие, посвященное вопросам распознавания. Одна из ключевых тем встречи – современные вызовы и перспективы OCR. Ведущие ученые со всего мира сошлись во мнении, что технологии распознавания жизненно необходимо сделать более понятными и интерпретируемыми . А для этого создать простую OCR явно недостаточно. Нам в Smart Engines есть что добавить по этому поводу. Рассказываем, зачем нужно “объяснять” OCR и как это правильно сделать. Объясняем тут

https://habr.com/ru/companies/smartengines/articles/840788/

#распознавание_речи #распознавание_документов #распознавание_паспорта #ocr #ocrтехнологии #icdar #репортаж #ии #обработка_изображений #обработка_данных

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR . Почему ICDAR?  Море, солнце, пляж технологии. В греческой столице недавно...

Хабр

IDP и OCR в вопросах и ответах: Главное, что нужно знать

Когда мы готовили этот материал, долго спорили, с какими персонажами можно было бы для наглядности сравнить OCR и IDP. Предлагались братья Коэны, Тор и Локи, Цезарь и Брут и много кто еще. Как видите, к одному мнению на этот счет мы в Smart Engines так и не пришли. Зато абсолютное единство было достигнуто по другому вопросу - о природе OCR и IDP. И если с культурными сравнениями еще можно поспорить, то в технологическом аспекте мы знаем все по фактам. Опустим высокие метафоры и расскажем, что такое OCR и IDP и на чьей стороне правда. Узнать, где правда 🔍

https://habr.com/ru/companies/smartengines/articles/840524/

#распознавание #ocr #ии #распознавание_образов #распознавание_текста #распознавание_номеров #распознавание_объектов #распознавание_документов #распознавание_паспорта #технологии

IDP и OCR в вопросах и ответах: Главное, что нужно знать

Привет, Хабр! Сегодня прогоним пару телег про то, что из себя представляют IDP и OCR, в чем их принципиальное различие и на чьей стороне правда (и Smart Engines ). Без долгих вступлений - погнали! Для...

Хабр

Дубликат бесценного груза: История распознавания паспорта РФ от нулевых до наших дней

Сегодня технологиями распознавания паспорта никого не удивишь. Банки, операторы сотой связи, нотарусы и многие другие с их помощью упрощают и ускоряют рутинные процедуры: оформление кредита, приобретение полиса, покупку SIM-карты и так далее. Между тем, программные продукты для ввода данных из паспорта РФ за последние два десятилетия прошли большой путь. Мы в Smart Engines занимаемся этим не первый год и рассказываем, с чего все начиналось. Окунуться в историю

https://habr.com/ru/companies/smartengines/articles/825414/

#распознавание_паспорта #паспорт #паспортные_данные #распознавание_документов #ocr #smart_engines #smart_passportreader #cognitive_technologies #история_ит/it #история_ит

Дубликат бесценного груза: История распознавания паспорта РФ от нулевых до наших дней

Программы распознавания данных удостоверений личности появились не так уж и давно - всего пару десятилетий назад, так что их можно правомерно считать практически ровесниками самого паспорта РФ. Но за...

Хабр

Наш опыт применения AI-технологий для классификации документов для подачи в суд

Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридических документов? В этой статье мы расскажем об опыте разработки этого решения для автоматизации труда юристов и взыскателей, и о трудностях на этом пути.

https://habr.com/ru/articles/830796/

#OCR #NLP #cnn #ai #распознавание_текста #распознавание_паспорта #распознавание_документов #legaltech #legal_services #legal

Наш опыт применения AI-технологий для классификации документов для подачи в суд

Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридиечских документов? В этой статье мы расскажем вам об опыте...

Хабр

Как обезопасить себя при приеме на работу мигрантов, чтобы не получить штраф или дисквалификацию

Для компаний трудоустройство сотрудника из-за рубежа — не самая простая процедура. К тому же она сопровождается риском найма нелегальных мигрантов, что может аукнуться работодателю многотысячными штрафами и другими неприятным последствиям. Как избежать таких проблем при оформлении иностранного гражданина? И причем тут искусственный интеллект? Разбираемся в статье.

https://habr.com/ru/companies/smartengines/articles/820587/

#мигранты #проверка_подлинности #распознавание_документов #искусственный_интеллект #трудоустройство #прием_на_работу #найм

Как обезопасить себя при приеме на работу мигрантов, чтобы не получить штраф или дисквалификацию

Для компаний трудоустройство сотрудника из-за рубежа — не самая простая процедура. К тому же она сопровождается риском найма нелегальных мигрантов, что может аукнуться работодателю многотысячными...

Хабр