AI Journey 2025: Как первый день конференции изменил представление о будущем российского ИИ

Вчера, 19 ноября в Москве стартовала юбилейная конференция AI Journey, и первый день оказался настолько насыщенным прорывными анонсами, что потребуется не одна статья для их осмысления. От президентских поручений до танцующего робота - разбираемся, что произошло и почему это важно.

https://habr.com/ru/articles/968250/

#генеративные_модели #мультимодальные_модели #робототехника #voice

AI Journey 2025: Как первый день конференции изменил представление о будущем российского ИИ

Вчера, 19 ноября в Москве стартовала юбилейная конференция AI Journey, и первый день оказался настолько насыщенным прорывными анонсами, что потребуется не одна статья для их осмысления. От...

Хабр

Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

https://habr.com/ru/articles/967218/

#llm #локальный_ai #мультимодальные_модели #gpt51 #gemini_25_pro #claude_opus_41 #grok_4 #next_token_prediction #vision_transformer

Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

Ещё совсем недавно для каждого домашнего устройства у вас был свой пульт: один для телевизора, другой для кондиционера, третий для музыкального центра. Каждый говорил на своём языке, и заставить их...

Хабр

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

https://habr.com/ru/articles/966846/

#ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с...

Хабр

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Современные LLM умеют «читать» не только текстовые материалы, но и визуальные — от сканов договоров и таблиц до рукописей и диаграмм, и даже обзавелись новым названием — VLM (Vision Language Models)....

Хабр

Мозг и мультимодальные нейросети как генераторы виртуальной реальности

В данной статье речь пойдёт не о современных VR-гарнитурах, игровых мирах и метавселенных, а о чём-то более фундаментальном. Как положено философу, я абстрагирую идею виртуальной реальности от её технического воплощения, чтобы рассмотреть её в максимально обобщённом виде, разобраться, что представляет собой настоящий генератор виртуальной реальности, каковы его физические и логические пределы и насколько мы приблизились к его созданию. Также я опишу, как будет проходить поэтапная интеграция искусственного и естественного интеллекта через нейроинтерфейс. Но для начала нам всё же потребуется краткий обзор истории развития VR-технологий, которые на мой взгляд всё ещё находятся в каменном веке. Вы спросите: да как может судить о виртуальной реальности безнадёжно отставший от жизни динозавр, который не то что VR-очки никогда не примерял, но даже ни разу не смотрел кино в 3D, и не знает ничего лучше старых добрых компьютерных игр нулевых годов, в которые не играл уже лет 10? Да, признаю, что я весьма далёк от современной VR-индустрии и её продуктов, но у меня есть генератор виртуальной реальности получше – биологический мозг.

https://habr.com/ru/articles/951024/

#виртуальная_реальность #vr #нейроинтерфейс #мультимодальные_модели #нки #нейролинк #теория_предсказательного_разума #предиктивное_кодирование #байесовский_мозг #принцип_свободной_энергии

Мозг и мультимодальные нейросети как генераторы виртуальной реальности

« Если люди — это способ Вселенной смотреть на себя, […] то виртуальная реальность — это способ Вселенной делать вид, что она смотрит на себя ». (Уильям Браунинг Спенсер) « Я утверждаю, что...

Хабр

Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime , которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

https://habr.com/ru/articles/941888/

#openai_api #gptrealtime #realtime #голосовые_интерфейсы #распознавание_речи #синтез_речи #мультимодальные_модели #искусственный_интеллект #интеграции #mcp

Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime ,...

Хабр

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты. В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

https://habr.com/ru/articles/924782/

#компьютерное_зрение #vlm #cv #автоматизация #мультимодальные_модели #генерация_описаний #распознавание_лиц #MLпродукт

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio —...

Хабр

Жестовый язык: похожее в непохожем и наоборот

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт .

https://habr.com/ru/companies/sberbank/articles/919884/

#жестовый_язык #распознавание_видео #распознавание_жестовых_языков #мультимодальные_модели

Жестовый язык: похожее в непохожем и наоборот

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь.  Сегодня мы расскажем, как...

Хабр

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам. Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета

https://habr.com/ru/companies/oleg-bunin/articles/914848/

#мультимодальные_модели #llm #agi #генеративный_ai #анализ_данных #chatgpt #deepseek #perplexity #обработка_аудио #генерация_видео

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты,...

Хабр

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

https://habr.com/ru/companies/sberbank/articles/913802/

#искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Пример работы нашей модели. Только текстовые запросы — никаких масок! Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим...

Хабр