Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

https://habr.com/ru/companies/sberbank/articles/913802/

#искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Пример работы нашей модели. Только текстовые запросы — никаких масок! Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим...

Хабр

CV/ML-проект от идеи до продакшена: практическое руководство

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с заказчиком до вывода решения в прод. Со временем накопилось достаточно практики, чтобы выделить повторяющиеся этапы, типичные ошибки и решения, которые реально работают. Это практическое руководство собрал для коллег и команд, кто работает с подобными проектами — или только планирует. Здесь нет задач про state-of-the-art или подбор идеальных архитектур. Скорее хочу пройтись по каждому этапу — с чего начать, о чём спросить бизнес, где обычно «сыпется» проект, и что помогает пройти до конца. Рассчитано на тех, кто хочет разобраться в базовой структуре CV/ML-проекта, будь то инженер, аналитик или управленец. Если понадобится — можно будет углубиться в технические детали отдельно. Для удобства разделил весь путь подготовки CV-проекта на несколько основных этапов.

https://habr.com/ru/articles/913604/

#ai #проект #компьютерное_зрение #ии #иимодель #искусственный_интеллект #разработка #датасет #bounding_box #сегментация

CV/ML-проект от идеи до продакшена: практическое руководство

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с...

Хабр

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс. Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

https://habr.com/ru/companies/yadro/articles/912872/

#Lichee_Pi_4A #pillow #обработка_изображений #python #компьютерное_зрение #riscv #yolox #одноплатный_компьютер #sbc #matplotlib

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем...

Хабр

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. Кирилл Колодяжный, разработчик СХД в YADRO, несколько лет изучает машинное обучение на С++. Он уже написал программы для поиска лица на фото и для распознавания объектов в реальном времени. Под катом — пять материалов Кирилла, после которых инженерам захочется «пересесть» с Python на C++. Хотя бы на время.

https://habr.com/ru/companies/yadro/articles/911002/

#c++ #машинное_обучение #свертки #pytorch #yolo #компьютерное_зрение #face_detection

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не...

Хабр

CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании. Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки ( BLIP , SigLIP ) стали стандартом де-факто в задачах связи визуальных и текстовых данных. Почему? Потому что они позволяют решать задачи, которые ранее требовали значительных усилий

https://habr.com/ru/articles/908168/

#clip #SigLIP #компьютерное_зрение #computervision #ml #машинное+обучение #собеседование_вопросы #собеседование_в_it #comfyui

CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании. Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP...

Хабр

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.

https://habr.com/ru/articles/907950/

#компьютерное_зрение #yolo #сверточные_нейросети #классификация_изображений #машинное_обучение #детекция_объектов #руны #древние_цивилизации

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Введение Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную...

Хабр

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic) Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR). Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA , в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.

https://habr.com/ru/companies/ruvds/articles/903640/

#Ян_Лекун #LeNet #DjVu #компьютерное_зрение #машинное_зрение #распознавание_символов #OCR #свёрточные_нейросети #CNN #тест_Тьюринга #условные_случайные_поля #CRF #GTN #Lush #вейвлетпреобразование #DWT #JPEG2000 #PDF #LLaMA #LLM #нейросети #DeepSeek #ruvds_статьи

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих...

Хабр

Яндекс vs Сбер: где быстрее поймешь смысл фразы «держись брат»? Глазами ML-разработчика

К сожалению или счастью, был я и там, и там:‑) Поэтому ловите внутрянку, как на самом деле выглядит работа линейного ML‑щика/Дата саентиста. Стоит ли оно того, что происходит внутри и почему я все‑таки ушел из обеих компаний. (кормили прост невкусно) Еще студентом я стремился в бигтех: именно там самые сильные специалисты, лучшие условия труда и перспективы. Ну, по большей части так и было — ничего не умеющего доходягу там редко встретишь (хотя в одной из двух этих компаний раз на раз проскакивает — не будем показывать пальцем🤫).

https://habr.com/ru/articles/906692/

#компьютерное_зрение #яндекс #сбер #машинное_обучение #нейрон

Яндекс vs Сбер: где быстрее поймешь смысл фразы «держись брат»? Глазами ML-разработчика

К сожалению или счастью, был я и там, и там :-) Поэтому ловите внутрянку, как на самом деле выглядит работа линейного ML-щика/Дата саентиста. Стоит ли оно того, что происходит внутри и почему я...

Хабр

Как сохранить здоровье при умственной работе за компьютером и не только

Сейчас компьютер - неотъемлемая часть жизни. Многие люди проводят по много часов за компьютером, смартфоном и др. в день. Поэтому встает вопрос: как поддержать здоровье при таком образе жизни? В данной статье я делюсь своим подходом к этому вопросу, также приводятся общие рекомендации по здоровью из разных источников.

https://habr.com/ru/articles/902948/

#здоровье #здоровье_и_компьютер #здоровый_образ_жизни #здоровье_мозга #работа_в_it #работай_над_собой #работа #компьютеры #компьютерное_зрение #компьютер

Как сохранить здоровье при умственной работе за компьютером и не только

Сейчас компьютер - неотъемлемая часть жизни. Многие люди проводят по много часов за компьютером, смартфоном и др. в день. Поэтому встает вопрос: как поддержать здоровье при таком образе жизни? В...

Хабр

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!» Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать. Мастера фотошопа, оцените!

https://habr.com/ru/companies/sberdevices/articles/903122/

#научные_статьи #научные_исследования #редактирование_изображений #image_editing #разбор_статьи #компьютерное_зрение #генеративные_модели #диффузионные_модели

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...

Хабр