Как обучают ИИ: без формул, но с котами

В этой статье — без воды, трюизмов, академизмов и формул — разберёмся, в чём принципиальное отличие машинного обучения (ML) от до-ИИ программирования, а затем генеративного ИИ от классических моделей машинного обучения (ML). Поговорим о типах генеративных моделей, их архитектуре и областях применения. Заодно затронем важный вопрос: где проходит граница между классическим программированием и вероятностным творчеством, на котором построены современные нейросети. Статья ориентирована прежде всего на тех, кто делает первые шаги в ИИ, но если ты начинающий ML-инженер, архитектор ИИ-приложений, основатель стартапа или просто хочешь разобраться, что на самом деле происходит под капотом у ChatGPT и Midjourney — ты, скорее всего, найдёшь здесь для себя что-то полезное.

https://habr.com/ru/articles/919296/

#машинное+обучение #искусственный_интеллект #generative_models #generative_art #ml #научпоп #обучение_нейронных_сетей #генеративные_модели #парадигмы #selfsupervised

Как обучают ИИ: без формул, но с котами

Четыре кота, на которых стоит ML Что такое машинное обучение и как оно вообще «учится»? Чем это отличается от обычного программирования с if, for и «всё работает, пока...

Хабр

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

https://habr.com/ru/companies/sberbank/articles/913802/

#искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Пример работы нашей модели. Только текстовые запросы — никаких масок! Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим...

Хабр

Установил DeepSeek 1.5B на слабое железо, пока остывал мой борщ

DeepSeek 1.5B — маленький, но шустрый собрат больших языковых моделей. Работает локально, не требует железа на киловатт. Внутри — инструкция по установке, настройке и запуску DeepSeek 1.5B на Ubuntu 24.04 с Ollama и Open WebUI .

https://habr.com/ru/companies/minerva_media/articles/909130/

#deepseek #иимодель #установка_сервера #ии #docker #ollama #ubuntu_2404 #ии_и_машинное_обучение #генеративные_модели

За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле

Решил установить и протестировать возможности DeepSeek 1.5B — компактной языковой модели, которая работает без тяжёлого железа и запускается даже на домашнем сервере.  В этой статье покажу и...

Хабр

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .

https://habr.com/ru/companies/sberbank/articles/908820/

#генеративные_модели #3d #3dграфика #ml #kandinsky #computer_vision

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский...

Хабр

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!» Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать. Мастера фотошопа, оцените!

https://habr.com/ru/companies/sberdevices/articles/903122/

#научные_статьи #научные_исследования #редактирование_изображений #image_editing #разбор_статьи #компьютерное_зрение #генеративные_модели #диффузионные_модели

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...

Хабр

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.

https://habr.com/ru/companies/yadro/articles/893050/

#search #семантический_поиск #нейросети #информационный_поиск #эмбеддинги #crossencoder #biencoder #генеративные_модели #энкодеры

Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска

Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO . В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто...

Хабр

Нейросети для локальной генерации видео

Давно было понятно, что генерация видео с помощью нейросетей станет возможной локально на ПК. Это полезно для всех, кто не готов платить за подписки, но готов платить за мощное железо. Потому что видео-модели требуют значительных вычислительных ресурсов. На текущий момент существует несколько ключевых моделей, которые подходят для локальной установки: stable Video Diffusion, Mochi 1, Hunyan Video и LTX Video. Каждая из них имеет свои уникальные особенности, которых ниже. Stable Video Diffusion (SVD) Эта модель, разработанная Stability AI, является одной из первых открытых моделей для генерации видео из изображений. Она основана на латентных диффузионных моделях и может генерировать короткие клипы с высоким разрешением. Согласно данным, SVD доступна на платформе Hugging Face , и пользователи могут запускать ее локально с помощью фреймворка Diffusers. Для эффективной работы требуется NVIDIA GPU с минимум 16 ГБ VRAM, что делает ее довольно ресурсоемкой. Mochi 1 Модель разработанная Genmo AI, специализируется на генерации видео из текстовых подсказок. Она открыта под лицензией Apache 2.0, что позволяет скачивать код и веса модели с GitHub . Модель поддерживает разрешение 480p с частотой 30 кадров в секунду и может генерировать видео длительностью до 5,4 секунды. Точные требования к оборудованию не указаны, но предполагается, что требуется мощный GPU. Hunyan Video Эта модель от Tencent выделяется своими 13 миллиардами параметров, что делает ее одной из самых крупных открытых моделей для генерации видео. Код и веса модели доступны на GitHub . Она поддерживает разрешения до 720p x 1280p и требует минимум 45 ГБ GPU-памяти для базового разрешения, с рекомендацией 80 ГБ для оптимальной производительности.

https://habr.com/ru/articles/889154/

#нейросети #видео #генеративные_модели #искусственный_интеллект #обзор #обзоры

Нейросети для локальной генерации видео

Давно было понятно, что генерация видео с помощью нейросетей станет возможной локально на ПК. Это полезно для всех, кто не готов платить за подписки, но готов платить за мощное железо. Потому что...

Хабр

Капибары и фитнес-котики: как визуальная нейросеть помогает создавать подарочные карты «Золотого Яблока»

Модель для генерации изображений YandexART применяют пользователи «Шедеврума» и других социальных сетей, чтобы визуализировать свои идеи и делиться ими с друзьями и знакомыми. С прошлого года YandexART можно встраивать в свои приложения и сервисы. А что если интерес людей к нейросетям может помочь в создании подарков с персональным визуальным посланием? С этой гипотезой мы в Yandex Cloud вместе с «Золотым Яблоком» запустили совместный проект: клиенты бьюти‑ритейлера могут самостоятельно генерировать изображения для электронных подарочных карт с помощью моделей от Яндекса. На связи команда проекта «Золотого Яблока». В этой статье мы расскажем, как компания знакомилась с YandexART, интегрировала его через API в свои сервисы, какие особенности может быть важно учесть другим разработчикам приложений, если они захотят повторить этот опыт. А именно: — как оптимизировать трафик, чтобы получить гарантированное время ответа пользователю; — почему этика нейросети — это не философская проблема, а вполне конкретная техническая задача; — что можно протестировать заранее и «подкрутить» в модели, чтобы получить нужный результат без переобучения.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/888616/

#ai #yandexart #генеративные_модели #генеративный_арт #генерация_изображений #нейросети

Капибары и фитнес-котики: как визуальная нейросеть помогает создавать подарочные карты «Золотого Яблока»

Модель для генерации изображений YandexART применяют пользователи «Шедеврума» и других социальных сетей, чтобы визуализировать свои идеи и делиться ими с друзьями и знакомыми....

Хабр

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной. Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель. В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

https://habr.com/ru/companies/yandex/articles/886466/

#генеративные_модели #machine_learning #машинное_обучение #компьютерное_зрение #computer_vision #диффузионные_модели #diffusion_models #stable_diffusion #flux

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно...

Хабр

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём составляющие модели и её архитектуру, а также углубимся в процесс обучения.

https://habr.com/ru/companies/sberbank/articles/884780/

#генеративные_модели #аватар #gan #sber #sberai #смешивание_изображений #head_swap

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно...

Хабр