Русский культурный код как оценка генеративных моделей

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу . Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки разных моделей рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.

https://habr.com/ru/articles/1011192/

#искусственный_интеллект #генерация_изображений #diffusion_models #генерация_картинок #изображения #nano_banana #nano_banana_pro #gemini_flash #bytedance #riverflow

Русский культурный код как оценка генеративных моделей

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не...

Хабр

Долгая дорога к DiT (часть 2)

Первая треть пути преодолена и совсем скоро мы создадим генератор картинок на целиком на архитектуре трансформеров. Но перед тем как совершить финальный скачок к Diffusion Transformers (DiT) нам сначала надо научиться работать с готовыми датасетами и освоить генерацию изображений "простым" способом - через MLP-ResNet. Статья является прямым продолжением первой части , так что советую сначала ознакомиться с ней, чтобы понимать откуда всё началось. Будет много про работу с датасетами. И вообще статья получилась какой-то неприлично большой.

https://habr.com/ru/articles/960324/

#Python #pytorch #diffusion_models #mnist

Долгая дорога к DiT (часть 2)

Новая задача Продолжаем то, на чём остановились в первой части. Напомню, нам удалось создать модель, которая может трансформировать простое (нормальное) распределение в целевое. Вот только работала...

Хабр

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting . Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке . Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим). Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

https://habr.com/ru/companies/airi/articles/958348/

#diffusion_models #finetuning #loraадаптеры #lora #image_generation

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI,...

Хабр

Что я вынес из Oxford Machine Learning Summer School 2025

Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.

https://habr.com/ru/articles/956138/

#машинное_обучение #llm #computer_vision #multimodal_llm #generative_ai #reinforcementlearning #edge_ai #diffusion_models #образование_в_it #oxford

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of Oxford Вдохновлено обзором про похожую школу — EEML . Цель данной статьи, показать внутренности коротких курсов, проводимых в одном из старейших...

Хабр

Полезные задачи на Kaggle ( LLM, Diffusion Models)

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач. Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:

https://habr.com/ru/articles/947530/

#kaggle #AI #Machine_Learning #deep_learning #LLM #diffusion_models

Полезные задачи на Kaggle ( LLM, Diffusion Models)

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой...

Хабр

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи архитектуры Diffusion Transformer (DiT). Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.

https://habr.com/ru/articles/944530/

#pytorch #machinelearning #искусственный_интеллект #diffusion_models

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana)...

Хабр
Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control

A guided diffusion framework for physics-based look-ahead control that enables intuitive, steerable, and physically realistic motion generation through joint state-action modeling.

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам. Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

https://habr.com/ru/companies/airi/articles/888406/

#diffusion_models #3d #generations #nerf #textto3d #imageto3d

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке...

Хабр

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной. Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель. В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

https://habr.com/ru/companies/yandex/articles/886466/

#генеративные_модели #machine_learning #машинное_обучение #компьютерное_зрение #computer_vision #диффузионные_модели #diffusion_models #stable_diffusion #flux

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно...

Хабр

Marigold-DC

Построение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов. Данная статья про одно из решений задачи Depth Completion (получение 3D карты по лидарным точкам и изображениям с камер). Попыталась разобраться в архитектуре Marigold-DC. Надеюсь, будет интересно ❤️

https://habr.com/ru/articles/886204/

#диффузионные_модели #нейронные_сети #3d_реконструкция #depth_map #карта_глубины #diffusion_models #neural_networks #3d_reconstruction

Marigold-DC

Marigold Привет! Сегодня я хочу рассказать про сеточку Marigold-DC решающую задачу Depth Completion. Пользуясь случаем, оставляю ссылку на свой канал: notmagicneuralnetworks Задача Depth Completion...

Хабр