Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

https://habr.com/ru/companies/sberbank/articles/971154/

#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite , лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы —...

Хабр

Kandinsky 4.0 — новая модель генерации видео

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

https://habr.com/ru/companies/sberbank/articles/866156/

#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

Kandinsky 4.0 — новая модель генерации видео

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации...

Хабр
#homeassistant #sberdevices #sbergate
Ну что же, вот мой репорт: голосовое управление домом через любые колонки Сбера таки работает. И работает хорошо. Единственный вариант конечно- настраивается все это немного криво. Тут важна сама суть. Новая колонка sberboom mini2 стоит на всяких черных пятницах 2к. Подписка в моем случае бесплатно. Красота.

Kandinsky Video 1.1: обновленная модель генерации видео

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video , основанную на модели генерации изображений Kandinsky 3.0 , по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь ). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу. Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

https://habr.com/ru/companies/sberbank/articles/817667/

#генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #texttoimage #computer_vision

Kandinsky Video 1.1: обновленная модель генерации видео

Kandinsky Video 1.1 - Лодка покачивается на волнах, пляж, романтика, фотореализм, закатное солнце, широкий формат Введение В ноябре прошлого года наша команда представила свою первую разработку в...

Хабр

GIGA R&D DAY: материалы конференции

На недавней конференции GIGA R&D DAY , организованной командой R&D

https://habr.com/ru/companies/sberdevices/articles/810801/

#Машинное_обучение #gigachat #rnd #sberdevices

GIGA R&D DAY: материалы конференции

На недавней конференции GIGA R&D DAY, организованной командой R&D SberDevices , участники обсудили последние достижения в разработке GigaChat, NLP, Vision и Audio. Событие собрало ведущих...

Хабр

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей. В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье . Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь .

https://habr.com/ru/companies/sberbank/articles/805337/

#kandinsky_31 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #texttoimage

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

Введение 2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable...

Хабр

Kandinsky 3.0 — новая модель генерации изображений по тексту

Без чувства современности художник останется непризнанным. Михаил Пришвин В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2 , которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации. Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле. В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

https://habr.com/ru/companies/sberbank/articles/775590/

#kandinsky_30 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computer_vision #texttoimage #animation

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Без чувства современности художник останется непризнанным» , Михаил Пришвин, русский и советский писатель, прозаик и публицист В прошлом году на АI Journey мы представили модель Kandinsky 2.0 —...

Хабр