Mastodawn

Как Яндекс создавал новую end2end-модель генерации коротких видео

Приложение Шедеврум начало использовать новую end2end-модель YandexART (Vi). Она позволяет создавать видео по текстовому запросу и учитывает взаимосвязь между кадрами, делая видео более связными, плавными и реалистичными, чем при использовании предыдущей модели. Предыдущее решение было основано на использовании эвристик для добавления движения камеры, где видео создавалось кадр за кадром с применением модели генерации изображений, что приводило к значительным изменениям в содержании каждого кадра. В этой статье поделимся нашим опытом разработки первых версий end2end-модели YandexART (Vi): — расскажем, почему изначально выбрали работу в пиксельном пространстве; — опишем методы инженерных оптимизаций, которые помогли в обучении моделей; — обсудим проблемы, с которыми столкнулись в процессе разработки, и как их решали; — в завершение расскажем, почему в итоге решили отказаться от пиксельного пространства в пользу латентного и поделимся нашими планами на будущее. И так как на Хабре не принято вставлять гифки и видео до ката, примеры новой модели вас ждут под ним. Посмотреть примеры

https://habr.com/ru/companies/yandex/articles/839580/

#machine_learning #яндекс #yandexart #нейросети

Как Яндекс создавал новую end2end-модель генерации коротких видео

Приложение Шедеврум начало использовать бета‑версию end2end‑модели YandexART (Vi). Она позволяет создавать пятисекундные видео по текстовому запросу и учитывает взаимосвязь между кадрами, делая...

Хабр