Własne zasady remiksowania. YouTube Shorts dostaje wsparcie sztucznej inteligencji

Tworzenie krótkich form wideo wchodzi na zupełnie nowy, generatywny poziom.

Platforma Google rozpoczęła właśnie testy narzędzi, które pozwolą użytkownikom na niemal magiczne modyfikowanie cudzych materiałów za pomocą zaawansowanych algorytmów. Wygląda na to, że walka o uwagę widzów przenosi się na pole sztucznej inteligencji.

Możliwość remiksowania i odpowiadania na cudze filmy to jeden z fundamentów popularności formatu Shorts. YouTube postanowił jednak pójść o krok dalej. W najnowszych testach, udostępnionych wąskiej grupie anglojęzycznych twórców, w menu „Remix” pojawiły się dwie zupełnie nowe, intrygujące opcje bazujące na generatywnej sztucznej inteligencji.

„Dodaj obiekt” oraz „Wymyśl na nowo”

Google oficjalnie wyjaśnia, jak dokładnie będą działać nowe narzędzia wspierające kreatywność użytkowników:

  • Dodaj obiekt (Add object): Funkcja ta pozwala na wstawienie wirtualnych elementów do istniejącej już sceny z oryginalnego filmu (maksymalnie na 8 sekund). Wystarczy wpisać odpowiednią komendę tekstową (prompt) lub skorzystać z sugerowanych opcji, a sztuczna inteligencja sprawnie wkomponuje nowy przedmiot w kadr.
  • Wymyśl na nowo (Reimagine): To znacznie potężniejsze narzędzie. Pozwala ono na wyciągnięcie pojedynczej klatki z oryginalnego wideo i przekształcenie jej w zupełnie nowy klip. Użytkownicy mogą kierować algorytmem za pomocą komend tekstowych, a nawet wgrać do dwóch własnych zdjęć referencyjnych, by nadać ostatecznemu materiałowi pożądany styl.

Kontrowersyjny haczyk dla twórców

Każdy nowy film stworzony przy użyciu tych wspomaganych sztuczną inteligencją narzędzi będzie posiadał wyraźny link prowadzący bezpośrednio do oryginalnego materiału, z którego zaczerpnięto kadr.

Platforma daje oczywiście oryginalnym twórcom możliwość wypisania się z tego programu – mogą oni zablokować opcję przerabiania swoich filmów przez AI. Tu jednak pojawia się mały, dość kontrowersyjny haczyk: zablokowanie narzędzi AI oznacza jednoczesne wyłączenie możliwości tworzenia jakichkolwiek, nawet tych tradycyjnych remiksów danego wideo. Twórcy będą musieli więc wybrać: albo pełne otwarcie na kreatywność (i modyfikacje) społeczności, albo całkowita blokada materiału.

Na ten moment nowości są testowane na małej grupie odbiorców. Jeśli jednak gigant uzna eksperyment za udany, wkrótce nasz strumień YouTube Shorts może zostać zalany kreatywnymi i całkowicie zaskakującymi przeróbkami znanych virali.

YouTube w końcu na Apple Vision Pro. Google kazało czekać na to 2 lata

#AIWideo #aktualizacjaYouTube #funkcjeTwórców #generatywneAI #remiksowanieWideo #socialMedia #sztucznaInteligencja #YouTubeShorts

Koniec renderowania w nieskończoność. TurboDiffusion skraca czas generowania wideo o… 200 razy

Jeśli generowanie klipów wideo przez AI kojarzyło wam się z długim oczekiwaniem na wynik, chińskie ShengShu Technology właśnie zmienia zasady gry.

Nowy framework TurboDiffusion pozwala generować wideo w czasie zbliżonym do rzeczywistego, osiągając wyniki nawet 200 razy szybciej niż dotychczasowe modele.

ShengShu Technology we współpracy z laboratorium TSAIL Uniwersytetu Tsinghua udostępniło kod źródłowy rozwiązania o nazwie TurboDiffusion. Twórcy określają to wydarzenie mianem „momentu DeepSeek” dla modeli wideo – czyli punktem zwrotnym, który pozwala na masowe i tanie wdrażanie technologii, która dotąd była droga i powolna.

Z 15 minut do 8 sekund

Największe wrażenie robią twarde dane z testów. Zastosowanie TurboDiffusion do autorskiego modelu Vidu pozwoliło na wygenerowanie 8-sekundowego klipu w jakości 1080p w zaledwie 8 sekund. Dla porównania – wcześniej ten sam proces zajmował około 900 sekund (15 minut). Oznacza to przejście z mozolnego renderowania do generowania treści niemal w czasie rzeczywistym.

Co istotne dla entuzjastów sprzętu, tak drastyczny skok wydajności (od 100 do 200 razy szybciej) osiągnięto na pojedynczej karcie graficznej RTX 5090. Owszem, to bardzo drogi sprzęt (ok. 15 000 zł), ale tańszy niż… centrum danych.

Jak oni to zrobili? Cztery filary przyspieszenia

ShengShu i Tsinghua twierdzą, że nie jest to wynik jednej sztuczki, ale połączenia czterech zaawansowanych technik optymalizacji, które nie degradują jakości obrazu:

  • SageAttention: przeniesienie obliczeń atencji na niskobitowe rdzenie Tensor Core (rozwiązanie to jest już wdrażane m.in. przez NVIDIA, Google i ByteDance).
  • Sparse-Linear Attention (SLA): trenowalna, rzadka atencja, która dokłada kolejne 17-20x przyspieszenia do powyższego.
  • Destylacja kroków (rCM): redukcja liczby kroków potrzebnych do wygenerowania wideo do zaledwie 3–4, przy zachowaniu wysokiej jakości.
  • Akceleracja warstw liniowych: kwantyzacja wag i aktywacji do 8 bitów (W8A8), co drastycznie zmniejsza zapotrzebowanie na pamięć VRAM.

Kod TurboDiffusion został udostępniony jako open-source, co oznacza, że wkrótce rozwiązania te mogą trafić do szerokiego grona twórców i innych modeli AI.

Google Photos trafi natywnie na telewizory Samsunga. W pakiecie edycja AI i Nano Banana

#AIWideo #generatywnaSztucznaInteligencja #openSource #RTX5090 #ShengShuTechnology #TurboDiffusion #Vidu