Stable Audio 3

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.

arXiv.org

Hands on with AI audio generation: GAI voice, music, and sound effects

This is the second post in a series exploring the multimodal possibilities of generative AI. This series will take a detailed, hype-free look at text, image, audio, video, and code generation and explore the creative potential as well as the ethical concerns of GAI. Although Generative AI isn't a new technology, it's definitely been having a hype moment since the release of ChatGPT in November 2022. Unfortunately, the focus has been squarely on the text-based chatbot at the exclusion of […]

https://leonfurze.com/2023/09/25/hands-on-with-ai-audio-generation-gai-voice-music-and-sound-effects/

Warner Music Group i Stability AI łączą siły. Powstanie „etyczne” narzędzie do generowania muzyki

Jeden z trzech największych koncernów muzycznych na świecie – Warner Music Group (WMG) – ogłosił nawiązanie strategicznej współpracy z firmą Stability AI. To bezprecedensowa zmiana podejścia na linii wielkie wytwórnie – firmy AI.

Celem partnerstwa jest stworzenie nowej generacji narzędzi opartych na sztucznej inteligencji, które będą służyć artystom, szanując jednocześnie prawa autorskie twórców.

To istotny zwrot w relacjach między branżą fonograficzną a sektorem technologicznym. W czasie gdy wiele wytwórni toczy batalie prawne z twórcami generatorów muzyki, zarzucając im nielegalne wykorzystywanie utworów do treningu modeli, WMG decyduje się na model kooperacyjny. Inicjatywa ma skupić się na opracowaniu „profesjonalnych narzędzi”, które pozwolą kompozytorom i producentom na eksperymentowanie z AI przy użyciu modeli trenowanych w sposób etyczny i transparentny.

Ochrona praw i nowe przychody

Wspólny projekt zakłada wykorzystanie technologii Stability AI (znanej m.in. z modelu Stable Audio) w taki sposób, aby była ona bezpieczna komercyjnie. Oznacza to, że generowane dźwięki i kompozycje nie będą naruszać praw autorskich stron trzecich, co jest obecnie największą bolączką narzędzi takich jak Suno czy Udio. Firmy deklarują, że nowe rozwiązania otworzą przed artystami kolejne ścieżki monetyzacji, choć szczegóły modelu biznesowego nie zostały jeszcze ujawnione.

Artyści w centrum procesu

Zarówno Carletta Higginson (Executive Vice President i Chief Digital Officer w WMG), jak i Prem Akkaraju (CEO Stability AI), podkreślają, że technologia ma pełnić rolę wspierającą, a nie zastępczą.

Nowe narzędzia mają być konsultowane bezpośrednio z artystami, aby upewnić się, że realnie usprawniają proces twórczy, nie obniżając przy tym jakości i nie odbierając kontroli człowiekowi.

Stability AI stawia na licencje

Dla Stability AI partnerstwo z gigantem takim jak Warner Music Group jest potwierdzeniem słuszności ich strategii. Firma od dłuższego czasu pozycjonuje się jako dostawca „bezpiecznego AI” dla biznesu, trenując swoje modele (np. z rodziny Stable Audio) wyłącznie na licencjonowanych danych. Współpraca z WMG daje im dostęp do ogromnych zasobów i wiedzy, co może dać im przewagę nad konkurencją, która wciąż boryka się z problemami prawnymi dotyczącymi źródeł danych treningowych.

Warto też zauważyć, że to nie pierwsza współpraca Stability AI z uznanymi podmiotami w branży kreatywnej. Już wcześniej informowaliśmy was o nawiązaniu partnerstwa Stability AI z Universal Music oraz EA.

Stability AI wchodzi do gier i muzyki. Ogłasza partnerstwo z EA i Universal Music

#aiWMuzyce #generatywnaSztucznaInteligencja #news #prawaAutorskieWMuzyce #stabilityAi #stableAudio #warnerMusicGroup

Потыкал Stable Audio 2.5.

Съел 10 бесплатных генераций и, к сожалению, не впечатлился.

По моему скромному мнению лучшее, на что оно сейчас способно - это сгенерить фон для какого-нибудь ролика на YouTube или дешёвой визуальной новеллы, где нет денег на голодного студента-композитора.

В комментах положу пару примеров для понимания.

#ML #GenAI #music #log #test #StableAudio #StabilityAI

Musikproduktion in Sekunden: Stable Audio 2.5 erzeugt Tracks in Studioqualität und ergänzt bestehende Aufnahmen nahtlos. Dank neuer ARC-Trainingsmethode wird die KI jetzt für Unternehmen und professionelle Workflows interessant – ein Gamechanger für die Audioindustrie. #StableAudio #StabilityAI #KI 👇
https://www.all-ai.de/news/news24/musik-ai-stability
Musik in Sekunden: Diese Audio-KI ersetzt das Tonstudio

Stable Audio 2.5 generiert Tracks in Studioqualität – und braucht dafür nur zwei Sekunden.

All-AI.de
Whisper

YouTube

Der Bereich der Generativen Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, insbesondere im Bereich der Audio-Generierung. Einer der neuesten Meilensteine ist die Veröffentlichung des Forschungsberichts “Stable Audio Open” von Stability AI. #ai #ki #audio #stableaudio

https://subraum-transmissionen.de/stable-audio-open-ein-durchbruch-in-der-text-zu-audio-generierung/

Stable Audio Open: Ein Durchbruch in der Text-zu-Audio-Generierung - Subraum Transmissionen

Der Bereich der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, insbesondere im Bereich der Audio-Generierung. Einer der neuesten Meilensteine ist die Veröffentlichung des Forschungsberichts "Stable Audio Open" von Stability AI.

Subraum Transmissionen

> `dtmf quiz music`

#stableaudio

> `dtmf tones`

#stableaudio