ACE-Step 是一個開源的音樂生成基礎模型,旨在成為音樂 AI 領域的「Stable Diffusion」時刻,兼具高速推理與高品質音樂生成能力,支援多語言歌詞與多種生成/編輯任務 。它基於流匹配(flow-matching)擴散架構,結合 DCAE 編碼器與輕量 Transformer,可在 A100 上 20 秒內生成 4 分鐘音樂,速度比 LLM 基線快 15 倍 。

Github: https://github.com/ace-step/ACE-Step
Deepwiki: https://deepwiki.com/ace-step/ACE-Step

GitHub - ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model

ACE-Step: A Step Towards Music Generation Foundation Model - ace-step/ACE-Step

GitHub
核心功能與任務
六大生成任務:text2music(純生成)、retake(變體生成)、repaint(段落重繪)、edit(歌詞/風格編輯)、extend(時序延長)、audio2audio(參考引導生成) 。
多語言支援:19 種語言自動檢測與分詞,前 10 種(英/中/俄/西/日/德/法/葡/義/韓)表現最佳 。
引導機制:APG(自適應動量引導)、CFG(無分類器引導)、雙條件引導(獨立控制文字與歌詞) 。
調度器:Euler/Heun/PingPong(SDE 增強,提升歌詞對齊與一致性) 。