Mastodawn

#開源分享中國上海交通大學開源了一個非常牛批的語音生成模型 F5-TTS。

剛好這幾天AI音訊和播客火爆，這下瞌睡送枕頭了。

模型特點有：

零樣本 (Zero-shot) 聲音複製
速度控制（基於總時長）
可以控制合成語音的情感表現
長文本合成
支持中文和英文多語言合成
在 10 萬小時數據上訓練
最重要的是支持商用
論文：arxiv.org/abs/2410.06885
模型下載： huggingface.co/SWivid/F5-TTS
示範Demo： huggingface.co/spaces/mrfakename/E2-F5-TTS
專案地址： github.com/SWivid/F5-TTS

#F5TTS