#開源分享 中國上海交通大學開源了一個非常牛批的語音生成模型 F5-TTS。

剛好這幾天AI音訊和播客火爆,這下瞌睡送枕頭了。

模型特點有:

零樣本 (Zero-shot) 聲音複製
速度控制(基於總時長)
可以控制合成語音的情感表現
長文本合成
支持中文和英文多語言合成
在 10 萬小時數據上訓練
最重要的是支持商用
論文:arxiv.org/abs/2410.06885
模型下載: huggingface.co/SWivid/F5-TTS
示範Demo: huggingface.co/spaces/mrfakename/E2-F5-TTS
專案地址: github.com/SWivid/F5-TTS

#F5TTS