Llasa: Llama-Based Speech Synthesis
https://llasatts.github.io/llasatts/
#HackerNews #Llasa #Llama-Based #Speech #Synthesis #SpeechTechnology #AIInnovation #VoiceSynthesis
Llasa: Llama-Based Speech Synthesis
https://llasatts.github.io/llasatts/
#HackerNews #Llasa #Llama-Based #Speech #Synthesis #SpeechTechnology #AIInnovation #VoiceSynthesis
#開源分享 一款基於Llama的TTS系統:Llasa,它通過擴展訓練時間和推理時間計算,提高了語音合成的自然度、韻律準確性和情感表達能力
生成效果自然流暢富有感情,開心、悲傷等情感表現的比較自然,適合做有聲讀物或語音助手
它用了一個Xcodec2語音分詞器,把語音分解成一個個小的標記,使計算機更容易處理語音,這些標記不僅能表示語音的內容,還能保留語音的情感和音色資訊
核心在於其單一Transformer架構和規模化訓練/推理策略,結合Xcodec2語音分詞器,使其能生成更自然、更富有表現力的語音
有1B、3B、8B三個版本,支持中英文
模型: huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44