#開源分享 中國西北工業大學開源了一個語音理解模型:OSUM,支持8種語音理解任務,從ASR到情感識別,以及語音到文本的深度理解

支持語音識別(ASR)
帶時間戳的語音識別(SRWT)
聲音事件檢測(VED)
語音情感識別(SER)
說話風格識別(SSR)
說話者性別分類(SGC)
說話者年齡預測(SAP)
語音到文本對話(STTC)

它結合了Whisper和Qwen2,採用ASR+X訓練策略,支持多任務同時訓練最佳化

專案地址: github.com/ASLP-lab/OSUM

#語音理解模型 #語音識別 #OSUM

Osum – Ihr KI-Navigator im Marketing-Dschungel: Tiefgreifende Analysen, Echte Ergebnisse - KINEWS24.de

Osum – Ihr KI-Navigator im Marketing-Dschungel: Tiefgreifende Analysen, Echte Ergebnisse

KI NEWS24