新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

알리바바의 Qwen3-ASR에 7초 분량의 음성을 입력해 아스키(ASCII) 원고의 앞부분을 읽게 해본 실험 결과를 공유합니다. 약 30초 분량의 출력에서 원음의 분위기가 상당히 재현되었고, 심지어 3초만으로도 재현 가능하다고 해설되어 소수 초 샘플로도 음성 특성을 복제하는 고성능 음성 모델 능력을 보여줍니다.

https://x.com/kiyoshi_shin/status/2019065437875519959

#alibaba #qwen3asr #speechrecognition #voicecloning

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

アリババのQwen3-ASRで7秒の音声(過去に動画AIで自動でついた声)を読み込んで、アスキーの原稿の冒頭を読ませてみた。30秒ほどのものだけど、かなり元の音声の雰囲気が出ている。3秒読ませると再現できるらしいけど、いや、すごいなあ。

X (formerly Twitter)