新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
알리바바의 Qwen3-ASR에 7초 분량의 음성을 입력해 아스키(ASCII) 원고의 앞부분을 읽게 해본 실험 결과를 공유합니다. 약 30초 분량의 출력에서 원음의 분위기가 상당히 재현되었고, 심지어 3초만으로도 재현 가능하다고 해설되어 소수 초 샘플로도 음성 특성을 복제하는 고성능 음성 모델 능력을 보여줍니다.
新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
알리바바의 Qwen3-ASR에 7초 분량의 음성을 입력해 아스키(ASCII) 원고의 앞부분을 읽게 해본 실험 결과를 공유합니다. 약 30초 분량의 출력에서 원음의 분위기가 상당히 재현되었고, 심지어 3초만으로도 재현 가능하다고 해설되어 소수 초 샘플로도 음성 특성을 복제하는 고성능 음성 모델 능력을 보여줍니다.