1.7B 的效果和 0.6B 的效果还是非常明显的:
0.6B:在这次界面增加标点符号的。在此,总共是三个选项:,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。

1.7B:在设置界面增加标点符号的设置,总共是三个选项,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。

#qwen3asr

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

알리바바의 Qwen3-ASR에 7초 분량의 음성을 입력해 아스키(ASCII) 원고의 앞부분을 읽게 해본 실험 결과를 공유합니다. 약 30초 분량의 출력에서 원음의 분위기가 상당히 재현되었고, 심지어 3초만으로도 재현 가능하다고 해설되어 소수 초 샘플로도 음성 특성을 복제하는 고성능 음성 모델 능력을 보여줍니다.

https://x.com/kiyoshi_shin/status/2019065437875519959

#alibaba #qwen3asr #speechrecognition #voicecloning

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

アリババのQwen3-ASRで7秒の音声(過去に動画AIで自動でついた声)を読み込んで、アスキーの原稿の冒頭を読ませてみた。30秒ほどのものだけど、かなり元の音声の雰囲気が出ている。3秒読ませると再現できるらしいけど、いや、すごいなあ。

X (formerly Twitter)

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

Qwen3-ASR을 자신의 목소리로 시험한 결과를 공유한 트윗입니다. 과거 강연에서 7초를 참조음으로 잘라내어 입력하자, 아스키 기사 텍스트를 읽게 했을 때 단 7초 참조만으로도 그럴듯한 읽기 음성이 생성되었다고 보고하며, 앞부분이 참조음성(7초), 후반이 합성(25초)이라고 설명합니다.

https://x.com/kiyoshi_shin/status/2019236962520158225

#qwen3asr #asr #voicecloning #speechsynthesis

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

Qwen3-ASRを自分の声で試してみた。過去の講演から7秒を切り出し、その声を参照して、アスキー記事を読み上げさせた。わずか7秒なのに、それっぽい読み上げ音声が出来てしまうのは衝撃。最初が参照音声(7秒)、後半が読み上げ音声(25秒)。

X (formerly Twitter)

chatllm.cpp hỗ trợ Qwen3-ASR & ForcedAligner: Công nghệ nhận diện giọng nói và đồng bộ thời gian văn bản-audio. Qwen3-ASR (2,0 tỷ tham số) chuyển âm thanh thành văn bản, ForcedAligner (0,6 tỷ tham số) chèn thời gian chính xác. Ví dụ: phân tích bài phát biểu của Obama. #chatllmcpp #Qwen3ASR #ForcedAligner #AIvoice #CôngNghệ #AI

https://www.reddit.com/r/LocalLLaMA/comments/1qsyje8/chatllmcpp_supports_qwen3asr_and_forcedaligner/

vLLM (@vllm_project)

Alibaba의 Qwen3-ASR 출시 소식과 vLLM의 출시 당일(day-0) 지원 발표입니다. Qwen3-ASR은 52개 언어를 지원하고 0.6B 모델에서 2000배 처리량을 달성했으며, 노래 음성 인식 기능과 1.7B 모델에서의 SOTA 정확도를 제공한다고 소개되어 vLLM에서 즉시 서빙 가능함을 알립니다.

https://x.com/vllm_project/status/2016865238323515412

#qwen3asr #vllm #speechrecognition #multilingual #asr

vLLM (@vllm_project) on X

🎉 Congrats @Alibaba_Qwen on the Qwen3-ASR release — vLLM has day-0 support. 52 languages, 2000x throughput on the 0.6B model, singing voice recognition, and SOTA accuracy on the 1.7B. Serve it now in vLLM! 🚀 Learn more: https://t.co/iCkqIeE7AX

X (formerly Twitter)