1.7B 的效果和 0.6B 的效果还是非常明显的:
0.6B:在这次界面增加标点符号的。在此,总共是三个选项:,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。
1.7B:在设置界面增加标点符号的设置,总共是三个选项,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。
1.7B 的效果和 0.6B 的效果还是非常明显的:
0.6B:在这次界面增加标点符号的。在此,总共是三个选项:,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。
1.7B:在设置界面增加标点符号的设置,总共是三个选项,一个是完整的标点符号,第二个是所有的标点改为空格,第三个是去除最后的标点。
新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
알리바바의 Qwen3-ASR에 7초 분량의 음성을 입력해 아스키(ASCII) 원고의 앞부분을 읽게 해본 실험 결과를 공유합니다. 약 30초 분량의 출력에서 원음의 분위기가 상당히 재현되었고, 심지어 3초만으로도 재현 가능하다고 해설되어 소수 초 샘플로도 음성 특성을 복제하는 고성능 음성 모델 능력을 보여줍니다.
新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
Qwen3-ASR을 자신의 목소리로 시험한 결과를 공유한 트윗입니다. 과거 강연에서 7초를 참조음으로 잘라내어 입력하자, 아스키 기사 텍스트를 읽게 했을 때 단 7초 참조만으로도 그럴듯한 읽기 음성이 생성되었다고 보고하며, 앞부분이 참조음성(7초), 후반이 합성(25초)이라고 설명합니다.
chatllm.cpp hỗ trợ Qwen3-ASR & ForcedAligner: Công nghệ nhận diện giọng nói và đồng bộ thời gian văn bản-audio. Qwen3-ASR (2,0 tỷ tham số) chuyển âm thanh thành văn bản, ForcedAligner (0,6 tỷ tham số) chèn thời gian chính xác. Ví dụ: phân tích bài phát biểu của Obama. #chatllmcpp #Qwen3ASR #ForcedAligner #AIvoice #CôngNghệ #AI
https://www.reddit.com/r/LocalLLaMA/comments/1qsyje8/chatllmcpp_supports_qwen3asr_and_forcedaligner/
vLLM (@vllm_project)
Alibaba의 Qwen3-ASR 출시 소식과 vLLM의 출시 당일(day-0) 지원 발표입니다. Qwen3-ASR은 52개 언어를 지원하고 0.6B 모델에서 2000배 처리량을 달성했으며, 노래 음성 인식 기능과 1.7B 모델에서의 SOTA 정확도를 제공한다고 소개되어 vLLM에서 즉시 서빙 가능함을 알립니다.