Qwen3-TTS, 3초 클립으로 목소리를 복제하는 오픈소스 TTS

Alibaba Qwen 팀의 Qwen3-TTS, 3초 음성 샘플로 목소리 복제하고 97ms 만에 첫 응답을 생성하는 초저지연 멀티링구얼 TTS 모델을 소개합니다.

https://aisparkup.com/posts/8918

Lightspeed (@lightspeedvp)

ElevenLabs가 인간과 AI의 커뮤니케이션 인프라를 구축하고 있다는 소식입니다. 초기의 텍스트-투-스피치(TTS) 혁신을 출발점으로 음성-투-텍스트(STT), 사운드 이펙트, 더빙, 음악, 대화형 오디오 등으로 제품군을 폭넓게 확장하고 있으며 창업자는 matiii와 dabkowski_piotr입니다.

https://x.com/lightspeedvp/status/2019080811916730746

#elevenlabs #tts #speechtotext #dubbing #aiaudio

Lightspeed (@lightspeedvp) on X

.@elevenlabsio is building infrastructure for how humans and AI will communicate. What started as breakthrough text-to-speech has expanded to speech-to-text, sound effects, dubbing, music, and conversation. Founded by @matiii and @dabkowski_piotr, ElevenLabs has grown from

X (formerly Twitter)

Потратил некоторое время на исследование прикола с "Алиса, скажи щ на английском". Как итог, нашёл вот такой список слов, от которых английский tts яндекса сходит с ума:
chsh, shch, ch, sh, hs, chch, shsh, jh

#tts #yandex #bug

I've published a new tutorial about Qwen3-TTS 😎 . It covers an overview, audio samples, running on google colab and do testing on voice design and voice cloning (in english and german) 😊.

Interested? Check it out: https://youtu.be/MOIyC9w1Wi0

#tts #ai #voice #opensource #qwen

Pocket TTS proves you don't need a GPU for high-quality text-to-speech. 100M parameters, CPU-only, 200ms latency, voice cloning included. The first local TTS that doesn't compromise.

More details here: https://ostechnix.com/pocket-tts-local-text-to-speech-no-gpu/

#PocketTTS #TTS #TextToSpeech #AI #Python #Opensource #KyutaiLabs #SpeechSynthesis #VoiceCloning

Pocket TTS: High-Quality Local Voice Cloning Without GPU - OSTechNix

Pocket TTS delivers high-quality text-to-speech on standard CPUs. No GPU, no cloud APIs. It is the first local TTS with voice cloning.

OSTechNix

Обзор Open Source моделей для задачи TTS

Задача Text-to-Speech (TTS) она же задача синтеза речи - заключается в том, чтобы озвучить заранее подготовленный текст голосом спикера. Данная задача является одной из важных в системах взаимодействия человека и компьютера. Конечно, такая задача генерации речи встречается гораздо реже, чем, например, задача генерации или обработки текста, тем не менее, сферы ее применения со временем только увеличиваются в своих масштабах и становится все более востребованной. Привет, Хабр, меня зовут Музафаров Данил, я работаю DS инженером в компании Raft и сегодня мы рассмотрим существующие Open Source модели и репозитории, которые решают задачи TTS для русского языка.

https://habr.com/ru/companies/raft/articles/991844/

#Texttospeech #TTS #генерация_речи

Обзор Open Source моделей для задачи TTS

План статьи Введение в суть задачи. Для чего и зачем это нужно. Как оценивать такие модели. Метрики и нюансы сравнения. Основная часть. Разбор каждой модели. Краткое резюме. Возможности и ограничения....

Хабр

Erencan Arica (@imeronn)

Expo(expo-audio)와 GroqInc, Reanimated를 활용한 음성 비서 앱 개발 템플릿을 공개함. 템플릿은 음성 인식(STT), 대화 처리(LLM 응답), TTS를 통합하며 React Native Components(rncomponents)에 템플릿과 설치 링크가 제공되어 개발자용 참고 자료로 활용 가능.

https://x.com/imeronn/status/2018580548059312241

#expo #reactnative #voiceassistant #tts #groqinc

Erencan Arica (@imeronn) on X

Released a useful template for developing voice assistant apps using @expo (expo-audio) with @GroqInc and Reanimated. 📌 Transcription (Speech-to-Text) 📌 Chat (LLM reply) 📌 Text-to-Speech (TTS) Available on @rncomponents https://t.co/7InEp6Go8Q

X (formerly Twitter)
TTS January Roundup: Scaling and Deployment Preview – TravelTechnologySolutions.net – The Newsroom

就中英混合的文字生成语音,还是vibevoice好,qwen3-tts这点上简直就是婴儿级别的,根本没法用。

#tts #vibevoice #qwentts #qwen #qwen3 #qwen3tts

Github Awesome (@GithubAwesome)

Voicebox는 데스크톱용 음성 클로닝 및 음성 합성 애플리케이션으로, 몇 초 분량의 오디오만으로 Qwen3-TTS 등 모델을 활용해 목소리를 복제합니다. 생성된 음성 클립을 타임라인에 배치해 드래그·레이어링·편집할 수 있어 오디오 편집 워크플로에 바로 통합 가능한 도구입니다.

https://x.com/GithubAwesome/status/2018150445085249935

#voicecloning #tts #speechsynthesis #audioediting #qwen3tts

Github Awesome (@GithubAwesome) on X

Voicebox is a desktop app for voice cloning and speech synthesis. Feed it a few seconds of audio and it clones the voice using models like Qwen3-TTS. Then you arrange the generated speech on a timeline — drag clips around, layer different voices, edit the output like you would in

X (formerly Twitter)