Qwen3-TTS, 3초 클립으로 목소리를 복제하는 오픈소스 TTS
Alibaba Qwen 팀의 Qwen3-TTS, 3초 음성 샘플로 목소리 복제하고 97ms 만에 첫 응답을 생성하는 초저지연 멀티링구얼 TTS 모델을 소개합니다.Qwen3-TTS, 3초 클립으로 목소리를 복제하는 오픈소스 TTS
Alibaba Qwen 팀의 Qwen3-TTS, 3초 음성 샘플로 목소리 복제하고 97ms 만에 첫 응답을 생성하는 초저지연 멀티링구얼 TTS 모델을 소개합니다.Lightspeed (@lightspeedvp)
ElevenLabs가 인간과 AI의 커뮤니케이션 인프라를 구축하고 있다는 소식입니다. 초기의 텍스트-투-스피치(TTS) 혁신을 출발점으로 음성-투-텍스트(STT), 사운드 이펙트, 더빙, 음악, 대화형 오디오 등으로 제품군을 폭넓게 확장하고 있으며 창업자는 matiii와 dabkowski_piotr입니다.

.@elevenlabsio is building infrastructure for how humans and AI will communicate. What started as breakthrough text-to-speech has expanded to speech-to-text, sound effects, dubbing, music, and conversation. Founded by @matiii and @dabkowski_piotr, ElevenLabs has grown from
I've published a new tutorial about Qwen3-TTS 😎 . It covers an overview, audio samples, running on google colab and do testing on voice design and voice cloning (in english and german) 😊.
Interested? Check it out: https://youtu.be/MOIyC9w1Wi0
Pocket TTS proves you don't need a GPU for high-quality text-to-speech. 100M parameters, CPU-only, 200ms latency, voice cloning included. The first local TTS that doesn't compromise.
More details here: https://ostechnix.com/pocket-tts-local-text-to-speech-no-gpu/
#PocketTTS #TTS #TextToSpeech #AI #Python #Opensource #KyutaiLabs #SpeechSynthesis #VoiceCloning
Обзор Open Source моделей для задачи TTS
Задача Text-to-Speech (TTS) она же задача синтеза речи - заключается в том, чтобы озвучить заранее подготовленный текст голосом спикера. Данная задача является одной из важных в системах взаимодействия человека и компьютера. Конечно, такая задача генерации речи встречается гораздо реже, чем, например, задача генерации или обработки текста, тем не менее, сферы ее применения со временем только увеличиваются в своих масштабах и становится все более востребованной. Привет, Хабр, меня зовут Музафаров Данил, я работаю DS инженером в компании Raft и сегодня мы рассмотрим существующие Open Source модели и репозитории, которые решают задачи TTS для русского языка.
Erencan Arica (@imeronn)
Expo(expo-audio)와 GroqInc, Reanimated를 활용한 음성 비서 앱 개발 템플릿을 공개함. 템플릿은 음성 인식(STT), 대화 처리(LLM 응답), TTS를 통합하며 React Native Components(rncomponents)에 템플릿과 설치 링크가 제공되어 개발자용 참고 자료로 활용 가능.
Github Awesome (@GithubAwesome)
Voicebox는 데스크톱용 음성 클로닝 및 음성 합성 애플리케이션으로, 몇 초 분량의 오디오만으로 Qwen3-TTS 등 모델을 활용해 목소리를 복제합니다. 생성된 음성 클립을 타임라인에 배치해 드래그·레이어링·편집할 수 있어 오디오 편집 워크플로에 바로 통합 가능한 도구입니다.

Voicebox is a desktop app for voice cloning and speech synthesis. Feed it a few seconds of audio and it clones the voice using models like Qwen3-TTS. Then you arrange the generated speech on a timeline — drag clips around, layer different voices, edit the output like you would in