#NVDA #SAPI5 #TTS #screenreader
Brie Wensleydale (@SlipperyGem)
음성 합성(TTS)의 감정 제어 성능이 매우 좋고, 노래까지 가능한 기능을 언급하며 향후 Xiaomi 계열 모델들에 대한 기대감을 드러낸다. 혁신적인 TTS 기능과 멀티모달 음성 응용 가능성을 보여주는 반응형 트윗이다.
[MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스
MimikaStudio는 맥용 음성 복제 및 TTS 오픈소스 도구로, MLX 기반 Metal 가속을 활용해 macOS에서 네이티브 성능을 구현합니다. Qwen3-TTS와 Chatterbox 엔진을 통합해 3초 샘플로 음성 복제가 가능하며, 한국어 포함 23개 언어의 음성 복제와 감정 표현을 지원합니다. 문서 낭독, 오디오북 생성, 고급 작업 큐 오케스트레이션, Multi-LLM 연동 등 다양한 기능을 제공하며, Python과 Dart로 작성된 코드베이스가 Business Source License 1.1 (BSL-1.1) 기반으로 공개되었습니다.
xAI가 Grok Voice Agent API를 공개했습니다. 모바일·Tesla에서 쓰인 동일 스택을 통해 수십개 언어의 자연스러운 음성, 툴 호출·실시간 검색을 지원하며 Big Bench Audio 1위, 첫음성 응답 <1초로 매우 빠릅니다. 요금은 연결 시간 기준 분당 $0.05. Tesla 제어·경로 검색 등 차량 통합, Ara/Eve/Leo 등 표현적 음성과 [whisper] 같은 효과 제공. OpenAI Realtime 규격 호환·LiveKit 플러그인과 플레이그라운드 제공하며 곧 독립 TTS/STT와 개선된 오디오 모델 공개 예정입니다.
Akshay (@akshay_pachaar)
단어 단위로 음성을 제어할 수 있는 새로운 100% 오픈소스 TTS 모델 공개. 기존 TTS는 문장 전체의 톤이 바뀌는 한계가 있었지만, 이 모델은 문장 내 특정 단어·구간만 따로 감정·억양을 지정할 수 있어 세밀한 음성 연출이 가능해진다.

Finally, you can control speech word by word. (Using a new 100% open-source TTS model) Every TTS system before this had the same core limitation. You'd say "speak in an angry tone" and the whole sentence shifted. There was no way to say "be calm here, then laugh right at this
Как я переводы видео автоматизировать собирался
2 года назад переводил я локальными моделями WoW на русский язык ( https://habr.com/ru/articles/818513/ ) и тут недавно возобновил канал свой на YouTube-ах этих ваших, но выкладывая нарезки со стримов про прогу ( https://www.youtube.com/@the_homeless_god ). И в тестовом режиме переозвучил видео от Fireship про OpenClaw. Да и на тех же стримах возник концепт про цифровые замещения и аватары. И вот сижу я и думаю, что, например, владея английским языком смотреть могу видео в оригинале, но, тот же Veritasium смотрел в оригинале всего несколько раз, так как мне ближе адаптационная озвучка от Vert Dider. А я чем хуже? Правильно, мне лень этим заниматься на стабильной основе. Что я могу сделать? Автоматизировать за несколько часов часть процесса, который по-хорошему должен занимать 15 минут, зачем тогда десятый год я программирую? В общем, статья написана как всегда в стиле (б|в)лога, потому заваривайте чай, мы начинаем писать cli и десктоп для переозвучки с помощью локальных моделей ollama! Ну чё погнали
https://habr.com/ru/articles/1011072/
#клонирование_голоса #безумный_ученый #озвучка #большие_языковые_модели #tts
😱 I almost shut down my project this week.
3 days of Google api costs more than 6 months of revenue 😅
Looking for alternatives. What do you recommend?
Full story: https://pnl.dev/topic/1083/how-google-s-api-nearly-bankrupted-my-side-project-and-what-i-m-doing-about-it
#indiehackers #buildinpublic #tts #webdev #startup #solopreneur #indiedev #sideproject #devlife #apieconomics

Tune in to our online radio for the best mix of chill music and fashion-forward vibes. All music is royalty-free, making it ideal for public playback in shops, restaurants, cafes, and other commercial spaces without licensing fees. Your perfect soundtrack for a relaxed lifestyle. Online Radio.