Gemini 2.5 Pro TTS của Google đạt chất lượng gần bằng ElevenLabs, nhưng giọng thay đổi mỗi lần sinh và tốc độ không ổn định. Người dùng đề xuất kết hợp với mô hình RVC để giữ giọng cố định và cải thiện pacing. RVC có sao chép tốc độ của audio đầu vào hay phụ thuộc vào dữ liệu huấn luyện? #AI #TTS #Gemini #RVC #AI_Vietnam #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1qimgpv/gemini_25_tts_paired_with_rvc/

Gemini 2.5 Pro TTS của Google đạt chất lượng gần bằng ElevenLabs, nhưng mỗi lần sinh âm thanh lại thay đổi giọng. Người dùng muốn đào tạo mô hình RVC trên giọng riêng để ổn định tiếng nói và kiểm soát tempo. RVC có thể sao chép nhịp điệu từ audio đầu vào hay phụ thuộc vào dữ liệu huấn luyện? #Gemini #TTS #RVC #AI #AI_Voice #Công_nghệ #Trí_tuệ_nhân_tạo

https://www.reddit.com/r/LocalLLaMA/comments/1qimgpv/gemini_25_tts_paired_with_rvc/

Попалась как-то раз мне 1 нейронка, которая генерит мокьюментари (в хорошем смысле) из GPT-текста, нейронной TTS и стоковых видео (пре-рендеренных):
ai InVideo io
Делает видосы понятно и человечно, правда, глючит иногда, как и все нейронки, но зато позволяет рендерить что хочешь: от пафосной документалки до лёгкого триллера (но, разумеется, PUSCA-фильтр может сработать, так что не увлекайтесь)
#Generative #AI #Video #GPT #TTS #Документальный #Фильм #Диктор #GenerativeAI #AIVideo #GPT4 #TextToSpeech #VoiceOver #DocumentaryFilm #Narrator #AIVoice #GenerativeVideo #AIContent #DocuAI #FilmNarration

Đã triển khai OpenWebUI + Ollama trên Linux (RTX 3090/4090). Thử OpenAI Speech TTS, nhưng giọng chậm, độ trễ cao, chất lượng không ổn. Cần lời khuyên cấu hình TTS, tích hợp tìm kiếm web, công cụ tạo ảnh (ConfyUI) và khả năng vision cho mô hình không có sẵn. Ai có kinh nghiệm chia sẻ nhé! #OpenWebUI #LLM #TTS #WebSearch #Vision #AI #Vietnam #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1qi41b7/openwebui_tts_and_websearch/

Github Awesome (@GithubAwesome)

Kyutai Labs의 Pocket TTS: 고품질 음성 모델이 보통 대형 GPU나 클라우드가 필요한 상황에서, 1억 파라미터 규모로 CPU만으로 동작하는 음성 합성 솔루션을 제시. 'Continuous Audio Language Modeling'이라는 신규 방법으로 소리를 예측해 온디바이스 TTS 가능성을 열음.

https://x.com/GithubAwesome/status/2013139901936697549

#pockettts #tts #speechsynthesis #kyutailabs

Github Awesome (@GithubAwesome) on X

Pocket TTS by Kyutai Labs. We are used to high-quality AI voices needing massive GPUs or expensive cloud APIs. But this? This is a 100-million parameter model that runs entirely on your CPU. It uses a new method called "Continuous Audio Language Modeling" to predict sound

X (formerly Twitter)
VoxCPM: cuando el TTS deja de sonar a TTS

Durante años hemos aceptado una idea casi como dogma en text-to-speech: para generar audio hay que discretizarlo . Da igual si hablamos de u...

Biến tủ sách EPUB thành audiobook ngay tại máy! Một dự án tự host hoạt động 100% cục bộ, quản lý VRAM thông minh, tích hợp nhiều AI voices. Lựa chọn tuyệt cho ai muốn tự chủ dữ liệu.

#SelfHosted #AI #TTS #Audiobook #DIY #TựHost #CôngNhệ #SáchNói #TựLàm

https://www.reddit.com/r/selfhosted/comments/1qgkb2t/selfhosted_epub_to_audiobook_converter_with/

Bạn có thể tự chuyển EPUB thành audiobook ngay trên máy tính! Dự án mã nguồn mở mới cung cấp bộ công cụ AI hoàn toàn cục bộ: XTTS, GPT‑SoVITS, Maya1, Kokoro, hỗ trợ quản lý VRAM, tạo tự động tiêu đề chương qua Ollama, mạng tĩnh tránh lỗi Docker, lưu mô hình cố định. Xây dựng bằng Python 3.11 + Docker Compose, UI Gradio. Thử ngay và góp ý! #AI #TTS #Audiobook #OpenSource #CôngNghệ #Vietnam

https://www.reddit.com/r/LocalLLaMA/comments/1qgk2vw/local_epub_to_audiobook_converter_with_modular_ai/

Pocket TTS: A high quality TTS that gives your CPU a voice

Our mission is to build and democratize artificial general intelligence through open science.

NeuTTS Nano ra mắt: Mô hình TTS nhẹ chỉ 120M tham số, tích hợp voice cloning trong 3 giây, phù hợp cho thiết bị nhúng, robot và IoT. Kiến trúc đơn giản dựa trên Llama3, định dạng GGML, chạy mượt trên Raspberry Pi, Jetson, điện thoại. Cùng thử nghiệm và chia sẻ hiệu suất trên các thiết bị nhỏ! #NeuTTS #VoiceCloning #AI #TTS #EmbeddedAI #MáyHọc #TríTuệNhânTạo

https://v.redd.it/2nikcyj6ycdg1