Linoy Tsaban (@linoy_tsaban)

KugelAudio는 오픈소스 TTS 모델로 소개되며, Vibe-Voice 7B를 파인튜닝하여 제작되었고 약 20만 시간 분량의 데이터로 23개 언어를 학습해 최첨단(SOTA) 성능을 냈다고 알립니다. 더 많은 주목을 받아야 한다는 추천이 포함된 공개 모델 소식입니다.

https://x.com/linoy_tsaban/status/2020891254889095328

#tts #opensource #speech #vibevoice #kugelaudio

Linoy Tsaban (@linoy_tsaban) on X

ICYMI: KugelAudio is an open source TTS model that should get way more attention > fine-tuned from Vibe-Voice 7B > trained on 200K hours of 23 Languages > state-of-the-art performance 🔥

X (formerly Twitter)

就中英混合的文字生成语音,还是vibevoice好,qwen3-tts这点上简直就是婴儿级别的,根本没法用。

#tts #vibevoice #qwentts #qwen #qwen3 #qwen3tts

멀티 에이전트 오케스트레이션 실전: Microsoft Agent Framework로 만드는 AI 팟캐스트 스튜디오

Microsoft가 공개한 멀티 에이전트 시스템으로 팟캐스트를 완전 자동 제작합니다. 로컬 AI 모델과 Agent Framework를 활용한 실전 사례를 소개합니다.

https://aisparkup.com/posts/8717

Người dùng thử VibeVoice 7B (4‑bit) trên Mac M3 Pro 36 GB, thời gian sinh âm thanh rất chậm: 560 s cho 6.5 s audio (RTF ≈ 85x). Model 1.5B nhanh hơn, hỏi liệu có thể tối ưu hơn với MPS không? #VibeVoice #AI #Mac #M3Pro #TríTuệNhânTạo #DeepLearning

https://www.reddit.com/r/LocalLLaMA/comments/1qk1tlx/vibevoice_large_on_mac/

VibeVoice LoRA đang trở thành công cụ TTS mạnh mẽ. Với trainer từ repo VibeVoice‑finetuning, đặt --voice_prompt_drop_rate=1 và gradient accumulation≈4, chỉ 15‑30 phút đã có checkpoint khả dụng. LoRA loại bỏ nhạc ngẫu nhiên, giảm cắt từ cuối, tránh rò rỉ prompt và giảm lỗi từ, sánh ngang 7B model. Dùng Gradio demo (--checkpoint_path) hoặc tích hợp vào tts‑audiobook‑tool; CFG≈3 cho âm thanh ổn định. Mẫu LoRA công cộng (klett) đã được chia sẻ. #AI #TTS #VibeVoice #LoRA #MachineLearning #TríTuệNhânT

🗣️ #Microsoft ha reso open-source #VibeVoice, un sistema di text-to-speech in tempo reale.
👉 I dettagli: https://www.linkedin.com/posts/alessiopomaro_tts-microsoft-vibevoice-activity-7419994276698148864-tkeu

___ 
✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://bit.ly/newsletter-alessiopomaro

#AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM 

Người dùng đang gặp khó khăn khi huấn luyện VibeVoice LoRA, không rõ về các thành phần như 'diffusion-head', 'acoustic connector' và 'semantic connector'. Dù một extension ComfyUI nói 'adapter config' và 'adapter model' là đủ, ChatGPT lại nhấn mạnh 'diffusion-head' rất quan trọng. Người dùng cũng thắc mắc về sự cần thiết của LoRA cho nhân bản giọng nói khi model 7b với 30 giây âm thanh đã cho kết quả tốt.

#VibeVoice #LoRA #AI #MachineLearning #VoiceCloning #HuấnLuyệnAI #NhânBảnGiọngNói

https:/

Tác giả tìm kiếm phiên bản lượng tử hóa của VibeVoice-7B cho dịch vụ đọc sách ebook, lưu ý mô hình này cần 18.3GB VRAM và tốt hơn Chatterbox trong trường hợp cụ thể. Xin chỉ dẫn về lượng tử hóa hoặc liên kết nguồn. #AI #MachineLearning #VibeVoice #HỗTrợAI #CôngNghệMới

https://www.reddit.com/r/LocalLLaMA/comments/1pp21lx/quantized_vibevoice7b/

VibeVoice công bố port Swift thời gian thực hoạt động mượt mà với đầu ra luồng LLM, kết nối thành công với mlx_lm.generate. #VibeVoice #Swift #LLM #AI #llmVi #swiftcode

https://www.reddit.com/r/LocalLLaMA/comments/1pkr50a/vibevoice_real_time_swift_port/

Discover Microsoft's game-changing partnership with VibeVoice, revolutionizing voice tech #VibeVoice #MicrosoftAI #Innovation

Microsoft's recent collaboration with VibeVoice has sparked interest in the tech community, particularly in the realm of voice-assisted technologies and natural language processing. The integration of VibeVoice's advanced speech recognition capabilities with Microsoft's AI infrastructure is expected to...

#Microsoft #VibeVoice #AI #NaturalLanguageProcessing