Hands on with AI audio generation: GAI voice, music, and sound effects

This is the second post in a series exploring the multimodal possibilities of generative AI. This series will take a detailed, hype-free look at text, image, audio, video, and code generation and explore the creative potential as well as the ethical concerns of GAI. Although Generative AI isn't a new technology, it's definitely been having a hype moment since the release of ChatGPT in November 2022. Unfortunately, the focus has been squarely on the text-based chatbot at the exclusion of […]

https://leonfurze.com/2023/09/25/hands-on-with-ai-audio-generation-gai-voice-music-and-sound-effects/

Engadget (@engadget)

Arc Raiders가 일부 AI 생성 음성 대사를 전문 성우의 녹음으로 교체했다는 소식입니다. 이는 게임 내 음성 합성 품질·윤리 문제나 플레이어 반응에 대응한 조치로 해석되며, 게임 업계에서 AI 음성 대체와 인간 성우 복귀 간 균형에 대한 논의를 촉발할 수 있습니다.

https://x.com/engadget/status/2033254739677155611

#gaming #ai #voicesynthesis #gamedev

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

세미나에서 공개한 田中さん 영상 관련 설명입니다. Seedream5로 생성한 영상과 Seedance1.5로 만든 영상을 이어 붙인 작품이며 음악은 Suno로 제작되었습니다. 흥미롭게도 일본어 대사만 지정했음에도 따로 만든 세 영상에서 같은 듯한 매우 유사한 음성이 반복되어 나오는 현상을 관찰하고 공유한 내용입니다.

https://x.com/kiyoshi_shin/status/2032323490645418314

#seedream #seedance #suno #videogeneration #voicesynthesis

Germany gets a new AI call assistant from Deutsche Telekom that works straight from the cellular network—no app required. Powered by ElevenLabs’ voice synthesis, it can translate languages on the fly. Unveiled at Mobile World Congress, it shows how open‑source‑friendly AI can reshape everyday calls. Curious how it works? #MagentaAI #DeutscheTelekom #ElevenLabs #VoiceSynthesis

🔗 https://aidailypost.com/news/magenta-ai-call-assistant-launches-germany-no-app-needed

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

아이디어 제안: Qwen3-TTS로 다양한 목소리를 생성한 뒤 SBV2로 학습시키면 안정적인 실시간 음성 합성 구현이 더 쉬워질 수 있다는 관찰과 제안입니다. Qwen3-TTS와 SBV2를 조합한 실시간 TTS 파이프라인 가능성에 대한 실무적 제언입니다.

https://x.com/kiyoshi_shin/status/2024098451399598556

#qwen3tts #sbv2 #tts #realtime #voicesynthesis

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

このアイデアいいですね。そうかQwen3-TTSで声をいろいろ作って、SBV2で学習させれば安定したリアルタイム音声を作りやすくなるのか。

X (formerly Twitter)

cocktail peanut (@cocktailpeanut)

트윗 작성자는 ACE-Step이 듀엣으로 노래할 수 있다는 사실에 놀라움을 표했습니다. 해당 발언은 ACE-Step 모델(또는 시스템)이 보컬 합성·듀엣 생성 등 음악·음성 합성 쪽에서 새롭거나 인상적인 기능을 보였음을 암시합니다.

https://x.com/cocktailpeanut/status/2019232275561353666

#acestep #singingai #voicesynthesis #musicai

cocktail peanut (@cocktailpeanut) on X

WTF ACE-Step can sing DUET? How???!

X (formerly Twitter)

ITmedia AI+ (@itm_aiplus)

중국에서 새로운 동영상 생성 AI 모델 'Vidu Q3'가 등장했다. 보도는 이 모델이 일본어의 '애니메이션 목소리' 표현에 강점이 있다고 전하며, 영상 생성과 음성 합성 기능을 결합해 텍스트→비디오·캐릭터 음성 생성 등 콘텐츠 제작 분야에 활용될 가능성이 있다.

https://x.com/itm_aiplus/status/2018167511276192062

#videogeneration #aimodel #voicesynthesis #animevoice

ITmedia AI+ (@itm_aiplus) on X

日本語の“アニメ声”に強い? 中国から新たな動画生成AIモデル「Vidu Q3」登場 https://t.co/kTaoq0LlwM

X (formerly Twitter)

Qwen3-TTS ra mắt với độ trễ siêu thấp chỉ 97ms, hỗ trợ nhân bản giọng nói và API tương thích OpenAI. Công nghệ tổng hợp giọng nói tiên tiến, lý tưởng cho ứng dụng thời gian thực. #Qwen3TTS #VoiceSynthesis #AI #TextToSpeech #TríTuệNhânTạo #TTS #OpenAI

https://www.reddit.com/r/ollama/comments/1qlzbwk/release_qwen3tts_ultralow_latency_97ms_voice/

ElevenLabs appoints Karthik Rajaram as India Country Head to accelerate AI voice growth. His leadership will boost multilingual audio, voice synthesis and conversational AI for creators and brands across the Indian market. Discover how this move could reshape digital content creation. #AIvoice #VoiceSynthesis #ElevenLabs #MultilingualAudio

🔗 https://aidailypost.com/news/elevenlabs-names-karthik-rajaram-india-country-head-power-ai-voice

Mệt mỏi với phí “SaaS Tax” khi tạo giọng nói? Nếu có GPU NVIDIA, bạn có thể chuyển sang **run mô hình VITS/Transformer hoàn toàn offline** – không giới hạn ký tự, không phí hàng tháng, dữ liệu riêng tư và độ trễ bằng 0. Hãy tận dụng toàn bộ sức mạnh phần cứng của mình! #AI #VoiceSynthesis #NVIDIA #SaaS #TechVietnam #AIVietnam #OfflineAI #Công_nghệ #GPU #SaaSTax

https://www.reddit.com/r/selfhosted/comments/1qd16yj/why_pay_for_cloud_ai_voiceovers_when_your_gpu_is/