Google DeepMind (@GoogleDeepMind)

Lyria 3라는 최신 생성 음악 모델이 공개되었습니다. 사진과 텍스트를 입력하면 보컬과 가사가 포함된 동적 트랙으로 변환할 수 있는 기능을 제공해 생성 음악과 오디오 제작 워크플로우를 크게 확장합니다.

https://x.com/GoogleDeepMind/status/2024153067654902014

#lyria3 #generativemusic #musicai #audiomodel

Google DeepMind (@GoogleDeepMind) on X

We just dropped Lyria 3: our latest generative music model. 🔊 It can turn photos and text into dynamic tracks - complete with vocals and lyrics. 🧵

X (formerly Twitter)

ModelScope (@ModelScope2022)

StepFun의 음성 모델 'Step-Audio-R1.1'이 Artificial Analysis Speech Reasoning 리더보드에서 SOTA를 달성했습니다(정확도 96.4%). Grok, Gemini, GPT-Realtime 등을 능가했으며 네이티브 오디오 추론(End-to-End), 오디오-네이티브 CoT, 실시간 처리를 특징으로 합니다.

https://x.com/ModelScope2022/status/2011687986338136089

#speechai #audiomodel #sota #stepaudior1.1

ModelScope (@ModelScope2022) on X

Step-Audio-R1.1 by @StepFun_ai just set a new SOTA on the Artificial Analysis Speech Reasoning leaderboard! 🏆 It outperforms Grok, Gemini, and GPT-Realtime with a 96.4% accuracy rate. ✅ Native Audio Reasoning (End-to-End) ✅ Audio-native CoT (Chain of Thought) ✅ Real-time

X (formerly Twitter)

OpenAI’s upcoming ‘Gumdrop’ hardware, code‑named “i”, promises a pocket‑sized AI companion with a pen, audio model and even a “Smart Pikachu” assistant. But the specs sound eerily like a smartphone on steroids, raising privacy and open‑source concerns. What does this mean for the community? Read the full breakdown to find out. #OpenAI #Gumdrop #SmartPikachu #AudioModel

🔗 https://aidailypost.com/news/openais-gumdrop-hardware-plans-codenamed-i-raise-smartphone-concerns

Liquid AI ra mắt mô hình Audio Foundation mới: LFM2-Audio-1.5. Hỗ trợ đầu vào & đầu ra âm thanh/văn bản, điều khiển quaemand & hỗ trợ ASR với từ vựng tùy chỉnh. Mô hình nàypiresランス và mạnh mẽ, có sẵn trên Liquid Playground & HuggingFace. #AI #AudioModel #Tech #TríTuệNhânTạo #MôHìnhAudio #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1nvltym/liquid_ai_released_its_audio_foundation_model/