Google DeepMind (@GoogleDeepMind)
Lyria 3라는 최신 생성 음악 모델이 공개되었습니다. 사진과 텍스트를 입력하면 보컬과 가사가 포함된 동적 트랙으로 변환할 수 있는 기능을 제공해 생성 음악과 오디오 제작 워크플로우를 크게 확장합니다.
Google DeepMind (@GoogleDeepMind)
Lyria 3라는 최신 생성 음악 모델이 공개되었습니다. 사진과 텍스트를 입력하면 보컬과 가사가 포함된 동적 트랙으로 변환할 수 있는 기능을 제공해 생성 음악과 오디오 제작 워크플로우를 크게 확장합니다.
ModelScope (@ModelScope2022)
StepFun의 음성 모델 'Step-Audio-R1.1'이 Artificial Analysis Speech Reasoning 리더보드에서 SOTA를 달성했습니다(정확도 96.4%). Grok, Gemini, GPT-Realtime 등을 능가했으며 네이티브 오디오 추론(End-to-End), 오디오-네이티브 CoT, 실시간 처리를 특징으로 합니다.

Step-Audio-R1.1 by @StepFun_ai just set a new SOTA on the Artificial Analysis Speech Reasoning leaderboard! 🏆 It outperforms Grok, Gemini, and GPT-Realtime with a 96.4% accuracy rate. ✅ Native Audio Reasoning (End-to-End) ✅ Audio-native CoT (Chain of Thought) ✅ Real-time
OpenAI’s upcoming ‘Gumdrop’ hardware, code‑named “i”, promises a pocket‑sized AI companion with a pen, audio model and even a “Smart Pikachu” assistant. But the specs sound eerily like a smartphone on steroids, raising privacy and open‑source concerns. What does this mean for the community? Read the full breakdown to find out. #OpenAI #Gumdrop #SmartPikachu #AudioModel
🔗 https://aidailypost.com/news/openais-gumdrop-hardware-plans-codenamed-i-raise-smartphone-concerns
Liquid AI ra mắt mô hình Audio Foundation mới: LFM2-Audio-1.5. Hỗ trợ đầu vào & đầu ra âm thanh/văn bản, điều khiển quaemand & hỗ trợ ASR với từ vựng tùy chỉnh. Mô hình nàypiresランス và mạnh mẽ, có sẵn trên Liquid Playground & HuggingFace. #AI #AudioModel #Tech #TríTuệNhânTạo #MôHìnhAudio #CôngNghệ
https://www.reddit.com/r/LocalLLaMA/comments/1nvltym/liquid_ai_released_its_audio_foundation_model/