ModelScope (@ModelScope2022)

StepFun의 음성 모델 'Step-Audio-R1.1'이 Artificial Analysis Speech Reasoning 리더보드에서 SOTA를 달성했습니다(정확도 96.4%). Grok, Gemini, GPT-Realtime 등을 능가했으며 네이티브 오디오 추론(End-to-End), 오디오-네이티브 CoT, 실시간 처리를 특징으로 합니다.

https://x.com/ModelScope2022/status/2011687986338136089

#speechai #audiomodel #sota #stepaudior1.1

ModelScope (@ModelScope2022) on X

Step-Audio-R1.1 by @StepFun_ai just set a new SOTA on the Artificial Analysis Speech Reasoning leaderboard! 🏆 It outperforms Grok, Gemini, and GPT-Realtime with a 96.4% accuracy rate. ✅ Native Audio Reasoning (End-to-End) ✅ Audio-native CoT (Chain of Thought) ✅ Real-time

X (formerly Twitter)

Mô hình âm thanh Step-Audio-R1 mã nguồn mở sử dụng CoT reasoning, hiệu suất gần Gemini 3. Nó reasons từ âm thanh, không phải bản chuyển tự, hiệu suất vượt Gemini 2.5 Pro. #audio #âm_thanh #AI #trí_tuệ_nhân_tạo #StepAudioR1 #Gemini3

https://www.reddit.com/r/LocalLLaMA/comments/1p9dxvd/new_model_stepaudior1_open_source_audio_model_to/