StepFun (@StepFun_ai)

Step-Audio-R1.1 발표 — 오디오 추론 분야의 새로운 성과로, Artificial Analysis Speech Reasoning 리더보드에서 1위를 차지했습니다. BigBench Audio에서 96.4% 정확도로 기록을 갱신하며 Grok, Gemini 및 OpenAI·Google 계열 모델들을 능가한 SOTA 결과를 보고했습니다.

https://x.com/StepFun_ai/status/2011845838188822684

#stepaudio #audio #audionlp #bigbench #sota

StepFun (@StepFun_ai) on X

🎤 Introducing Step-Audio-R1.1: The New Frontier of Audio Reasoning! 🏆 We just hit No.1 on the Artificial Analysis Speech Reasoning leaderboard! Our results: ✅96.4% accuracy on BigBench Audio, setting a new record and surpassing Grok, Gemini, OpenAI, and Google models (Fig.

X (formerly Twitter)

StepFun (@StepFun_ai)

CES 2026에서 Step‑Audio 2를 공개한다는 발표입니다. 별도 데모나 스크립트 없이 Geely Galaxy M9 차량 콕핏 내에서 실시간 저지연 LLM 성능을 시연하며, 실제 자연스러운 영어 대화를 경험할 수 있도록 구성된 인-카 AI 적용 사례입니다.

https://x.com/StepFun_ai/status/2008266859205063070

#ces2026 #stepaudio #llm #geely #incarai

StepFun (@StepFun_ai) on X

🌏CES 2026 is calling. We picked up! 🎤We’re dropping Step‑Audio 2 into the wild at CES 2026. 🚗No canned demos. No scripts. Just raw, low-latency LLM performance running live inside the Geely Galaxy M9 cockpit. 😎What you’ll experience: - Real, fluent English conversations -

X (formerly Twitter)

#開源分享 首個集語音理解與生成控制一體化的產品級開源即時語音對話系統:Step-Audio,支持多語言對話、情感語氣、地區方言、可調節語速以及韻律風格

支持中文、英文、日語等多語言;支持粵語、四川話等方言;支持RAP和哼唱;可控制語音情感,比如開心或悲傷

Step-Audio系列包含三個模型:
1、Step-Audio-Tokenizer(分詞器)
2、Step-Audio-Chat(130B對話模型)
3、Step-Audio-TTS-3B(3B語音合成模型)

Step-Audio-Chat,130B多模態模型,單模型能實現理解生成一體化完成語音識別、語義理解、對話、語音複製、語音生成等

Step-Audio-TTS-3B:基於130B生成高品質的合成音訊數據訓練,支持RAP和哼唱的指令加強版語音合成模型

通過ToolCall機制和角色扮演增強,可進一步提升其在 Agents和複雜任務中的表現

#TTS #語音對話系統 #StepAudio #即時語音系統