Mastodawn

StepFun (@StepFun_ai)

Step-Audio-R1.1 발표 — 오디오 추론 분야의 새로운 성과로, Artificial Analysis Speech Reasoning 리더보드에서 1위를 차지했습니다. BigBench Audio에서 96.4% 정확도로 기록을 갱신하며 Grok, Gemini 및 OpenAI·Google 계열 모델들을 능가한 SOTA 결과를 보고했습니다.

https://x.com/StepFun_ai/status/2011845838188822684

#stepaudio #audio #audionlp #bigbench #sota

StepFun (@StepFun_ai) on X

🎤 Introducing Step-Audio-R1.1: The New Frontier of Audio Reasoning! 🏆 We just hit No.1 on the Artificial Analysis Speech Reasoning leaderboard! Our results: ✅96.4% accuracy on BigBench Audio, setting a new record and surpassing Grok, Gemini, OpenAI, and Google models (Fig.

X (formerly Twitter)

sayzard Jan 5

StepFun (@StepFun_ai)

CES 2026에서 Step‑Audio 2를 공개한다는 발표입니다. 별도 데모나 스크립트 없이 Geely Galaxy M9 차량 콕핏 내에서 실시간 저지연 LLM 성능을 시연하며, 실제 자연스러운 영어 대화를 경험할 수 있도록 구성된 인-카 AI 적용 사례입니다.

https://x.com/StepFun_ai/status/2008266859205063070

#ces2026 #stepaudio #llm #geely #incarai

StepFun (@StepFun_ai) on X

🌏CES 2026 is calling. We picked up！ 🎤We’re dropping Step‑Audio 2 into the wild at CES 2026. 🚗No canned demos. No scripts. Just raw, low-latency LLM performance running live inside the Geely Galaxy M9 cockpit. 😎What you’ll experience: - Real, fluent English conversations -

X (formerly Twitter)

王永帥🍥Feb 18, 2025

#開源分享首個集語音理解與生成控制一體化的產品級開源即時語音對話系統：Step-Audio，支持多語言對話、情感語氣、地區方言、可調節語速以及韻律風格

支持中文、英文、日語等多語言；支持粵語、四川話等方言；支持RAP和哼唱；可控制語音情感，比如開心或悲傷

Step-Audio系列包含三個模型：
1、Step-Audio-Tokenizer（分詞器）
2、Step-Audio-Chat（130B對話模型）
3、Step-Audio-TTS-3B（3B語音合成模型）

Step-Audio-Chat，130B多模態模型，單模型能實現理解生成一體化完成語音識別、語義理解、對話、語音複製、語音生成等

Step-Audio-TTS-3B：基於130B生成高品質的合成音訊數據訓練，支持RAP和哼唱的指令加強版語音合成模型

通過ToolCall機制和角色扮演增強，可進一步提升其在 Agents和複雜任務中的表現

#TTS #語音對話系統 #StepAudio #即時語音系統