On-Device Real-Time Speech-to-Speech Translation [video]

Picovoice가 Windows PC에서 완전 온디바이스 방식으로 실시간 음성-음성 번역을 시연했다. NASA Artemis II 방송을 영어에서 프랑스어로 실시간 변환하며, STT, 기계 번역, TTS 전 과정을 클라우드 없이 로컬에서 처리한다. 주요 구성요소는 Cheetah Streaming Speech-to-Text, Zebra Translate, Orca Streaming Text-to-Speech이며, 11세대 인텔 i7 CPU에서 14% CPU 사용률로 동작한다. 오픈소스 데모 코드도 공개되어 AI 음성 번역 에이전트 개발에 참고할 수 있다.

https://www.youtube.com/watch?v=D9id2Dgv_OM

#speechtospeech #ondevice #realtimetranslation #picovoice #stt

Real-Time Speech-to-Speech Translation on Windows — running entirely on-device

YouTube

Andi Marafioti (@andimarafioti)

Hugging Face의 speech-to-speech 저장소를 로컬 백엔드로 사용할 수 있다고 소개했다. 관련 튜토리얼은 1~2주 내 공개될 예정이지만, 문서만으로도 구현 가능하다고 언급해 음성 기반 AI 개발 도구로 주목된다.

https://x.com/andimarafioti/status/2052752548948238390

#huggingface #speechtospeech #voiceai #opensource #localbackend

Andi Marafioti (@andimarafioti) on X

@ivanfioravanti Super cool! you can check out https://t.co/tpx9WkHylk for the local backend :) tutorials coming out in 1/2 weeks but it should be doable from docs alone

X (formerly Twitter)

Design Arena (@Designarena)

Audio Arena 리더보드가 업데이트되어 음성-음성(speech-to-speech) 모델 상위 3개를 공개했다. 1위는 Ultravox v0.7, 2위는 Gemini 2.5 Flash Audio, 3위는 Grok Realtime이며, 오픈소스 6개 멀티턴 벤치마크로 평가했다고 밝혔다.

https://x.com/Designarena/status/2041334891854565743

#audiomodels #benchmark #speechtospeech #opensource #leaderboard

Design Arena (@Designarena) on X

Audio Arena Leaderboard Update! Congrats to the top 3 speech-to-speech models: - #1 Ultravox v0.7 by @ultravox_dot_ai - #2 Gemini 2.5 Flash Audio by @GoogleDeepMind - #3 Grok Realtime by @xai We evaluated each model on our open source suite of 6 static multi-turn benchmarks

X (formerly Twitter)

Design Arena (@Designarena)

Audio Arena를 공개했습니다. 기존 음성 벤치마크가 포화에 가까워진 상황에서, speech-to-speech 모델을 현실적인 시나리오로 스트레스 테스트할 수 있는 6개의 정적 멀티턴 벤치마크를 오픈소스로 배포했습니다.

https://x.com/Designarena/status/2037622861897368006

#audio #benchmark #speechtospeech #opensource #aievaluation

Design Arena (@Designarena) on X

Introducing Audio Arena Most existing voice benchmarks are approaching saturation - frontier models are scoring 90%+ on nearly every category. Today we've open-sourced a suite of 6 static multi-turn benchmarks designed to stress-test speech-to-speech models on realistic

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

구글이 Gemini 3.1 Flash Live Preview를 공개했고, Big Bench Audio 음성-음성 모델 벤치마크에서 2위를 기록했다. 또한 thinking level을 설정할 수 있는 새 기능이 추가되었으며, high 설정 시 Big Bench Audio에서 95.9%를 달성했다.

https://x.com/ArtificialAnlys/status/2037195442489090485

#google #gemini #llm #speechtospeech #benchmark

Artificial Analysis (@ArtificialAnlys) on X

Google has released Gemini 3.1 Flash Live Preview, achieving #2 in our Big Bench Audio Speech to Speech model benchmark, and now features configurable thinking levels With thinking level set to high, it scores 95.9% on Big Bench Audio, making it the second-highest scoring speech

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

NVIDIA가 Nemotron 3 VoiceChat을 공개했습니다. 약 120억 매개변수의 음성-to-음성(S2S) 대화 모델로, 오픈 웨이트로 제공되며 대화 역학(conversational dynamics)과 음성 추론(speech reasoning) 사이의 퍼레토 프런티어에서 선도적인 성능을 보인다고 소개합니다. 또한 음성-음성 모델 성능 평가는 다차원적이라는 설명을 덧붙였습니다.

https://x.com/ArtificialAnlys/status/2033642073052868861

#nvidia #nemotron #speechtospeech #voicechat

Artificial Analysis (@ArtificialAnlys) on X

NVIDIA has released Nemotron 3 VoiceChat! A ~12B parameter Speech to Speech model that leads our open weights Conversational Dynamics vs. Speech Reasoning pareto frontier Understanding Speech to Speech model performance is multidimensional - two key and distinct dimensions are

X (formerly Twitter)
NVIDIA PersonaPlex 7B on Apple Silicon: Full-Duplex Speech-to-Speech in Native Swift with MLX

What if you could talk to your laptop and it talked back — not through a three-step pipeline of transcribe-think-synthesize, but as a…

Medium

Python Trending (@pythontrending)

Speech To Speech라는 프로젝트(혹은 이니셔티브)를 소개하는 트윗으로, 오픈소스·모듈식 설계로 'GPT4-o'급 모델을 음성-음성(speech-to-speech) 시스템으로 구현하려는 시도를 알림. 오픈 소스 음성 변환·대화 시스템 개발 및 GPT4유형 모델의 음성 응용 확대를 목표로 함.

https://x.com/pythontrending/status/2020500372075302935

#speechtospeech #gpt4o #opensource #tts

Python Trending 🇺🇦 (@pythontrending) on X

speech-to-speech - Speech To Speech: an effort for an open-sourced and modular GPT4-o https://t.co/RvmH2dsQCb

X (formerly Twitter)

Rohan Paul (@rohanpaul_ai)

FlashLabs(@flashlabsdotai)가 오픈소스 네이티브 음성→음성 모델 'Chroma'를 공개했습니다. Chroma는 오디오 토큰을 직접 처리해 기존의 ASR→LLM→TTS 분리 파이프라인 없이 한 루프에서 음성으로 추론하고 발화하며, 듀얼-레이어 RAG로 구동된다고 합니다. 자율 음성 에이전트와 실시간 음성 처리에 중요한 진전입니다.

https://x.com/rohanpaul_ai/status/2013999190058369044

#speechtospeech #opensource #audiollm #rag #flashlabs

Rohan Paul (@rohanpaul_ai) on X

Another great news for autonomous voice agents @flashlabsdotai launched Chroma, an open source native speech-to-speech model that processes audio tokens directly, so there is no ASR to LLM to TTS handoff. It reasons and speaks in audio in one loop. Powered by a dual-layer RAG

X (formerly Twitter)

NVIDIA vừa ra demo PersonaPlex, mô hình speech‑to‑speech có thể điều khiển qua system prompt. Hữu ích cho nghiên cứu AI thoại. #AI #NVIDIA #PersonaPlex #speech #speechtospeech #AIVietnam #côngnghệ

https://www.reddit.com/r/LocalLLaMA/comments/1qgcm6x/demo_for_the_latest_personaplex_model_from_nvidia/