Akshay (@akshay_pachaar)
Mistral이 3초 오디오만으로 어떤 목소리든 복제할 수 있는 4B TTS 모델을 오픈소스로 공개했습니다. ElevenLabs Flash v2.5 대비 68.4% 승률을 보였고, 9개 언어 지원, 초저지연, 단일 H200에서 32개 동시 스트림 처리, 높은 감정 표현과 자연스러움을 강조했습니다.

Akshay 🚀 (@akshay_pachaar) on X
Mistral just open-sourced a 4B TTS model that clones any voice from 3 seconds of audio. - 68.4% win rate over ElevenLabs Flash v2.5 - 9 language support w/benchmarks - Sub-second latency, 32 concurrent streams on a single H200 - Strong expressivity, emotion + naturalness









