Mistral AI hat das Open-Weights-Modell Voxtral TTS für Sprachsynthese veröffentlicht.
Das Modell benötigt 3 GB Arbeitsspeicher für lokale Inferenz und erreicht die erste Audioausgabe nach 90 Millisekunden. Es unterstützt neun Sprachen von Beginn an und liegt auf Hugging Face bereit. In Hörerpräferenz-Tests schneidet es bei der Stimmanpassung mit 68,4 Prozent ab.
#Mistral #VoxtralTTS #OpenWeights #Sprachsynthese #News
https://www.all-ai.de/news/news26top/mistral-voxtal-tts
