Voxtral TTS : le modèle text-to-speech open-weights de Mistral AI (en)

Mistral AI lance Voxtral TTS, un modèle text-to-speech de 4B paramètres supportant 9 langues avec adaptation vocale en zero-shot à partir de 3 secondes de référence audio. L’architecture combine un transformer decoder (3,4B params), un flow-matching acoustic transformer (390M) et un codec neural maison, avec une latence de 70ms pour 500 caractères. Les évaluations humaines montrent des performances supérieures à ElevenLabs Flash v2.5 en naturalité, avec un temps-to-first-audio comparable. Disponible via API et testable dans Mistral Studio.

https://mistral.ai/news/voxtral-tts

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire

Voxtral TTS : le modèle text-to-speech open-weights de Mistral AI (en)

Commentaires

Prochaines formations

Rejoignez notre Discord