Mistral AI lance Voxtral TTS, un modèle text-to-speech de 4B paramètres supportant 9 langues avec adaptation vocale en zero-shot à partir de 3 secondes de référence audio. L’architecture combine un transformer decoder (3,4B params), un flow-matching acoustic transformer (390M) et un codec neural maison, avec une latence de 70ms pour 500 caractères. Les évaluations humaines montrent des performances supérieures à ElevenLabs Flash v2.5 en naturalité, avec un temps-to-first-audio comparable. Disponible via API et testable dans Mistral Studio.
Commentaires
Vous devez
vous inscrire
ou
vous connecter
pour poster un commentaire