Un retour d’expérience technique détaillé sur la construction d’un agent vocal en temps réel avec une latence de ~400ms, soit 2× plus rapide que les solutions commerciales comme Vapi. L’article explique l’orchestration complexe entre STT, LLM et TTS en streaming, la gestion des tours de parole, et l’impact critique de la géographie et du choix des modèles sur les performances. Réalisé en une journée pour ~100$ de crédits API.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire