Un retour d’expérience technique détaillé sur la construction d’un agent vocal en temps réel avec une latence de ~400ms, soit 2× plus rapide que les solutions commerciales comme Vapi. L’article explique l’orchestration complexe entre STT, LLM et TTS en streaming, la gestion des tours de parole, et l’impact critique de la géographie et du choix des modèles sur les performances. Réalisé en une journée pour ~100$ de crédits API.
Commentaires
Vous devez
vous inscrire
ou
vous connecter
pour poster un commentaire