Il y a une métrique que la plupart des articles sur les agents vocaux IA n'évoquent jamais franchement : la latence de bout en bout. On parle de qualité de voix, de précision de compréhension, d'intelligence du modèle. Rarement de ce qui détermine si une conversation se sent naturelle ou robotique. Pourtant, c'est souvent une affaire de quelques centaines de millisecondes.
Cet article expose les mécanismes réels de la latence dans un pipeline vocal IA, les arbitrages d'architecture que ça impose, et comment on a résolu le problème le plus épineux — la latence des données métier — chez AlysVoice.
Le cerveau humain et les silences : une fenêtre de tolérance étroite
En analyse de la conversation, un silence de plus de 700 à 800ms est ce qu'on appelle un "silence marqué".
L'interprétation sociale : Dans toutes les cultures (avec de légères variations), un délai supérieur à une seconde signale une réponse "négative" ou "difficile" (un refus, une hésitation ou une incompréhension).
Le biais anthropomorphique : Puisque nous traitons l'agent vocal comme un partenaire social, nous appliquons les mêmes règles. Si l'IA met 1,2 seconde à répondre, l'utilisateur pense inconsciemment : "Elle n'a pas compris" ou "Elle bugue".
Au-delà de 1,5 secondes, on raccroche mentalement. On répète la question. On perd confiance.
Ce n'est pas une question de confort — c'est une contrainte neurologique. Toute l'architecture d'un agent vocal IA doit être pensée autour de cette fenêtre de 800ms maximum de latence perçue entre la fin de la parole du client et le début de la réponse vocale de l'agent. C'est le contrat implicite que tout système vocal signe avec ses utilisateurs dès la première seconde.
Anatomie de la latence dans un pipeline vocal IA
Un agent vocal moderne de type LLM orchestré fait passer chaque tour de conversation par un pipeline en cascade. Chaque étape a son propre budget de latence, et elles s'additionnent.
La détection de fin d'énoncé (VAD) représente entre 50 et 150ms. C'est le système qui décide que l'utilisateur a terminé de parler — avant de déclencher quoi que ce soit. La transcription audio vers texte (STT en streaming) prend entre 100 et 300ms sur les bons modèles. Le LLM, de son premier token sorti, représente 300 à 800ms selon la taille du contexte et le modèle choisi. La synthèse vocale (TTS) ajoute 150 à 400ms avant que le premier chunk audio soit effectivement joué.
Budget total réaliste : entre 600ms et 1,65 seconde. La bonne nouvelle, c'est que chaque étape est optimisable. La mauvaise, c'est qu'elles s'additionnent — et que certaines interactions introduisent une latence supplémentaire souvent ignorée des architectures naïves.
Les pièges invisibles : ce qui rallonge vraiment
La détection de fin de parole. C'est souvent le premier coupable ignoré. Un VAD trop conservateur attend 1,2 secondes de silence avant de déclencher la transcription. Un VAD trop agressif coupe le client en pleine phrase. Le bon réglage dépend du contexte : un client qui cherche ses mots sur une question de disponibilité fait des pauses plus longues qu'un utilisateur qui navigue dans un menu. Il faut calibrer — pas juste utiliser les valeurs par défaut du fournisseur.
Le cold start du LLM. Les grands modèles de langage ont une latence au premier token qui dépend de la longueur du contexte envoyé. Un prompt système de 3 000 tokens combiné à une conversation de dix tours constitue un contexte long. Plus il est long, plus le TTFT augmente. Conséquence pratique : la longueur du prompt système n'est pas gratuite. Chaque couche d'instructions ajoutée coûte de la latence. Il faut arbitrer en permanence entre richesse du contexte et réactivité.
Les appels API dans la boucle. C'est le piège le plus coûteux, et le plus répandu. Imaginons qu'à chaque question sur des disponibilités, l'agent appelle une API tierce en temps réel pendant la conversation. Cette requête HTTP externe peut prendre 300ms, 800ms, parfois plusieurs secondes si le serveur distant est chargé. Ces millisecondes s'ajoutent en plus de toutes les autres latences du pipeline. Le résultat : une conversation qui se fige exactement quand le client pose une vraie question utile. C'est précisément à ce moment-là que l'agent vocal doit être le plus réactif.
Les choix d'architecture qui font la différence
Choisir le bon LLM : vitesse contre intelligence. Il n'existe pas de modèle parfait — il existe des modèles adaptés à des contraintes précises. Pour un agent vocal en temps réel, le TTFT est souvent plus important que la qualité brute du raisonnement, parce qu'un agent vocal n'a jamais besoin de résoudre des problèmes complexes : il doit répondre vite et juste sur un domaine contraint. Les modèles plus légers des grands labs sont souvent le bon choix pour les tours de conversation standards. Les modèles plus puissants peuvent être réservés pour des tâches de synthèse en arrière-plan — résumé post-appel, analyse de sentiment — où la latence n'est plus contraignante.
La température est un autre levier souvent sous-estimé. Une température à zéro élimine l'échantillonnage aléatoire et réduit légèrement le temps de génération, tout en rendant les réponses déterministes. Dans un contexte métier où l'hallucination est inacceptable, c'est un double bénéfice.
Le streaming à chaque étape. Le streaming n'est pas un détail d'implémentation — c'est une philosophie d'architecture. Chaque étape du pipeline doit commencer à produire sa sortie avant d'avoir terminé de traiter son entrée complète. Le STT envoie des tokens partiels pendant la transcription. Le LLM commence à générer avant d'avoir "pensé" sa réponse complète. Le TTS commence à synthétiser les premières phrases pendant que le LLM génère la suite. Cette superposition transforme une somme de latences en un recouvrement partiel. L'utilisateur commence à entendre la réponse bien avant que le pipeline complet soit terminé.
Le cache comme infrastructure de latence. Pour tous les agents qui s'appuient sur des données externes — inventaires, réservations, disponibilités — le cache n'est pas une optimisation : c'est une nécessité architecturale. La règle absolue est qu'aucun appel à un système externe ne doit se produire pendant un tour de conversation. Toutes les données dont l'agent pourrait avoir besoin doivent être disponibles localement, en mémoire, avec une latence inférieure à 10ms. Ça implique une stratégie de pré-chargement pensée en amont, pas en réaction.
La latence comme discipline, pas comme contrainte
Ce que tout ça révèle, c'est que la latence dans un agent vocal IA n'est pas un problème d'infrastructure à régler une fois pour toutes. C'est une discipline permanente qui traverse chaque décision : le choix du modèle, la structure du prompt, la stratégie de cache, la longueur des réponses, le positionnement géographique des serveurs par rapport aux fournisseurs de téléphonie.
Chaque composant ajouté au système a un coût de latence. Chaque fonctionnalité, chaque couche de personnalisation, chaque appel externe doit être évalué non seulement pour ce qu'il apporte fonctionnellement, mais pour ce qu'il coûte en millisecondes.
Chez AlysVoice, cette obsession de la latence n'est pas un sujet d'optimisation tardive — c'est un principe fondateur. Parce qu'on sait que la ligne entre un agent vocal qui transforme l'expérience client et un robot qui agace se joue souvent à 500 millisecondes près.

Eva est l'agent vocal IA de la plateforme AlysVoice, spécialisé camping. Standard téléphonique 24h/24, connecté à votre PMS, latence optimisée pour une conversation naturelle.
Léo — Agent emails
Mia — Agent avis