Piper : donner la parole à ses agents IA avec une synthèse vocale open source auto-hébergée

Après avoir fait écouter un agent IA avec Faster Whisper et l’avoir fait raisonner avec un LLM local, il reste une brique pour boucler la chaîne vocale : faire parler l’agent. Piper est un moteur de synthèse vocale (TTS) open source développé par la communauté Rhasspy, conçu pour tourner sur du matériel modeste tout en produisant une voix naturelle en plusieurs dizaines de langues, dont un français de très bonne facture. C’est la dernière pièce pour construire un assistant vocal entièrement souverain, sans aucune dépendance cloud.

Pourquoi Piper plutôt qu’une API de synthèse vocale cloud

Les offres de synthèse vocale propriétaires (ElevenLabs, Google TTS, Azure, OpenAI TTS) produisent d’excellents résultats, mais elles posent trois problèmes structurels : la donnée vocale traitée quitte l’infrastructure, la facturation est à la minute et peut exploser en production, et la latence d’un aller-retour réseau est incompressible. Pour un chatbot vocal interne, une borne d’accueil ou un assistant d’accessibilité dans un établissement public, ces trois points sont rédhibitoires.

Piper répond à chacun : le traitement reste sur le serveur, le coût marginal par phrase synthétisée est nul, et la latence sur CPU moderne se mesure en centaines de millisecondes pour une phrase complète. Le moteur s’appuie sur l’architecture VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech), qui fournit un bon compromis entre qualité audible et empreinte mémoire.

Installation et premier test

Piper se déploie facilement via un binaire statique ou un conteneur Docker. La méthode la plus simple sur un serveur Linux :

# Télécharger le binaire Piper
wget https://github.com/rhasspy/piper/releases/latest/download/piper_linux_x86_64.tar.gz
tar -xzf piper_linux_x86_64.tar.gz
cd piper

# Télécharger une voix française
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/fr/fr_FR/siwis/medium/fr_FR-siwis-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/fr/fr_FR/siwis/medium/fr_FR-siwis-medium.onnx.json

# Synthétiser une phrase
echo "Bonjour, je suis un assistant vocal open source." | \
  ./piper --model fr_FR-siwis-medium.onnx --output_file bonjour.wav

Les modèles de voix se déclinent en trois tailles (low, medium, high) qui arbitrent entre qualité et empreinte. Pour un agent conversationnel sur un VPS, le profil medium est le bon compromis. Plusieurs voix françaises sont disponibles, notamment siwis, tom et upmc.

Déploiement en service HTTP

En production, on ne lance pas Piper ligne par ligne : on expose un service HTTP qui reçoit du texte et renvoie un flux audio. Le projet wyoming-piper fournit un serveur compatible avec l’écosystème Home Assistant, et il existe un wrapper Python piper-tts qui s’intègre dans une application FastAPI en quelques lignes.

version: "3.9"
services:
  piper:
    image: rhasspy/wyoming-piper:latest
    container_name: piper
    restart: unless-stopped
    command: --voice fr_FR-siwis-medium
    volumes:
      - ./piper-data:/data
    ports:
      - "10200:10200"

Pour une intégration directe dans une application FastAPI qui alimente un agent LangGraph ou n8n, la boucle devient : le LLM produit une réponse texte, un appel HTTP local renvoie le flux audio, le navigateur ou l’interface lit le WAV. Latence bout-en-bout sur un serveur à 4 vCPU : environ 400 à 800 ms pour une phrase de 15 mots.

Cas d’usage concrets

Trois usages typiques émergent pour une organisation qui veut rester maître de sa voix : un agent vocal d’accueil sur une borne interactive qui répond à des questions simples sans appeler de service externe ; un lecteur d’articles ou de documents générés par un LLM (utile pour l’accessibilité ou la diffusion podcast interne) et un compagnon vocal dans une application métier, typiquement un assistant de saisie terrain qui lit les instructions et reçoit des réponses vocales via Whisper.

Limites à avoir en tête

Piper n’est pas expressif comme ElevenLabs : la voix est claire et agréable mais relativement neutre, sans variation émotionnelle marquée. Le clonage de voix personnalisée n’est pas une fonctionnalité prête à l’emploi, il faut entraîner un modèle VITS soi-même avec quelques heures d’enregistrement, ce qui sort du périmètre d’un simple déploiement. Et la prosodie sur des textes longs ou techniques reste perfectible : on privilégiera des phrases courtes, découpées en amont.

À retenir

Pour qui construit une stack IA souveraine, Piper est la brique vocale manquante aux côtés de Faster Whisper et d’Ollama ou vLLM. Trois commandes pour démarrer, un conteneur pour industrialiser, un coût marginal nul, et une qualité largement suffisante pour 80 % des cas d’usage professionnels. L’agent vocal open source de bout en bout est désormais un projet de quelques journées, plus de plusieurs mois.