Faster Whisper : transcription audio open source pour alimenter ses agents IA

Déployer un service de speech-to-text auto-hébergé avec Faster Whisper et l’intégrer dans ses pipelines IA : transcription de réunions, indexation de contenus audio, et alimentation automatique de ses agents.

Pourquoi la transcription audio change la donne pour une stack IA

La majorité des pipelines IA open source travaillent exclusivement sur du texte : documents, pages web, bases de données. Pourtant, une part considérable de l’information circule sous forme audio : réunions en visioconférence, appels téléphoniques, podcasts, enregistrements de terrain. Sans capacité de transcription, ces données restent inaccessibles aux agents IA, aux pipelines RAG et aux moteurs de recherche interne.

Faster Whisper résout ce problème. C’est une ré-implémentation optimisée du modèle Whisper d’OpenAI, utilisant CTranslate2 pour atteindre des performances jusqu’à 4 fois supérieures au modèle original, avec une consommation mémoire réduite. Le tout reste entièrement open source (licence MIT), auto-hébergeable, et compatible GPU comme CPU.

Architecture et déploiement avec Docker

Faster Whisper s’installe en quelques minutes via Docker. L’approche recommandée est de l’exposer derrière une API REST (via faster-whisper-server ou un wrapper FastAPI maison) pour que les autres services de la stack puissent l’appeler de manière standardisée.

version: "3.8"
services:
  whisper:
    image: fedirz/faster-whisper-server:latest-cuda
    ports:
      - "8100:8000"
    volumes:
      - whisper-models:/root/.cache/huggingface
    environment:
      - WHISPER__MODEL=large-v3
      - WHISPER__DEVICE=cuda
      - WHISPER__COMPUTE_TYPE=float16
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

volumes:
  whisper-models:

L’API exposée est compatible avec le format OpenAI /v1/audio/transcriptions, ce qui permet une intégration directe avec les outils qui supportent déjà cette interface, notamment Open WebUI, LangChain et n8n.

Choix du modèle et compromis performance/qualité

Faster Whisper propose plusieurs tailles de modèle, chacune avec un compromis différent :

tiny / base : Transcription rapide, qualité correcte pour du français standard. Tourne confortablement sur CPU. Idéal pour du tri ou de la pré-indexation en masse.
small / medium : Bon équilibre pour la production. Le modèle medium gère bien les accents et le vocabulaire technique.
large-v3 : Meilleure qualité disponible, particulièrement sur le français. Nécessite un GPU avec au minimum 4 Go de VRAM en float16.
large-v3-turbo : Variante optimisée de large-v3, plus rapide avec une qualité quasi équivalente. Le meilleur choix pour la production avec GPU.

En pratique, pour un usage en production sur une infrastructure auto-hébergée avec GPU, large-v3-turbo en float16 offre le meilleur rapport qualité/latence. Sur CPU uniquement, small en int8 reste très exploitable.

Intégration dans la stack IA existante

La vraie valeur de Faster Whisper apparaît quand on le connecte au reste de sa stack. Voici les intégrations les plus utiles :

Avec n8n : Un workflow n8n peut surveiller un dossier Nextcloud ou un bucket MinIO, détecter les nouveaux fichiers audio, les envoyer à Faster Whisper pour transcription, puis injecter le texte dans Qdrant pour indexation vectorielle. En quelques nœuds, on obtient un pipeline de transcription entièrement automatisé.

Avec un pipeline RAG : Les transcriptions générées alimentent directement la base vectorielle Qdrant. Un agent peut ensuite répondre à des questions comme « qu’a-t-on décidé lors de la réunion de mardi ? » en s’appuyant sur les transcriptions indexées, exactement comme il le ferait avec des documents texte.

Avec Open WebUI : Open WebUI supporte nativement l’API Whisper compatible OpenAI. En pointant la configuration STT vers l’instance Faster Whisper locale, les utilisateurs peuvent dicter leurs requêtes au lieu de les taper, pratique pour les utilisateurs non techniques.

Avec LangGraph : Un agent LangGraph peut utiliser la transcription comme outil dans son graphe d’états : recevoir un fichier audio en entrée, le transcrire, extraire les actions à mener, puis les dispatcher vers d’autres agents ou services.

Fonctionnalités avancées

Au-delà de la transcription brute, Faster Whisper offre des fonctionnalités essentielles pour un usage en production :

Détection de la langue : Identification automatique de la langue source, utile dans un contexte multilingue ou européen. Le modèle large-v3 couvre plus de 90 langues.

Timestamps mot par mot : Chaque mot transcrit est accompagné de son timecode précis, permettant de construire des interfaces de navigation dans l’audio ou de synchroniser sous-titres et vidéo.

Voice Activity Detection (VAD) : Le filtre Silero VAD intégré découpe automatiquement l’audio en segments de parole, éliminant les silences et réduisant les hallucinations du modèle sur les passages sans voix.

Diarisation : En combinant Faster Whisper avec pyannote-audio, on peut identifier les différents locuteurs dans un enregistrement. Cela transforme une transcription brute en compte-rendu structuré par intervenant.

Cas d’usage concrets

Transcription automatique de réunions : Enregistrer les visioconférences (Jitsi, BigBlueButton), transcrire automatiquement, puis stocker le résultat dans un wiki ou un système documentaire. Les agents IA peuvent ensuite extraire les décisions et actions à mener.

Indexation de contenus audio/vidéo : Rendre cherchable une bibliothèque de podcasts, formations vidéo ou webinaires. Chaque contenu est transcrit et indexé dans Qdrant, permettant une recherche sémantique sur l’ensemble du corpus.

Accessibilité : Générer automatiquement des sous-titres pour les contenus vidéo publiés sur un portail open data ou un site institutionnel, répondant aux exigences d’accessibilité RGAA.

Collecte de données terrain : Dans un contexte collectivité ou smart city, les agents de terrain peuvent dicter leurs observations qui sont automatiquement transcrites, structurées et injectées dans le système d’information.

Monitoring et production

Pour un déploiement en production, il est recommandé de surveiller le service Faster Whisper via la stack Prometheus/Grafana déjà en place. Les métriques clés à suivre : temps de transcription par minute d’audio (RTF : Real Time Factor), utilisation GPU/VRAM, et file d’attente des requêtes. Un RTF inférieur à 0.1 avec large-v3-turbo sur GPU est un bon objectif, cela signifie qu’une heure d’audio est transcrite en moins de 6 minutes.

Côté sécurité, l’audio peut contenir des données sensibles (conversations internes, données personnelles). Le fait d’auto-héberger Faster Whisper garantit que rien ne quitte l’infrastructure. Pour aller plus loin, on peut chiffrer les fichiers audio au repos avec les mécanismes déjà en place (MinIO + chiffrement serveur) et purger automatiquement les fichiers source après transcription.

Pour aller plus loin

Faster Whisper sur GitHub — Dépôt principal, documentation et benchmarks
faster-whisper-server — Serveur API compatible OpenAI, prêt pour Docker
Silero VAD — Voice Activity Detection pour le pré-traitement audio
pyannote-audio — Diarisation des locuteurs, open source