RAGFlow : comprendre un document avant de le découper
La qualité d’un système RAG se joue avant la recherche vectorielle, au moment où le document est lu et segmenté. La plupart des chaînes RAG découpent les fichiers en blocs de taille fixe, ce qui détruit les tableaux, mélange les colonnes et coupe les paragraphes au milieu d’une phrase. RAGFlow, moteur RAG open source d’InfiniFlow sous licence Apache 2.0, prend le problème par l’autre bout : il analyse d’abord la structure réelle du document, puis découpe en connaissant la mise en page.
Le pari de la compréhension profonde du document
Le cœur de RAGFlow s’appelle DeepDoc. Plutôt que de lire un PDF comme un flot de texte brut, il applique une analyse de mise en page : reconnaissance des titres, des paragraphes, des en-têtes, des listes, et surtout des tableaux et des figures. Un tableau financier reste un tableau, une facture garde ses lignes alignées, un rapport conserve sa hiérarchie. Cette étape, accélérable sur GPU, conditionne tout le reste de la chaîne.
Sur cette base, RAGFlow propose un découpage par gabarit : on choisit un modèle de segmentation adapté au type de document (article, présentation, manuel, tableau, facture, code) au lieu d’un découpage aveugle. Le découpage obtenu est visualisable dans l’interface, ce qui permet de vérifier et corriger les blocs avant indexation. C’est une rupture avec l’approche habituelle où l’on ne voit jamais comment le document a été tronçonné.
Une chaîne RAG complète, pas seulement un parseur
RAGFlow ne s’arrête pas au parsing. Il intègre l’ensemble de la chaîne avec une interface web de gestion documentaire et de bases de connaissances. Les éléments clés à connaître :
- Citations vérifiables : chaque réponse renvoie aux extraits sources précis, ce qui réduit le risque d’hallucination et rend les réponses auditables.
- Recherche multi-voies : combinaison de recherche lexicale et vectorielle, suivie d’un reranking pour affiner la pertinence.
- GraphRAG : construction d’un graphe de connaissances à l’échelle de toute la base documentaire, et non fichier par fichier, mis à jour à chaque nouvel import.
- RAPTOR et long contexte : agrégation sémantique hiérarchique pour traiter de longs corpus et remonter du niveau document au niveau dataset.
- Capacités agentiques : raisonnement multi-étapes pour les requêtes complexes, avec un composant navigateur permettant à l’agent de consulter des pages web de façon autonome.
Où il se situe par rapport aux autres outils
Face à des plateformes comme AnythingLLM ou Dify, qui visent une chaîne LLM généraliste, RAGFlow se distingue par sa profondeur de lecture documentaire. Il est particulièrement pertinent quand les sources sont des PDF complexes, des documents scannés, des tableaux ou des formulaires : rapports administratifs, jeux de données ouverts documentés, archives techniques, notices réglementaires. Là où un découpage naïf perd l’information, l’analyse de structure la préserve.
Pour démarrer
RAGFlow se déploie en auto-hébergement via Docker Compose, avec une interface web pour créer ses bases de connaissances, importer les documents, visualiser le découpage et tester les réponses. On peut le brancher sur des modèles locaux (Ollama, vLLM) comme sur des API distantes, ce qui permet de garder une chaîne entièrement souveraine si nécessaire. La version v0.25.6, publiée fin mai 2026, ajoute notamment le composant navigateur dans l’agent.
Une bonne première expérimentation : prendre un corpus de PDF réels avec tableaux et figures, comparer le découpage par gabarit de RAGFlow à un découpage à taille fixe, et mesurer l’écart de qualité des réponses et de fiabilité des citations. C’est souvent là que se révèle la valeur de la compréhension profonde du document.
