Open source · souverain · auto-hébergé
Votre IA privée,
sur votre infrastructure
Stack IA complète déployée sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU à la demande pour maîtriser les coûts.
Fonctionnalités
Tout ce qu'il faut, rien de superflu
Une stack IA complète qui couvre le chat, la recherche documentaire, la recherche web et l'observabilité. 100% auto-hébergée, RGPD-compatible.
Chat IA avancé
Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requêtes en parallèle.
RAG documentaire
Déposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 génère les embeddings, Qdrant stocke les vecteurs. L'IA répond en citant vos documents.
Recherche web automatique
SearXNG agrège DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisées.
GPU à la demande
Le GPU s'allume automatiquement à la première requête et s'éteint après 15 min d'inactivité, en fin d'heure facturée OVH.
Multi-utilisateurs
Chaque utilisateur a son espace, ses conversations et ses collections RAG privées. L'administrateur peut créer des bases de connaissances partagées.
Observabilité
Langfuse trace chaque requête LLM : tokens, latence, coûts. n8n automatise les workflows (warmup, alertes, indexation).
Architecture
13 services, 2 nœuds, 1 vRack
Infrastructure répartie entre un serveur dédié permanent et une instance GPU éphémère, connectés par un réseau privé OVH.
→ Ollama (GPU V100S via vRack, 4 req parallèles) → Qwen3.5 35B
RAG → bge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM
Upload doc → Docling (extraction) → bge-m3 CPU → Qdrant
Recherche web → SearXNG → résultats injectés dans le contexte LLM
Services
Inventaire complet
| Service | Rôle | Status |
|---|---|---|
| Open WebUI | Interface chat multi-utilisateurs | Permanent |
| LiteLLM | Proxy/routeur LLM, point d'entrée unique | Permanent |
| GPU Controller | Pilotage shelve/unshelve, interface web | Permanent |
| Ollama | Inférence LLM (Qwen3.5 35B) + embeddings GPU | À la demande |
| Qdrant | Base vectorielle pour le RAG | Permanent |
| Embeddings CPU | bge-m3 (RAG permanent même GPU éteint) | Permanent |
| Docling | Extraction de documents (PDF, Word, Excel) | Permanent |
| SearXNG | Moteur de recherche web privé | Permanent |
| Langfuse | Observabilité LLM, traces et métriques | Permanent |
| n8n | Workflows et automatisation | Permanent |
| PostgreSQL | Base de données relationnelle | Permanent |
| Redis | Cache pour SearXNG | Permanent |
| Portainer | Gestion Docker (status, logs, restart) | Permanent |
| Traefik | Reverse proxy, TLS Let's Encrypt | Permanent |
Coûts d'hébergement
Maîtrise totale des coûts
Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.
Serveur dédié Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €
Scénario : 3 à 4 heures de GPU par jour ouvré. À 8h/jour : ~280 €/mois.
Toujours très en dessous d'un GPU bare-metal 24/7 (600 à 800 €).
Souveraineté
Vos données restent les vôtres
Hébergement français
Infrastructure OVH, datacenters à Gravelines et Roubaix. Données soumises au droit français et européen.
Zéro données partagées
Aucune requête ne quitte votre infrastructure. Le modèle IA tourne sur votre GPU, pas chez un tiers.
100% open source
Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dépendance propriétaire.
Offre de service
Clé en main, prêt en 2 jours
Askem déploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre équipe.
Mise en place
1 journée
Installation complète de l'infrastructure : serveurs, GPU, réseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.
Formation
1 journée
Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.
Tarif
2 400 €
Mise en place + formation
HT, pour les 2 journées
Maintien en conditions opérationnelles
à partir de 200 € HT/mois
Supervision, mises à jour, support technique, optimisation des modèles et de l'infrastructure.
Askem AI Stack · Déployé et maintenu par Askem · Infrastructure OVH souveraine
