Open source · souverain · auto-heberge
Votre IA privee,
sur votre infrastructure
Stack IA complete deployee sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU a la demande pour maitriser les couts.
Fonctionnalites
Tout ce qu'il faut, rien de superflu
Une stack IA complete qui couvre le chat, la recherche documentaire, la recherche web et l'observabilite. 100% auto-hebergee, RGPD-compatible.
Chat IA avance
Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requetes en parallele.
RAG documentaire
Deposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 genere les embeddings, Qdrant stocke les vecteurs. L'IA repond en citant vos documents.
Recherche web automatique
SearXNG agrege DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisees.
GPU a la demande
Le GPU s'allume automatiquement a la premiere requete et s'eteint apres 15 min d'inactivite, en fin d'heure facturee OVH.
Multi-utilisateurs
Chaque utilisateur a son espace, ses conversations et ses collections RAG privees. L'administrateur peut creer des bases de connaissances partagees.
Observabilite
Langfuse trace chaque requete LLM : tokens, latence, couts. n8n automatise les workflows (warmup, alertes, indexation).
Architecture
13 services, 2 noeuds, 1 vRack
Infrastructure repartie entre un serveur dedie permanent et une instance GPU ephemere, connectes par un reseau prive OVH.
→ Ollama (GPU V100S via vRack, 4 req paralleles) → Qwen3.5 35B
RAG → bge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM
Upload doc → Docling (extraction) → bge-m3 CPU → Qdrant
Recherche web → SearXNG → resultats injectes dans le contexte LLM
Services
Inventaire complet
| Service | Role | Status |
|---|---|---|
| Open WebUI | Interface chat multi-utilisateurs | Permanent |
| LiteLLM | Proxy/routeur LLM, point d'entree unique | Permanent |
| GPU Controller | Pilotage shelve/unshelve, interface web | Permanent |
| Ollama | Inference LLM (Qwen3.5 35B) + embeddings GPU | A la demande |
| Qdrant | Base vectorielle pour le RAG | Permanent |
| Embeddings CPU | bge-m3 (RAG permanent meme GPU eteint) | Permanent |
| Docling | Extraction de documents (PDF, Word, Excel) | Permanent |
| SearXNG | Moteur de recherche web prive | Permanent |
| Langfuse | Observabilite LLM, traces et metriques | Permanent |
| n8n | Workflows et automatisation | Permanent |
| PostgreSQL | Base de donnees relationnelle | Permanent |
| Redis | Cache pour SearXNG | Permanent |
| Traefik | Reverse proxy, TLS Let's Encrypt | Permanent |
Couts d'hebergement
Maitrise totale des couts
Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.
Serveur dedie Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €
Scenario : 3 a 4 heures de GPU par jour ouvre. A 8h/jour : ~280 €/mois.
Toujours tres en dessous d'un GPU bare-metal 24/7 (600 a 800 €).
Souverainete
Vos donnees restent les votres
Hebergement francais
Infrastructure OVH, datacenters a Gravelines et Roubaix. Donnees soumises au droit francais et europeen.
Zero donnees partagees
Aucune requete ne quitte votre infrastructure. Le modele IA tourne sur votre GPU, pas chez un tiers.
100% open source
Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dependance proprietaire.
Offre de service
Cle en main, pret en 2 jours
Askem deploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre equipe.
Mise en place
1 journee
Installation complete de l'infrastructure : serveurs, GPU, reseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.
Training
1 journee
Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.
Tarif
2 400 €
Mise en place + formation
HT, pour les 2 journees
Maintien en conditions operationnelles
a partir de 200 € HT/mois
Supervision, mises a jour, support technique, optimisation des modeles et de l'infrastructure.
Askem AI Stack · Deploye et maintenu par Askem · Infrastructure OVH souveraine
