Open source · souverain · auto-hébergé

Votre IA privée,
sur votre infrastructure

Stack IA complète déployée sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU à la demande pour maîtriser les coûts.

Fonctionnalités

Tout ce qu'il faut, rien de superflu

Une stack IA complète qui couvre le chat, la recherche documentaire, la recherche web et l'observabilité. 100% auto-hébergée, RGPD-compatible.

Chat IA avancé

Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requêtes en parallèle.

RAG documentaire

Déposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 génère les embeddings, Qdrant stocke les vecteurs. L'IA répond en citant vos documents.

Recherche web automatique

SearXNG agrège DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisées.

GPU à la demande

Le GPU s'allume automatiquement à la première requête et s'éteint après 15 min d'inactivité, en fin d'heure facturée OVH.

Multi-utilisateurs

Chaque utilisateur a son espace, ses conversations et ses collections RAG privées. L'administrateur peut créer des bases de connaissances partagées.

Observabilité

Langfuse trace chaque requête LLM : tokens, latence, coûts. n8n automatise les workflows (warmup, alertes, indexation).

Architecture

13 services, 2 nœuds, 1 vRack

Infrastructure répartie entre un serveur dédié permanent et une instance GPU éphémère, connectés par un réseau privé OVH.

UtilisateurTraefik (TLS) → Open WebUILiteLLM (GPU wake hook)
  → Ollama (GPU V100S via vRack, 4 req parallèles) → Qwen3.5 35B

RAGbge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM

Upload docDocling (extraction) → bge-m3 CPUQdrant

Recherche webSearXNG → résultats injectés dans le contexte LLM
14
Services Docker
32 Go
VRAM GPU
128 Go
RAM serveur
~210 €
par mois (HT)

Services

Inventaire complet

ServiceRôleStatus
Open WebUIInterface chat multi-utilisateursPermanent
LiteLLMProxy/routeur LLM, point d'entrée uniquePermanent
GPU ControllerPilotage shelve/unshelve, interface webPermanent
OllamaInférence LLM (Qwen3.5 35B) + embeddings GPUÀ la demande
QdrantBase vectorielle pour le RAGPermanent
Embeddings CPUbge-m3 (RAG permanent même GPU éteint)Permanent
DoclingExtraction de documents (PDF, Word, Excel)Permanent
SearXNGMoteur de recherche web privéPermanent
LangfuseObservabilité LLM, traces et métriquesPermanent
n8nWorkflows et automatisationPermanent
PostgreSQLBase de données relationnellePermanent
RedisCache pour SearXNGPermanent
PortainerGestion Docker (status, logs, restart)Permanent
TraefikReverse proxy, TLS Let's EncryptPermanent

Coûts d'hébergement

Maîtrise totale des coûts

Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.

~210 € HT/mois

Serveur dédié Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €

Scénario : 3 à 4 heures de GPU par jour ouvré. À 8h/jour : ~280 €/mois.
Toujours très en dessous d'un GPU bare-metal 24/7 (600 à 800 €).

Souveraineté

Vos données restent les vôtres

Hébergement français

Infrastructure OVH, datacenters à Gravelines et Roubaix. Données soumises au droit français et européen.

Zéro données partagées

Aucune requête ne quitte votre infrastructure. Le modèle IA tourne sur votre GPU, pas chez un tiers.

100% open source

Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dépendance propriétaire.

Offre de service

Clé en main, prêt en 2 jours

Askem déploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre équipe.

Mise en place

1 journée

Installation complète de l'infrastructure : serveurs, GPU, réseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.

Training

1 journée

Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.

Tarif

2 400 €

Mise en place + formation
HT, pour les 2 journées

Maintien en conditions opérationnelles

à partir de 200 € HT/mois

Supervision, mises à jour, support technique, optimisation des modèles et de l'infrastructure.

Askem AI Stack · Déployé et maintenu par Askem · Infrastructure OVH souveraine