Open source · souverain · auto-hébergé

Votre IA privée,
sur votre infrastructure

Stack IA complète déployée sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU à la demande pour maîtriser les coûts.

Nous contacter Voir l'offre

Fonctionnalités

Tout ce qu'il faut, rien de superflu

Une stack IA complète qui couvre le chat, la recherche documentaire, la recherche web et l'observabilité. 100% auto-hébergée, RGPD-compatible.

Chat IA avancé

Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requêtes en parallèle.

RAG documentaire

Déposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 génère les embeddings, Qdrant stocke les vecteurs. L'IA répond en citant vos documents.

Recherche web automatique

SearXNG agrège DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisées.

GPU à la demande

Le GPU s'allume automatiquement à la première requête et s'éteint après 15 min d'inactivité, en fin d'heure facturée OVH.

Multi-utilisateurs

Chaque utilisateur a son espace, ses conversations et ses collections RAG privées. L'administrateur peut créer des bases de connaissances partagées.

Observabilité

Langfuse trace chaque requête LLM : tokens, latence, coûts. n8n automatise les workflows (warmup, alertes, indexation).

Architecture

13 services, 2 nœuds, 1 vRack

Infrastructure répartie entre un serveur dédié permanent et une instance GPU éphémère, connectés par un réseau privé OVH.

Utilisateur → Traefik (TLS) → Open WebUI → LiteLLM (GPU wake hook)
→ Ollama (GPU V100S via vRack, 4 req parallèles) → Qwen3.5 35B

RAG → bge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM

Upload doc → Docling (extraction) → bge-m3 CPU → Qdrant

Recherche web → SearXNG → résultats injectés dans le contexte LLM

Services Docker

32 Go

VRAM GPU

128 Go

RAM serveur

~210 €

par mois (HT)

Services

Inventaire complet

Service	Rôle	Status
Open WebUI	Interface chat multi-utilisateurs	Permanent
LiteLLM	Proxy/routeur LLM, point d'entrée unique	Permanent
GPU Controller	Pilotage shelve/unshelve, interface web	Permanent
Ollama	Inférence LLM (Qwen3.5 35B) + embeddings GPU	À la demande
Qdrant	Base vectorielle pour le RAG	Permanent
Embeddings CPU	bge-m3 (RAG permanent même GPU éteint)	Permanent
Docling	Extraction de documents (PDF, Word, Excel)	Permanent
SearXNG	Moteur de recherche web privé	Permanent
Langfuse	Observabilité LLM, traces et métriques	Permanent
n8n	Workflows et automatisation	Permanent
PostgreSQL	Base de données relationnelle	Permanent
Redis	Cache pour SearXNG	Permanent
Portainer	Gestion Docker (status, logs, restart)	Permanent
Traefik	Reverse proxy, TLS Let's Encrypt	Permanent

Coûts d'hébergement

Maîtrise totale des coûts

Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.

~210 € HT/mois

Serveur dédié Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €

Scénario : 3 à 4 heures de GPU par jour ouvré. À 8h/jour : ~280 €/mois.
Toujours très en dessous d'un GPU bare-metal 24/7 (600 à 800 €).

Souveraineté

Vos données restent les vôtres

Hébergement français

Infrastructure OVH, datacenters à Gravelines et Roubaix. Données soumises au droit français et européen.

Zéro données partagées

Aucune requête ne quitte votre infrastructure. Le modèle IA tourne sur votre GPU, pas chez un tiers.

100% open source

Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dépendance propriétaire.

Offre de service

Clé en main, prêt en 2 jours

Askem déploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre équipe.

Mise en place

1 journée

Installation complète de l'infrastructure : serveurs, GPU, réseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.

Training

1 journée

Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.

Tarif

2 400 €

Mise en place + formation
HT, pour les 2 journées

Maintien en conditions opérationnelles

à partir de 200 € HT/mois

Supervision, mises à jour, support technique, optimisation des modèles et de l'infrastructure.

Demander un devis

Askem AI Stack · Déployé et maintenu par Askem · Infrastructure OVH souveraine

Votre IA privée,sur votre infrastructure