Open source · souverain · auto-heberge

Votre IA privee,
sur votre infrastructure

Stack IA complete deployee sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU a la demande pour maitriser les couts.

Nous contacter Voir l'offre

Fonctionnalites

Tout ce qu'il faut, rien de superflu

Une stack IA complete qui couvre le chat, la recherche documentaire, la recherche web et l'observabilite. 100% auto-hebergee, RGPD-compatible.

Chat IA avance

Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requetes en parallele.

RAG documentaire

Deposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 genere les embeddings, Qdrant stocke les vecteurs. L'IA repond en citant vos documents.

Recherche web automatique

SearXNG agrege DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisees.

GPU a la demande

Le GPU s'allume automatiquement a la premiere requete et s'eteint apres 15 min d'inactivite, en fin d'heure facturee OVH.

Multi-utilisateurs

Chaque utilisateur a son espace, ses conversations et ses collections RAG privees. L'administrateur peut creer des bases de connaissances partagees.

Observabilite

Langfuse trace chaque requete LLM : tokens, latence, couts. n8n automatise les workflows (warmup, alertes, indexation).

Architecture

13 services, 2 noeuds, 1 vRack

Infrastructure repartie entre un serveur dedie permanent et une instance GPU ephemere, connectes par un reseau prive OVH.

Utilisateur → Traefik (TLS) → Open WebUI → LiteLLM (GPU wake hook)
→ Ollama (GPU V100S via vRack, 4 req paralleles) → Qwen3.5 35B

RAG → bge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM

Upload doc → Docling (extraction) → bge-m3 CPU → Qdrant

Recherche web → SearXNG → resultats injectes dans le contexte LLM

Services Docker

32 Go

VRAM GPU

128 Go

RAM serveur

~210 €

par mois (HT)

Services

Inventaire complet

Service	Role	Status
Open WebUI	Interface chat multi-utilisateurs	Permanent
LiteLLM	Proxy/routeur LLM, point d'entree unique	Permanent
GPU Controller	Pilotage shelve/unshelve, interface web	Permanent
Ollama	Inference LLM (Qwen3.5 35B) + embeddings GPU	A la demande
Qdrant	Base vectorielle pour le RAG	Permanent
Embeddings CPU	bge-m3 (RAG permanent meme GPU eteint)	Permanent
Docling	Extraction de documents (PDF, Word, Excel)	Permanent
SearXNG	Moteur de recherche web prive	Permanent
Langfuse	Observabilite LLM, traces et metriques	Permanent
n8n	Workflows et automatisation	Permanent
PostgreSQL	Base de donnees relationnelle	Permanent
Redis	Cache pour SearXNG	Permanent
Traefik	Reverse proxy, TLS Let's Encrypt	Permanent

Couts d'hebergement

Maitrise totale des couts

Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.

~210 € HT/mois

Serveur dedie Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €

Scenario : 3 a 4 heures de GPU par jour ouvre. A 8h/jour : ~280 €/mois.
Toujours tres en dessous d'un GPU bare-metal 24/7 (600 a 800 €).

Souverainete

Vos donnees restent les votres

Hebergement francais

Infrastructure OVH, datacenters a Gravelines et Roubaix. Donnees soumises au droit francais et europeen.

Zero donnees partagees

Aucune requete ne quitte votre infrastructure. Le modele IA tourne sur votre GPU, pas chez un tiers.

100% open source

Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dependance proprietaire.

Offre de service

Cle en main, pret en 2 jours

Askem deploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre equipe.

Mise en place

1 journee

Installation complete de l'infrastructure : serveurs, GPU, reseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.

Training

1 journee

Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.

Tarif

2 400 €

Mise en place + formation
HT, pour les 2 journees

Maintien en conditions operationnelles

a partir de 200 € HT/mois

Supervision, mises a jour, support technique, optimisation des modeles et de l'infrastructure.

Demander un devis

Askem AI Stack · Deploye et maintenu par Askem · Infrastructure OVH souveraine

Votre IA privee,sur votre infrastructure