Open source · souverain · auto-heberge

Votre IA privee,
sur votre infrastructure

Stack IA complete deployee sur OVH : chat intelligent, recherche web, analyse de documents, le tout avec un GPU a la demande pour maitriser les couts.

Fonctionnalites

Tout ce qu'il faut, rien de superflu

Une stack IA complete qui couvre le chat, la recherche documentaire, la recherche web et l'observabilite. 100% auto-hebergee, RGPD-compatible.

Chat IA avance

Qwen3.5 35B (MoE, 3B actifs/token) sur GPU NVIDIA V100S 32 Go. Interface multi-utilisateurs avec historique. 4 requetes en parallele.

RAG documentaire

Deposez vos PDF, Word, Excel. Docling extrait le contenu, bge-m3 genere les embeddings, Qdrant stocke les vecteurs. L'IA repond en citant vos documents.

Recherche web automatique

SearXNG agrege DuckDuckGo, Google, Brave et Wikipedia. Chaque message est automatiquement enrichi avec des informations web actualisees.

GPU a la demande

Le GPU s'allume automatiquement a la premiere requete et s'eteint apres 15 min d'inactivite, en fin d'heure facturee OVH.

Multi-utilisateurs

Chaque utilisateur a son espace, ses conversations et ses collections RAG privees. L'administrateur peut creer des bases de connaissances partagees.

Observabilite

Langfuse trace chaque requete LLM : tokens, latence, couts. n8n automatise les workflows (warmup, alertes, indexation).

Architecture

13 services, 2 noeuds, 1 vRack

Infrastructure repartie entre un serveur dedie permanent et une instance GPU ephemere, connectes par un reseau prive OVH.

UtilisateurTraefik (TLS) → Open WebUILiteLLM (GPU wake hook)
  → Ollama (GPU V100S via vRack, 4 req paralleles) → Qwen3.5 35B

RAGbge-m3 CPU (embedding) → Qdrant (recherche) → contexte + LLM

Upload docDocling (extraction) → bge-m3 CPUQdrant

Recherche webSearXNG → resultats injectes dans le contexte LLM
13
Services Docker
32 Go
VRAM GPU
128 Go
RAM serveur
~210 €
par mois (HT)

Services

Inventaire complet

ServiceRoleStatus
Open WebUIInterface chat multi-utilisateursPermanent
LiteLLMProxy/routeur LLM, point d'entree uniquePermanent
GPU ControllerPilotage shelve/unshelve, interface webPermanent
OllamaInference LLM (Qwen3.5 35B) + embeddings GPUA la demande
QdrantBase vectorielle pour le RAGPermanent
Embeddings CPUbge-m3 (RAG permanent meme GPU eteint)Permanent
DoclingExtraction de documents (PDF, Word, Excel)Permanent
SearXNGMoteur de recherche web privePermanent
LangfuseObservabilite LLM, traces et metriquesPermanent
n8nWorkflows et automatisationPermanent
PostgreSQLBase de donnees relationnellePermanent
RedisCache pour SearXNGPermanent
TraefikReverse proxy, TLS Let's EncryptPermanent

Couts d'hebergement

Maitrise totale des couts

Le GPU ne tourne que quand vous en avez besoin. Pas de surprise sur la facture.

~210 € HT/mois

Serveur dedie Advance-2 : ~150 €
GPU V100S (~70h/mois) : ~56 €
Block Storage 150 Go : ~7,50 €

Scenario : 3 a 4 heures de GPU par jour ouvre. A 8h/jour : ~280 €/mois.
Toujours tres en dessous d'un GPU bare-metal 24/7 (600 a 800 €).

Souverainete

Vos donnees restent les votres

Hebergement francais

Infrastructure OVH, datacenters a Gravelines et Roubaix. Donnees soumises au droit francais et europeen.

Zero donnees partagees

Aucune requete ne quitte votre infrastructure. Le modele IA tourne sur votre GPU, pas chez un tiers.

100% open source

Tous les composants sont open source (Qwen3.5 Apache 2.0, Open WebUI MIT, etc.). Pas de dependance proprietaire.

Offre de service

Cle en main, pret en 2 jours

Askem deploie et configure votre stack IA souveraine sur votre infrastructure OVH. Formation incluse pour votre equipe.

Mise en place

1 journee

Installation complete de l'infrastructure : serveurs, GPU, reseau vRack, 13 services Docker, certificats TLS, pipeline RAG, recherche web.

Training

1 journee

Prise en main de l'interface chat, gestion des utilisateurs, upload de documents, base de connaissances RAG, recherche web, administration.

Tarif

2 400 €

Mise en place + formation
HT, pour les 2 journees

Maintien en conditions operationnelles

a partir de 200 € HT/mois

Supervision, mises a jour, support technique, optimisation des modeles et de l'infrastructure.

Askem AI Stack · Deploye et maintenu par Askem · Infrastructure OVH souveraine