{"id":2336,"date":"2026-05-19T13:09:30","date_gmt":"2026-05-19T11:09:30","guid":{"rendered":"https:\/\/askem.eu\/?p=2336"},"modified":"2026-05-19T13:09:33","modified_gmt":"2026-05-19T11:09:33","slug":"lmcache-mutualiser-le-cache-des-llm","status":"publish","type":"post","link":"https:\/\/askem.eu\/en\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/","title":{"rendered":"LMCache : mutualiser le cache des LLM"},"content":{"rendered":"<h2 class=\"wp-block-heading\">LMCache&nbsp;: mutualiser le cache des LLM pour servir plus vite et moins cher<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Toute pile d&rsquo;IA en production finit par se heurter au m\u00eame mur \u00e9conomique&nbsp;: le co\u00fbt et la latence du premier token. Chaque appel \u00e0 un LLM commence par calculer la m\u00eame chose, le <em>prefill<\/em> du contexte, c&rsquo;est \u00e0 dire le passage de tous les tokens d&rsquo;entr\u00e9e dans le r\u00e9seau pour produire le cache d&rsquo;attention (KV cache). Pour un agent qui rappelle son prompt syst\u00e8me \u00e0 chaque tour, un RAG qui r\u00e9injecte les m\u00eames documents \u00e0 chaque requ\u00eate, ou un chat multi-tours qui renvoie l&rsquo;historique complet, c&rsquo;est du calcul jet\u00e9 \u00e0 la poubelle \u00e0 chaque appel. <strong><a href=\"https:\/\/github.com\/lmcache\/lmcache\">LMCache<\/a><\/strong>, projet open source sous licence Apache 2.0 issu de l&rsquo;Universit\u00e9 de Chicago et d\u00e9sormais soutenu par la communaut\u00e9 <a href=\"https:\/\/vllm.ai\">vLLM<\/a>, propose un cache KV mutualis\u00e9, persistant et distribu\u00e9, capable de r\u00e9duire le temps au premier token d&rsquo;un facteur 3 \u00e0 10 sur les usages typiques.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Le probl\u00e8me&nbsp;: un cache cher \u00e0 reconstruire<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Quand <a href=\"https:\/\/askem.eu\/en\/2026\/04\/07\/vllm-servir-des-llm-a-haute-performance-en-production\/\" type=\"post\" id=\"2198\">vLLM<\/a> (ou un autre moteur d&rsquo;inf\u00e9rence) traite une requ\u00eate, il calcule le KV cache des tokens d&rsquo;entr\u00e9e, puis g\u00e9n\u00e8re token apr\u00e8s token en lisant ce cache. Le KV cache, c&rsquo;est de la m\u00e9moire GPU d\u00e9di\u00e9e, typiquement quelques m\u00e9gaoctets par millier de tokens. Tant que la session reste active dans la m\u00eame instance, vLLM sait r\u00e9utiliser le pr\u00e9fixe partag\u00e9 via son <em>prefix caching<\/em> interne. Mais d\u00e8s qu&rsquo;on change d&rsquo;instance, qu&rsquo;on relance le serveur, ou qu&rsquo;on d\u00e9passe la m\u00e9moire allou\u00e9e, le cache dispara\u00eet et il faut tout recalculer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Or, sur une charge typique de production, les m\u00eames blocs reviennent sans cesse&nbsp;: prompts syst\u00e8me de 2 000 \u00e0 8 000 tokens, documents RAG, exemples few-shot, historiques de conversation. LMCache part de ce constat&nbsp;: ce KV cache, on peut le stocker ailleurs que dans la VRAM, et le faire voyager d&rsquo;une instance \u00e0 l&rsquo;autre.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Le principe&nbsp;: KV cache comme une donn\u00e9e de premier rang<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">LMCache traite le KV cache exactement comme on traite n&rsquo;importe quelle donn\u00e9e chaude dans une infrastructure moderne&nbsp;: il est stock\u00e9, index\u00e9, compress\u00e9, et d\u00e9plac\u00e9 dans une hi\u00e9rarchie m\u00e9moire \u00e0 plusieurs \u00e9tages. Concr\u00e8tement, trois niveaux de stockage cohabitent&nbsp;:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>GPU HBM<\/strong>&nbsp;: le cache reste o\u00f9 il est calcul\u00e9 tant qu&rsquo;il y a de la place<\/li>\n\n\n\n<li><strong>RAM CPU<\/strong>&nbsp;: \u00e9viction vers la m\u00e9moire centrale, acc\u00e8s en quelques millisecondes<\/li>\n\n\n\n<li><strong>Stockage local ou r\u00e9seau<\/strong>&nbsp;: NVMe local, Redis, objet S3, ou serveur LMCache d\u00e9di\u00e9, pour persister au del\u00e0 d&rsquo;un red\u00e9marrage et partager entre instances<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo;innovation principale, c&rsquo;est la capacit\u00e9 de r\u00e9utiliser un pr\u00e9fixe <strong>m\u00eame quand il n&rsquo;est pas en t\u00eate<\/strong> du nouveau prompt. LMCache impl\u00e9mente le <em>CacheBlend<\/em>, un m\u00e9canisme qui d\u00e9coupe le KV cache en chunks et recolle dynamiquement les morceaux qu&rsquo;on retrouve dans la requ\u00eate, \u00e0 n&rsquo;importe quelle position. Pour un RAG qui injecte trois documents parmi cent dans un ordre variable, c&rsquo;est d\u00e9cisif.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ce que \u00e7a change en pratique<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Sur les benchmarks publi\u00e9s et reproductibles, l&rsquo;effet est massif sur les charges typiques d&rsquo;agents et de RAG. Quelques ordres de grandeur observ\u00e9s en 2025 et 2026&nbsp;:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Multi-tours<\/strong>&nbsp;: temps au premier token divis\u00e9 par 5 \u00e0 10 apr\u00e8s la deuxi\u00e8me question, l\u00e0 o\u00f9 vLLM seul recalcule l&rsquo;historique complet \u00e0 chaque relance d&rsquo;instance<\/li>\n\n\n\n<li><strong>RAG<\/strong>&nbsp;: gain de 3 \u00e0 7 sur le TTFT quand les documents inject\u00e9s font partie d&rsquo;un corpus pr\u00e9-chauff\u00e9, ind\u00e9pendamment de leur position dans le prompt<\/li>\n\n\n\n<li><strong>Agents multi-\u00e9tapes<\/strong>&nbsp;: \u00e9conomies cumul\u00e9es sur la boucle perception, action, observation, particuli\u00e8rement visibles quand le prompt syst\u00e8me d\u00e9passe 4 000 tokens<\/li>\n\n\n\n<li><strong>Co\u00fbt<\/strong>&nbsp;: baisse de 30 \u00e0 70 pour cent de la facture GPU \u00e0 d\u00e9bit \u00e9quivalent, ou multiplication du d\u00e9bit utile \u00e0 parc constant<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Architecture et int\u00e9gration vLLM<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">LMCache se d\u00e9ploie en deux topologies principales. La plus simple&nbsp;: <strong>cache local<\/strong>, o\u00f9 chaque instance vLLM utilise sa propre RAM et un disque NVMe pour persister. Cela suffit d\u00e9j\u00e0 \u00e0 survivre aux red\u00e9marrages et \u00e0 absorber les pics. La plus puissante&nbsp;: <strong>cache distribu\u00e9<\/strong>, o\u00f9 un ou plusieurs serveurs LMCache d\u00e9di\u00e9s (un d\u00e9mon en Python avec un store en Rust) servent un pool d&rsquo;instances vLLM, qui se synchronisent via un protocole bas niveau optimis\u00e9 pour les transferts de tenseurs.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">C\u00f4t\u00e9 code, l&rsquo;int\u00e9gration vLLM se fait par un seul flag \u00e0 l&rsquo;API ou dans la config&nbsp;:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code># Lancer vLLM avec LMCache local\nvllm serve mistralai\/Mistral-Small-3-24B-Instruct \\\n  --kv-transfer-config \\\n  '{\"kv_connector\":\"LMCacheConnectorV1\",\"kv_role\":\"kv_both\"}'\n\n# Configurer LMCache pour persister sur disque local\nexport LMCACHE_LOCAL_DISK=\"file:\/\/\/var\/cache\/lmcache\"\nexport LMCACHE_MAX_LOCAL_DISK_SIZE=\"200\"  # Go\nexport LMCACHE_CHUNK_SIZE=\"256\"\n<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Pour le d\u00e9ploiement distribu\u00e9, on ajoute simplement l&rsquo;URL du serveur LMCache et on choisit la strat\u00e9gie d&rsquo;\u00e9viction. Les d\u00e9veloppeurs maintiennent aussi une int\u00e9gration avec SGLang, et une compatibilit\u00e9 exp\u00e9rimentale avec TGI (Text Generation Inference) de Hugging Face.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cas d&rsquo;usage o\u00f9 \u00e7a vaut le coup<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">LMCache brille sur trois familles de charges. D&rsquo;abord, les <strong>plateformes RAG<\/strong> avec un corpus stable et un prompt syst\u00e8me long&nbsp;: le pr\u00e9fixe est r\u00e9utilis\u00e9 \u00e0 chaque appel, le gain est imm\u00e9diat. Ensuite, les <strong>agents IA<\/strong> qui font tourner <a href=\"https:\/\/askem.eu\/en\/2026\/04\/09\/langgraph-construire-des-agents-ia-autonomes-avec-orchestration-memoire-et-outils\/\" type=\"post\" id=\"2212\">LangGraph<\/a>, Pydantic AI ou <a href=\"https:\/\/askem.eu\/en\/2026\/05\/12\/hermes-agent-lagent-ia-open-source-qui-apprend-et-se-souvient\/\" type=\"post\" id=\"2317\">Hermes<\/a>, et qui rappellent \u00e0 chaque tour un contexte de plusieurs milliers de tokens&nbsp;: on \u00e9vite le co\u00fbt d&rsquo;amor\u00e7age \u00e0 chaque pas. Enfin, les <strong>chats multi-tours<\/strong> sur une flotte vLLM derri\u00e8re un load balancer, o\u00f9 une question peut arriver sur une instance diff\u00e9rente de la pr\u00e9c\u00e9dente&nbsp;: LMCache rapatrie le cache, l&rsquo;instance n&rsquo;a pas besoin de tout recalculer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00c0 l&rsquo;inverse, sur des charges purement <em>one shot<\/em> avec des prompts courts et tous diff\u00e9rents, le gain est faible et l&rsquo;overhead de transfert peut m\u00eame nuire. Le mesurer avant de d\u00e9ployer reste indispensable.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Limites \u00e0 conna\u00eetre<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Trois points m\u00e9ritent vigilance. Premi\u00e8rement, le KV cache est <strong>sp\u00e9cifique au mod\u00e8le<\/strong>&nbsp;: changer de mod\u00e8le, de quantization ou m\u00eame de version invalide tout. Deuxi\u00e8mement, la <strong>coh\u00e9rence du tokenizer<\/strong> doit \u00eatre garantie&nbsp;: la moindre diff\u00e9rence de tokenisation fait diverger le cache. Troisi\u00e8mement, le <strong>stockage du KV cache occupe de la place<\/strong>, environ 0,5 \u00e0 2 Mo par millier de tokens selon la pr\u00e9cision, ce qui devient significatif pour des corpus de plusieurs millions de tokens&nbsp;: pr\u00e9voir le dimensionnement et les politiques d&rsquo;\u00e9viction (LRU, TTL, taille max).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Pour aller plus loin<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">LMCache s&rsquo;inscrit dans une famille d&rsquo;outils qui rendent l&rsquo;inf\u00e9rence LLM industriellement viable, aux c\u00f4t\u00e9s de <a href=\"https:\/\/askem.eu\/en\/2026\/04\/07\/vllm-servir-des-llm-a-haute-performance-en-production\/\" type=\"post\" id=\"2198\">vLLM<\/a> (le moteur), <a href=\"https:\/\/askem.eu\/en\/2026\/04\/08\/litellm-un-proxy-unifie-pour-router-ses-requetes-llm-entre-ollama-vllm-et-le-cloud\/\" type=\"post\" id=\"2206\">LiteLLM<\/a> (le proxy unifi\u00e9), <a href=\"https:\/\/askem.eu\/en\/2026\/04\/02\/langfuse-observer-et-evaluer-ses-pipelines-llm-open-source-en-production\/\" type=\"post\" id=\"2162\">Langfuse<\/a> (l&rsquo;observabilit\u00e9), et plus r\u00e9cemment LLMLingua (la compression de prompt) d\u00e9j\u00e0 couverts sur ce site. Pour un op\u00e9rateur qui sert plusieurs milliers de requ\u00eates par jour avec des prompts longs, c&rsquo;est typiquement le projet qui paye sa migration en moins d&rsquo;un mois.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le code, la documentation et les benchmarks reproductibles sont disponibles sur le d\u00e9p\u00f4t GitHub officiel <code><a href=\"https:\/\/github.com\/lmcache\/lmcache\">LMCache<\/a>\/LMCache<\/code>, et la communaut\u00e9 maintient un canal Slack actif. Le projet est inclus comme premi\u00e8re classe dans la roadmap vLLM 2026, ce qui en fait un pari raisonnable pour une mise en production.<\/p>","protected":false},"excerpt":{"rendered":"<p>LMCache&nbsp;: mutualiser le cache des LLM pour servir plus vite et moins cher Toute pile d&rsquo;IA en production finit par se heurter au m\u00eame mur \u00e9conomique&nbsp;: le co\u00fbt et la latence du premier token. Chaque appel \u00e0 un LLM commence par calculer la m\u00eame chose, le prefill du contexte, c&rsquo;est \u00e0 dire le passage de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":2337,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ocean_post_layout":"","ocean_both_sidebars_style":"","ocean_both_sidebars_content_width":0,"ocean_both_sidebars_sidebars_width":0,"ocean_sidebar":"","ocean_second_sidebar":"","ocean_disable_margins":"enable","ocean_add_body_class":"","ocean_shortcode_before_top_bar":"","ocean_shortcode_after_top_bar":"","ocean_shortcode_before_header":"","ocean_shortcode_after_header":"","ocean_has_shortcode":"","ocean_shortcode_after_title":"","ocean_shortcode_before_footer_widgets":"","ocean_shortcode_after_footer_widgets":"","ocean_shortcode_before_footer_bottom":"","ocean_shortcode_after_footer_bottom":"","ocean_display_top_bar":"default","ocean_display_header":"default","ocean_header_style":"","ocean_center_header_left_menu":"","ocean_custom_header_template":"","ocean_custom_logo":0,"ocean_custom_retina_logo":0,"ocean_custom_logo_max_width":0,"ocean_custom_logo_tablet_max_width":0,"ocean_custom_logo_mobile_max_width":0,"ocean_custom_logo_max_height":0,"ocean_custom_logo_tablet_max_height":0,"ocean_custom_logo_mobile_max_height":0,"ocean_header_custom_menu":"","ocean_menu_typo_font_family":"","ocean_menu_typo_font_subset":"","ocean_menu_typo_font_size":0,"ocean_menu_typo_font_size_tablet":0,"ocean_menu_typo_font_size_mobile":0,"ocean_menu_typo_font_size_unit":"px","ocean_menu_typo_font_weight":"","ocean_menu_typo_font_weight_tablet":"","ocean_menu_typo_font_weight_mobile":"","ocean_menu_typo_transform":"","ocean_menu_typo_transform_tablet":"","ocean_menu_typo_transform_mobile":"","ocean_menu_typo_line_height":0,"ocean_menu_typo_line_height_tablet":0,"ocean_menu_typo_line_height_mobile":0,"ocean_menu_typo_line_height_unit":"","ocean_menu_typo_spacing":0,"ocean_menu_typo_spacing_tablet":0,"ocean_menu_typo_spacing_mobile":0,"ocean_menu_typo_spacing_unit":"","ocean_menu_link_color":"","ocean_menu_link_color_hover":"","ocean_menu_link_color_active":"","ocean_menu_link_background":"","ocean_menu_link_hover_background":"","ocean_menu_link_active_background":"","ocean_menu_social_links_bg":"","ocean_menu_social_hover_links_bg":"","ocean_menu_social_links_color":"","ocean_menu_social_hover_links_color":"","ocean_disable_title":"default","ocean_disable_heading":"default","ocean_post_title":"","ocean_post_subheading":"","ocean_post_title_style":"","ocean_post_title_background_color":"","ocean_post_title_background":0,"ocean_post_title_bg_image_position":"","ocean_post_title_bg_image_attachment":"","ocean_post_title_bg_image_repeat":"","ocean_post_title_bg_image_size":"","ocean_post_title_height":0,"ocean_post_title_bg_overlay":0.5,"ocean_post_title_bg_overlay_color":"","ocean_disable_breadcrumbs":"default","ocean_breadcrumbs_color":"","ocean_breadcrumbs_separator_color":"","ocean_breadcrumbs_links_color":"","ocean_breadcrumbs_links_hover_color":"","ocean_display_footer_widgets":"default","ocean_display_footer_bottom":"default","ocean_custom_footer_template":"","osh_disable_topbar_sticky":"default","osh_disable_header_sticky":"default","osh_sticky_header_style":"default","osh_sticky_header_effect":"","osh_custom_sticky_logo":0,"osh_custom_retina_sticky_logo":0,"osh_custom_sticky_logo_height":0,"osh_background_color":"","osh_links_color":"","osh_links_hover_color":"","osh_links_active_color":"","osh_links_bg_color":"","osh_links_hover_bg_color":"","osh_links_active_bg_color":"","osh_menu_social_links_color":"","osh_menu_social_hover_links_color":"","ocean_post_oembed":"","ocean_post_self_hosted_media":"","ocean_post_video_embed":"","ocean_link_format":"","ocean_link_format_target":"self","ocean_quote_format":"","ocean_quote_format_link":"post","ocean_gallery_link_images":"on","ocean_gallery_id":[],"footnotes":""},"categories":[16],"tags":[],"class_list":["post-2336","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","entry","has-media"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v28.0 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>LMCache : mutualiser le cache des LLM - askem<\/title>\n<meta name=\"description\" content=\"ASKEM BUREAU D&#039;\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/askem.eu\/en\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/\" \/>\n<meta property=\"og:locale\" content=\"en_US\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"LMCache : mutualiser le cache des LLM - askem\" \/>\n<meta property=\"og:description\" content=\"ASKEM BUREAU D&#039;\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/askem.eu\/en\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/\" \/>\n<meta property=\"og:site_name\" content=\"askem\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/fb.me\/askem.eu\" \/>\n<meta property=\"article:published_time\" content=\"2026-05-19T11:09:30+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-05-19T11:09:33+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1400\" \/>\n\t<meta property=\"og:image:height\" content=\"980\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"askemadmin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"askemadmin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/\"},\"author\":{\"name\":\"askemadmin\",\"@id\":\"https:\\\/\\\/askem.eu\\\/#\\\/schema\\\/person\\\/8bbee74ab9a977d56bf4826662e9d2e9\"},\"headline\":\"LMCache : mutualiser le cache des LLM\",\"datePublished\":\"2026-05-19T11:09:30+00:00\",\"dateModified\":\"2026-05-19T11:09:33+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/\"},\"wordCount\":1187,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2026\\/05\\/sujet-askem-2026-05-19.png\",\"articleSection\":[\"AI\"],\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/\",\"url\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/\",\"name\":\"LMCache : mutualiser le cache des LLM - askem\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2026\\/05\\/sujet-askem-2026-05-19.png\",\"datePublished\":\"2026-05-19T11:09:30+00:00\",\"dateModified\":\"2026-05-19T11:09:33+00:00\",\"description\":\"ASKEM BUREAU D'\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#breadcrumb\"},\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#primaryimage\",\"url\":\"https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2026\\/05\\/sujet-askem-2026-05-19.png\",\"contentUrl\":\"https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2026\\/05\\/sujet-askem-2026-05-19.png\",\"width\":1400,\"height\":980},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/askem.eu\\\/2026\\\/05\\\/19\\\/lmcache-mutualiser-le-cache-des-llm\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\\\/\\\/askem.eu\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"LMCache : mutualiser le cache des LLM\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/askem.eu\\\/#website\",\"url\":\"https:\\\/\\\/askem.eu\\\/\",\"name\":\"askem\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/askem.eu\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"en-US\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/askem.eu\\\/#organization\",\"name\":\"Askem\",\"url\":\"https:\\\/\\\/askem.eu\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/askem.eu\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\/\\/mlpi0fxo3sth.i.optimole.com\\/cb:3obA.c61\\/w:760\\/h:480\\/q:mauto\\/f:best\\/https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2020\\/10\\/logoGalaxieAskem3.png\",\"contentUrl\":\"https:\\/\\/mlpi0fxo3sth.i.optimole.com\\/cb:3obA.c61\\/w:760\\/h:480\\/q:mauto\\/f:best\\/https:\\/\\/askem.eu\\/wp-content\\/uploads\\/2020\\/10\\/logoGalaxieAskem3.png\",\"width\":760,\"height\":480,\"caption\":\"Askem\"},\"image\":{\"@id\":\"https:\\\/\\\/askem.eu\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/fb.me\\\/askem.eu\",\"https:\\\/\\\/linkedin.com\\\/company\\\/askem-eu\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/askem.eu\\\/#\\\/schema\\\/person\\\/8bbee74ab9a977d56bf4826662e9d2e9\",\"name\":\"askemadmin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g\",\"caption\":\"askemadmin\"},\"sameAs\":[\"https:\\\/\\\/askem.eu\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"LMCache : mutualiser le cache des LLM - askem","description":"ASKEM BUREAU D'\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/askem.eu\/en\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/","og_locale":"en_US","og_type":"article","og_title":"LMCache : mutualiser le cache des LLM - askem","og_description":"ASKEM BUREAU D'\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.","og_url":"https:\/\/askem.eu\/en\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/","og_site_name":"askem","article_publisher":"https:\/\/fb.me\/askem.eu","article_published_time":"2026-05-19T11:09:30+00:00","article_modified_time":"2026-05-19T11:09:33+00:00","og_image":[{"width":1400,"height":980,"url":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png","type":"image\/png"}],"author":"askemadmin","twitter_card":"summary_large_image","twitter_misc":{"Written by":"askemadmin","Est. reading time":"6 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#article","isPartOf":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/"},"author":{"name":"askemadmin","@id":"https:\/\/askem.eu\/#\/schema\/person\/8bbee74ab9a977d56bf4826662e9d2e9"},"headline":"LMCache : mutualiser le cache des LLM","datePublished":"2026-05-19T11:09:30+00:00","dateModified":"2026-05-19T11:09:33+00:00","mainEntityOfPage":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/"},"wordCount":1187,"commentCount":0,"publisher":{"@id":"https:\/\/askem.eu\/#organization"},"image":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#primaryimage"},"thumbnailUrl":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png","articleSection":["AI"],"inLanguage":"en-US","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/","url":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/","name":"LMCache : mutualiser le cache des LLM - askem","isPartOf":{"@id":"https:\/\/askem.eu\/#website"},"primaryImageOfPage":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#primaryimage"},"image":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#primaryimage"},"thumbnailUrl":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png","datePublished":"2026-05-19T11:09:30+00:00","dateModified":"2026-05-19T11:09:33+00:00","description":"ASKEM BUREAU D'\u00c9TUDES ET DE FORMATION NUM\u00c9RIQUE. Nous vous assistons dans la transformation num\u00e9rique de vos outils, services et organisations tout en pla\u00e7ant l\u2019humain au c\u0153ur de notre d\u00e9marche d\u2019accompagnement.","breadcrumb":{"@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#breadcrumb"},"inLanguage":"en-US","potentialAction":[{"@type":"ReadAction","target":["https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/"]}]},{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#primaryimage","url":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png","contentUrl":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2026\/05\/sujet-askem-2026-05-19.png","width":1400,"height":980},{"@type":"BreadcrumbList","@id":"https:\/\/askem.eu\/2026\/05\/19\/lmcache-mutualiser-le-cache-des-llm\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/askem.eu\/"},{"@type":"ListItem","position":2,"name":"LMCache : mutualiser le cache des LLM"}]},{"@type":"WebSite","@id":"https:\/\/askem.eu\/#website","url":"https:\/\/askem.eu\/","name":"askem","description":"","publisher":{"@id":"https:\/\/askem.eu\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/askem.eu\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"en-US"},{"@type":"Organization","@id":"https:\/\/askem.eu\/#organization","name":"Askem","url":"https:\/\/askem.eu\/","logo":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/askem.eu\/#\/schema\/logo\/image\/","url":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:760\/h:480\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2020\/10\/logoGalaxieAskem3.png","contentUrl":"https:\/\/mlpi0fxo3sth.i.optimole.com\/cb:3obA.c61\/w:760\/h:480\/q:mauto\/f:best\/https:\/\/askem.eu\/wp-content\/uploads\/2020\/10\/logoGalaxieAskem3.png","width":760,"height":480,"caption":"Askem"},"image":{"@id":"https:\/\/askem.eu\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/fb.me\/askem.eu","https:\/\/linkedin.com\/company\/askem-eu"]},{"@type":"Person","@id":"https:\/\/askem.eu\/#\/schema\/person\/8bbee74ab9a977d56bf4826662e9d2e9","name":"askemadmin","image":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/secure.gravatar.com\/avatar\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/a202f744ee3a4b6fdbe2ceb57fd84c72559337791a276662270d8d2fb7842e3f?s=96&d=mm&r=g","caption":"askemadmin"},"sameAs":["https:\/\/askem.eu"]}]}},"_links":{"self":[{"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/posts\/2336","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/comments?post=2336"}],"version-history":[{"count":1,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/posts\/2336\/revisions"}],"predecessor-version":[{"id":2338,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/posts\/2336\/revisions\/2338"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/media\/2337"}],"wp:attachment":[{"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/media?parent=2336"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/categories?post=2336"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/askem.eu\/en\/wp-json\/wp\/v2\/tags?post=2336"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}