Le prompt caching, c’est une technique qui permet à un modèle d’IA de mémoriser une partie d’un contexte déjà traité pour ne pas avoir à le recalculer à chaque nouveau message. En clair : au lieu de relire et d’analyser 10 000 tokens à chaque fois que tu envoies une question, le modèle garde une sorte de « snapshot » de ce qu’il a déjà lu. Résultat : c’est plus rapide, moins cher, et souvent plus cohérent.
Si tu utilises des IA dans ton boulot ou pour tes projets, tu as sûrement remarqué que ça peut vite devenir coûteux quand tu travailles avec de longs documents. Le prompt caching change la donne. Et pourtant, presque personne n’en parle clairement.
Pourquoi les IA recalculent tout à chaque fois ?
Par défaut, un modèle de langage traite chaque message depuis zéro, même si tu lui as déjà envoyé un énorme document deux secondes avant. C’est lié à la façon dont fonctionne l’inférence en IA : à chaque requête, le modèle relit l’intégralité du contexte, token par token, pour générer sa réponse.
Imagine que tu colles un contrat de 50 pages dans une conversation, puis que tu poses dix questions dessus une par une. Sans prompt caching, le modèle relit ces 50 pages dix fois. C’est du gaspillage pur. Du temps perdu. Et de l’argent dépensé pour rien.
Ce problème devient encore plus évident quand tu comprends ce qu’est la context window en IA : plus elle est grande, plus le modèle peut « voir » loin dans une conversation, mais aussi plus le coût de chaque recalcul explose.
Comment fonctionne concrètement le prompt caching ?
Le principe est simple : on met en cache la représentation interne du début du contexte (le « prefix »), et on la réutilise pour les requêtes suivantes qui commencent par le même texte.
Voilà comment ça se passe étape par étape :
- Tu envoies un premier message avec un long contexte (un document, un system prompt détaillé, des instructions).
- Le modèle traite ce contexte et stocke sa représentation interne dans un cache temporaire.
- Quand tu envoies un deuxième message qui commence par le même contexte, le modèle détecte que ce « prefix » est déjà en cache.
- Il saute le recalcul de cette partie et reprend directement là où il en était.
- Seule la partie nouvelle (ta nouvelle question) est vraiment traitée.
Ce qui est mis en cache, ce n’est pas le texte brut. C’est la représentation vectorielle du contexte, c’est-à-dire les embeddings et les états internes du modèle après avoir digéré ce texte. C’est ce qui rend le cache si efficace : pas besoin de retokeniser ni de recalculer toute l’attention.
Qui propose le prompt caching aujourd’hui ?
Plusieurs fournisseurs d’IA ont déployé leur propre version du prompt caching, avec des règles et des économies différentes selon les plateformes.
| Fournisseur | Réduction sur tokens en cache | Durée du cache |
|---|---|---|
| Anthropic (Claude) | Jusqu’à 90% moins cher | 5 minutes standard, 1 heure (option payante) |
| OpenAI (GPT-5) | 90% moins cher | Quelques minutes à 24 heures (GPT-5.1+) |
| Google (Gemini) | 75% moins cher | 1 heure minimum |
Chaque plateforme a ses propres conditions. Chez Anthropic, tu dois dépasser un seuil minimum de tokens pour activer le cache : 4096 tokens pour les modèles Claude 4 (Haiku 4.5, Sonnet 4.5, Opus 4.5 et ultérieurs), et 1024 tokens pour les modèles plus anciens comme Claude 3.7 Sonnet. Chez OpenAI, le cache s’active automatiquement sans configuration manuelle, et depuis GPT-5.1 la durée peut aller jusqu’à 24 heures. Chez Google avec Gemini, tu peux même choisir combien de temps garder ton cache actif.
Qui a vraiment intérêt à utiliser le prompt caching ?
Le prompt caching est surtout utile dans les cas où tu répètes le même contexte de base sur de nombreuses requêtes successives.
Voilà les situations où ça fait une vraie différence :
- Les développeurs qui construisent des chatbots : le system prompt (les instructions de base données à l’IA) est souvent long et répété à chaque message de l’utilisateur. Avec le cache, ce coût s’effondre.
- Les entreprises qui analysent des documents : contrats, rapports, bases de données clients. Tu charges le document une fois, tu poses dix questions dessus, tu ne paies que la première lecture.
- Les applications d’assistance personnalisée : quand une IA doit « connaître » un profil utilisateur détaillé à chaque session.
- Les pipelines d’automatisation : si tu construis des workflows automatisés avec des outils comme N8n, le prompt caching peut réduire massivement tes coûts API sur des traitements en série.
En revanche, si tu envoies des messages courts et variés sans contexte commun, le cache ne t’apportera presque rien.
Quelles sont les limites du prompt caching ?
Le prompt caching n’est pas une solution magique : il a des contraintes techniques et des cas où il ne sert à rien.
La durée de vie du cache est courte par défaut. Sur la plupart des plateformes, le cache expire en cinq minutes si tu ne l’utilises pas. Anthropic propose une option à une heure, OpenAI peut maintenir le cache jusqu’à 24 heures sur les modèles récents. Pour des sessions longues avec des pauses, vérifie la durée disponible selon ta plateforme.
Le préfixe doit être identique. Si tu modifies la moindre virgule au début de ton contexte, le cache est invalidé. Toute variation dans la partie mise en cache force un nouveau calcul complet.
Le cache ne traverse pas les utilisateurs. Le cache d’un utilisateur est isolé des autres. Tu ne peux pas mutualiser un contexte entre plusieurs personnes sur une même plateforme.
La latence de la première requête reste la même. Le cache n’accélère que les requêtes suivantes. La première est toujours aussi longue à traiter, parfois même légèrement plus longue à cause de l’écriture en cache.
C’est un peu la même logique que la distillation de modèles : on optimise ce qui est coûteux à recalculer, mais il y a toujours un compromis quelque part.
Prompt caching vs d’autres techniques d’optimisation : quelle différence ?
Le prompt caching est souvent confondu avec d’autres mécanismes d’optimisation, mais ce n’est pas la même chose.
Prompt caching vs KV Cache : le KV Cache (Key-Value Cache) est une optimisation interne du modèle qui stocke des calculs intermédiaires pendant la génération d’une même réponse. Le prompt caching, lui, persiste entre plusieurs requêtes distinctes. C’est une couche au-dessus.
Prompt caching vs RAG : le RAG (Retrieval Augmented Generation) sert à aller chercher des informations dans une base de données externe pour les injecter dans le contexte. Le prompt caching sert à réutiliser un contexte déjà injecté. Les deux se complètent très bien : tu récupères tes données avec le RAG, et tu mets en cache le contexte ainsi construit.
Prompt caching vs Fine-tuning : le fine-tuning modifie le modèle lui-même pour qu’il « sache » déjà certaines choses. Le prompt caching ne modifie rien au modèle, il optimise juste la façon dont le contexte est transmis. Le fine-tuning coûte cher et prend du temps. Le prompt caching s’active souvent en quelques lignes de code.
Est-ce que c’est difficile à mettre en place ?
Pour la plupart des plateformes modernes, le prompt caching est soit automatique, soit très simple à activer.
Chez OpenAI, tu n’as rien à faire. Si ta requête dépasse 1024 tokens et que le préfixe a déjà été envoyé récemment, le cache s’active tout seul. Tu le vois dans les métadonnées de la réponse API avec un champ cached_tokens. Depuis GPT-5.1, la rétention peut atteindre 24 heures sur les requêtes fréquentes.
Chez Anthropic, tu dois ajouter un paramètre cache_control dans ton appel API pour indiquer quelle partie du contexte doit être mise en cache. C’est quelques lignes supplémentaires, mais ça reste accessible même si tu débutes avec les API. L’option 1 heure est disponible moyennant un léger surcoût d’écriture.
Chez Google Gemini, tu crées un objet « CachedContent » via l’API, tu définis sa durée de vie, et tu y fais référence dans tes requêtes suivantes. C’est un peu plus structuré, mais très documenté.
En résumé, si tu utilises ces modèles via une interface graphique (ChatGPT.com, Claude.ai), tu ne contrôles pas le prompt caching directement. C’est une fonctionnalité destinée aux développeurs qui passent par l’API.
En résumé : le prompt caching
Le prompt caching est une des optimisations les plus sous-estimées de l’IA moderne. Le principe est simple : ne recalcule pas ce que tu as déjà calculé. En mettant en cache le contexte commun à plusieurs requêtes, les modèles comme Claude, GPT-5 ou Gemini peuvent diviser par deux, cinq, voire dix le coût et la latence des interactions longues. C’est particulièrement utile pour les développeurs, les équipes qui traitent des documents, et tous ceux qui construisent des applications basées sur des LLM avec des contextes répétitifs. Ce n’est pas magique, il y a des contraintes de durée et de structure, mais quand c’est bien utilisé, c’est un levier puissant pour rendre l’IA plus rapide et beaucoup moins coûteuse.
Questions fréquentes sur le prompt caching
Le prompt caching est-il disponible sur tous les modèles IA ?
Non, pas encore. En 2026, le prompt caching est disponible chez les grands fournisseurs comme OpenAI (famille GPT-5 et modèles récents), Anthropic (Claude 4 et versions suivantes, ainsi que certains modèles Claude 3) et Google (Gemini 2.5 Pro et Ultra). Les modèles open source comme ceux disponibles sur Hugging Face ne proposent pas cette fonctionnalité nativement, sauf si tu utilises une infrastructure qui l’implémente côté serveur.
Est-ce que mes données en cache sont accessibles par d’autres utilisateurs ?
Non. Le cache est strictement isolé par compte et par session. Personne d’autre ne peut accéder au contexte que tu as mis en cache. Les fournisseurs sont très clairs là-dessus dans leurs documentations et leurs politiques de confidentialité.
Comment savoir si le cache a bien été utilisé dans une requête ?
Si tu passes par l’API, les métadonnées de la réponse contiennent généralement un indicateur. Chez OpenAI, tu trouves un champ « cached_tokens » dans l’objet « usage ». Chez Anthropic, tu as un champ « cache_read_input_tokens ». Si ce nombre est supérieur à zéro, le cache a été utilisé et tu as payé moins cher.
Peut-on mettre en cache des images ou des fichiers, pas seulement du texte ?
Oui, chez certains fournisseurs. Anthropic permet de mettre en cache des images transmises dans le contexte. Google Gemini supporte également le cache multimodal (texte, images, vidéos). C’est particulièrement utile si tu travailles avec des documents visuels analysés à plusieurs reprises.
Le prompt caching change-t-il la qualité des réponses de l’IA ?
Non. Le cache ne modifie pas le contenu traité ni le comportement du modèle. Il restitue exactement la même représentation interne que si le contexte avait été relu entièrement. La réponse que tu obtiens est identique à celle que tu aurais eue sans cache. Seuls la vitesse et le coût changent.
Est-ce que le prompt caching fonctionne avec le fine-tuning ou le RAG ?
Oui, les deux sont compatibles. Tu peux utiliser le RAG pour construire un contexte enrichi, puis le mettre en cache pour ne pas avoir à le reconstruire à chaque requête. De même, un modèle fine-tuné peut bénéficier du prompt caching sur son system prompt ou ses exemples de contexte. Les techniques se combinent sans se bloquer mutuellement.