Waimia.
§ IA · TECHNIQUE

Fenêtre de contexte

La fenêtre de contexte est la mémoire de travail du LLM : tout ce qui y entre est visible au modèle. Au-delà, l'information est perdue ou tronquée.

§ Définition

Quantité maximale de texte (exprimée en tokens) qu'un modèle de langage peut traiter simultanément lors d'une requête : elle inclut le prompt système, l'historique de conversation, les documents injectés et la réponse générée.

§ Exemples
  • GPT-4o dispose d'une fenêtre de 128 000 tokens (~96 000 mots), suffisante pour analyser un rapport annuel complet en une seule requête.
  • Un agent de support qui accumule un long historique de conversation risque de dépasser sa fenêtre : les premières interactions disparaissent et le modèle « oublie » le contexte initial.
  • Une architecture RAG permet de contourner la limite de contexte en ne chargeant que les passages pertinents d'une base de connaissance, plutôt que l'intégralité des documents.
§ Termes liés

Comprendre la fenêtre de contexte d’un LLM

La fenêtre de contexte détermine ce qu’un modèle de langage « voit » lors d’une requête. Elle est le principal facteur limitant pour les applications qui manipulent de longs documents ou maintiennent des conversations étendues.

Ce que contient la fenêtre

La fenêtre de contexte accueille simultanément :

  • Le prompt système : les instructions permanentes qui définissent le rôle et les règles du modèle
  • L’historique de conversation : tous les échanges précédents dans la session
  • Les documents injectés : fichiers, extraits de base de données, résultats de recherche
  • La réponse générée : les tokens produits par le modèle en sortie

Implications pour l’architecture

Quand la fenêtre est pleine, le modèle ne peut pas recevoir de nouvelles informations sans supprimer les anciennes. Les stratégies pour gérer cette contrainte incluent :

Le résumé progressif : compresser l’historique de conversation en un résumé compact toutes les N interactions.

Le RAG dynamique : ne charger dans le contexte que les passages pertinents, récupérés par recherche vectorielle.

Le découpage de tâches : traiter un long document par morceaux successifs plutôt qu’en une seule requête.

La taille de la fenêtre de contexte a considérablement augmenté ces deux dernières années, passant de 4 000 à plus de 1 million de tokens pour certains modèles spécialisés.