Fenêtre de contexte
La fenêtre de contexte est la mémoire de travail du LLM : tout ce qui y entre est visible au modèle. Au-delà, l'information est perdue ou tronquée.
Quantité maximale de texte (exprimée en tokens) qu'un modèle de langage peut traiter simultanément lors d'une requête : elle inclut le prompt système, l'historique de conversation, les documents injectés et la réponse générée.
- GPT-4o dispose d'une fenêtre de 128 000 tokens (~96 000 mots), suffisante pour analyser un rapport annuel complet en une seule requête.
- Un agent de support qui accumule un long historique de conversation risque de dépasser sa fenêtre : les premières interactions disparaissent et le modèle « oublie » le contexte initial.
- Une architecture RAG permet de contourner la limite de contexte en ne chargeant que les passages pertinents d'une base de connaissance, plutôt que l'intégralité des documents.
Comprendre la fenêtre de contexte d’un LLM
La fenêtre de contexte détermine ce qu’un modèle de langage « voit » lors d’une requête. Elle est le principal facteur limitant pour les applications qui manipulent de longs documents ou maintiennent des conversations étendues.
Ce que contient la fenêtre
La fenêtre de contexte accueille simultanément :
- Le prompt système : les instructions permanentes qui définissent le rôle et les règles du modèle
- L’historique de conversation : tous les échanges précédents dans la session
- Les documents injectés : fichiers, extraits de base de données, résultats de recherche
- La réponse générée : les tokens produits par le modèle en sortie
Implications pour l’architecture
Quand la fenêtre est pleine, le modèle ne peut pas recevoir de nouvelles informations sans supprimer les anciennes. Les stratégies pour gérer cette contrainte incluent :
Le résumé progressif : compresser l’historique de conversation en un résumé compact toutes les N interactions.
Le RAG dynamique : ne charger dans le contexte que les passages pertinents, récupérés par recherche vectorielle.
Le découpage de tâches : traiter un long document par morceaux successifs plutôt qu’en une seule requête.
La taille de la fenêtre de contexte a considérablement augmenté ces deux dernières années, passant de 4 000 à plus de 1 million de tokens pour certains modèles spécialisés.