Embeddings
Conversion de texte en vecteurs numériques pour comparer le sens de documents.
Représentation numérique d'un texte sous forme de vecteur multi-dimensionnel qui encode le sens sémantique. Deux textes similaires produisent des vecteurs proches dans cet espace. Base technique des recherches sémantiques et du RAG.
- Recherche sémantique dans une base documentaire interne : retrouver les clauses contractuelles pertinentes même sans correspondance exacte de mots.
- Recommandation de contenus similaires sur un site B2B basée sur la proximité sémantique des articles.
- Clustering automatique de tickets support par thématique pour prioriser les incidents récurrents.
Qu’est-ce qu’un embedding ?
Un embedding est la traduction d’un texte, phrase, paragraphe, document, en un vecteur de plusieurs centaines ou milliers de dimensions. Ce vecteur encode le sens sémantique du texte : deux phrases proches de sens produisent des vecteurs proches dans l’espace mathématique, indépendamment des mots utilisés.
Applications pratiques
Les embeddings sont au cœur de plusieurs usages critiques en entreprise :
- Recherche sémantique : retrouver des documents pertinents même quand la requête n’utilise pas les mêmes mots.
- RAG : enrichir les réponses d’un LLM avec des extraits de documentation interne.
- Clustering : regrouper automatiquement des tickets support ou des avis clients par thématique.
OpenAI, Cohere et Mistral proposent des APIs d’embeddings prêtes à l’emploi, facturées au nombre de tokens traités.