Waimia.
§ IA · TECHNIQUE

Embeddings

Conversion de texte en vecteurs numériques pour comparer le sens de documents.

§ Définition

Représentation numérique d'un texte sous forme de vecteur multi-dimensionnel qui encode le sens sémantique. Deux textes similaires produisent des vecteurs proches dans cet espace. Base technique des recherches sémantiques et du RAG.

§ Exemples
  • Recherche sémantique dans une base documentaire interne : retrouver les clauses contractuelles pertinentes même sans correspondance exacte de mots.
  • Recommandation de contenus similaires sur un site B2B basée sur la proximité sémantique des articles.
  • Clustering automatique de tickets support par thématique pour prioriser les incidents récurrents.
§ Termes liés

Qu’est-ce qu’un embedding ?

Un embedding est la traduction d’un texte, phrase, paragraphe, document, en un vecteur de plusieurs centaines ou milliers de dimensions. Ce vecteur encode le sens sémantique du texte : deux phrases proches de sens produisent des vecteurs proches dans l’espace mathématique, indépendamment des mots utilisés.

Applications pratiques

Les embeddings sont au cœur de plusieurs usages critiques en entreprise :

  • Recherche sémantique : retrouver des documents pertinents même quand la requête n’utilise pas les mêmes mots.
  • RAG : enrichir les réponses d’un LLM avec des extraits de documentation interne.
  • Clustering : regrouper automatiquement des tickets support ou des avis clients par thématique.

OpenAI, Cohere et Mistral proposent des APIs d’embeddings prêtes à l’emploi, facturées au nombre de tokens traités.