Qualité des données
Fiabilité et complétude des données qui conditionnent la qualité des résultats IA.
Niveau de fiabilité, de complétude et de cohérence des données utilisées pour entraîner ou alimenter un système IA. Des données de mauvaise qualité dégradent directement les performances des modèles et génèrent des sorties inexactes ou biaisées.
- Un CRM avec 30 % de doublons de contacts produit un agent de prospection qui envoie des emails en double et dégrade la délivrabilité.
- Des tickets support mal catégorisés entraînent un modèle de classification qui commet les mêmes erreurs systématiquement.
- Des données financières avec des champs manquants génèrent des prévisions biaisées dans un dashboard de pilotage IA.
Qu’est-ce que la qualité des données ?
La qualité des données désigne le niveau de fiabilité, de complétude, de cohérence et de fraîcheur des informations utilisées pour entraîner, fine-tuner ou alimenter un système IA. L’adage « garbage in, garbage out » s’applique directement : un modèle entraîné sur des données inexactes ou biaisées produit des prédictions inexactes ou biaisées.
Les quatre dimensions de la qualité
- Exactitude : les données reflètent-elles la réalité ?
- Complétude : manque-t-il des valeurs critiques ?
- Cohérence : les mêmes entités sont-elles représentées de façon homogène ?
- Fraîcheur : les données sont-elles à jour ?
Pour un projet IA en entreprise, l’audit de qualité des données est la première étape avant toute modélisation. Jusqu’à 80 % du temps d’un projet IA est consacré au nettoyage et à la préparation des données.