Anonymisation des données personnelles (PII)
Anonymiser les PII consiste à supprimer ou masquer irréversiblement toute information permettant d'identifier une personne, avant de l'envoyer à un LLM ou de la stocker dans une base vectorielle.
Processus de transformation irréversible des informations personnellement identifiables (PII, noms, emails, numéros de téléphone, adresses IP) afin qu'elles ne puissent plus être rattachées à un individu, permettant leur traitement par des systèmes IA sans violation des réglementations sur la vie privée.
- Avant d'envoyer des emails clients à un LLM pour classification, remplacer automatiquement noms, emails et téléphones par des tokens neutres : 'Jean Dupont' → 'CLIENT_001'.
- Un pipeline RAG d'analyse de contrats anonymise les noms de sociétés et signataires avant indexation, permettant au modèle de raisonner sur la structure juridique sans exposer de données confidentielles.
- La pseudonymisation (réversible avec une clé) permet de corréler des analyses IA avec les personnes réelles en interne, sans exposer les données identifiantes aux fournisseurs de LLM externes.
Anonymisation des PII : condition préalable à l’IA responsable
L’anonymisation des données personnelles (PII pour Personally Identifiable Information) est une obligation réglementaire et une nécessité opérationnelle pour tout projet IA qui traite des données de personnes physiques. Envoyer des données non anonymisées à un LLM externe constitue une violation potentielle du RGPD et expose l’entreprise à des risques de confidentialité significatifs.
PII directes vs PII indirectes
PII directes : identifiants uniques sans ambiguïté, nom complet, numéro de sécurité sociale, adresse email, numéro de téléphone, numéro de carte bancaire, adresse IP. Toujours à anonymiser avant envoi externe.
PII indirectes : combinaisons d’informations qui permettent une ré-identification, code postal + date de naissance + sexe peuvent suffire à identifier une personne dans une petite commune. La directive RGPD s’applique à ces combinaisons.
Anonymisation vs pseudonymisation
L’anonymisation est irréversible : une fois traitée, l’information ne peut plus être rattachée à une personne. Elle libère les données des obligations RGPD mais perd la capacité de corrélation.
La pseudonymisation remplace les identifiants par des tokens, avec une clé de correspondance conservée séparément. Elle reste soumise au RGPD mais permet des analyses corrélées et une traçabilité interne. C’est souvent le meilleur compromis pour les workflows IA en entreprise.
Intégration dans un pipeline IA
L’anonymisation doit intervenir avant toute étape d’envoi à un LLM externe, toute indexation dans une base vectorielle, et tout stockage dans un système tiers. Des outils automatisés (Microsoft Presidio, AWS Comprehend, Faker) permettent d’industrialiser ce processus.