Enjeux et perspectives de l’anonymisation des données : état de l’art pour les données structurées et les données non structurées.

Le 14 décembre 2023, le Décryptage n°6 du gf2i accueillait Paul-Olivier GIBERT, Président Fondateur de Digital Ethics, Président de l’AFCDP et Feten BEN FREDJ, Ph.D,  Anonymization Project Manager chez Digital Ethics.

L’anonymisation des données est une solution pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes. Elle consiste à modifier le contenu ou la structure de ces données. Elle permet des réutilisations de données initialement interdites du fait du caractère personnel des données exploitées. C’est donc une question à la croisée du droit et de la technologie et c’est avant tout une question de gestion des risques.

Juridiquement, une base de données est considérée comme anonymisée lorsqu’il est impossible de réidentifier les personnes auxquelles correspondent les données. L’anonymisation se distingue donc de la pseudonymisation qui a pour objectif, via un traitement des données personnelles, d’empêcher l’identification directe des données relatives à une personne physique. La pseudonymisation est réversible, ce qui n’est pas le cas de l’anonymisation.

Pour atteindre l’anonymisation, la base de données doit pouvoir résister à l’individualisation, l’inférence et la corrélation des données. Lorsque ces trois critères ne peuvent être respectés de façon cumulative, l’anonymisation ne pourra être considérée atteinte qu’après une analyse détaillée des risques de réidentification.

Les techniques d’anonymisation peuvent consister à masquer des données de façon perturbatrice (ajout de bruit, regroupement des individus en catégories, permutation de valeurs des données) ou non (suppression de valeurs, recodage) ou à générer des données synthétiques (les données d’origine sont remplacées par des données virtuelles en se basant sur des modèles de simulation). Bien entendu, les techniques utilisées différeront suivant que l’on doit traiter des données structurées (données textuelles) ou des données non structurées (images).

Les données originales doivent faire l’objet d’une analyse de risques et d’utilité pour parvenir à établir un compromis entre risque et qualité des données permettant d’objectiver le degré d’anonymisation requis et choisir les techniques à mettre en œuvre.

Les évolutions récentes des techniques d’anonymisation permettent de sécuriser le traitement des données du point de vue juridique et du point de vue métier, en permettant une contextualisation fine, de manière à moduler le niveau de réduction des données pour augmenter la qualité des jeux de données, notamment pour entraîner les IA.

Les bonnes pratiques en matière d’anonymisation des données consistent en particulier à :

  • Maîtriser les techniques disponibles
  • Clarifier les objectifs des analyses
  • Comprendre en profondeur la structure des données et les analyses prévues
  • Moduler l’anonymisation en fonction de chaque projet et ne pas en avoir une vision standardisée (les cas d’usage sont très nombreux et diversifiés)
  • Documenter chaque projet
  • Informer les personnes concernées
  • Contractualiser les traitements et les engagements pris
  • Évaluer la sécurité des environnements utilisés
Groupement Français
de l’Industrie de l’Information

17, rue Castagnary 75015 Paris
Tél. +33 1 44 90 43 69