Qu'est-ce que la désidentification des données ?
La désidentification des données est un processus utilisé par les entreprises pour interagir avec et tirer de la valeur des données dont les informations sensibles et personnellement identifiables (PII) ont été supprimées. Les outils de désidentification des données identifient les PII et rompent leur lien avec les individus tout en conservant le reste des données intactes. Cela préserve la confidentialité des sujets de données au sein de l'ensemble de données. Les entreprises qui travaillent régulièrement avec des données sensibles choisissent souvent de les désidentifier pour rester conformes aux réglementations gouvernementales, y compris le RGPD, le CCPA et la HIPAA.
Les produits de désidentification des données fonctionnent de manière similaire aux logiciels de masquage des données, mais la première méthode a une probabilité plus faible que les données soient réidentifiées. En anonymisant les données et en séparant les informations à valeur ajoutée des PII, telles que l'âge, le code postal et le nom d'une personne, les organisations peuvent partager des informations réglementées au sein de leur entreprise et avec des tiers d'une manière qui réduit considérablement la non-conformité réglementaire.
Types de désidentification des données
Il existe plusieurs méthodes différentes pour désidentifier les données, notamment :
- Tokenisation : Cette méthode de désidentification des données remplace les PII spécifiées par une autre expression, telle qu'une chaîne d'informations aléatoire. Cette méthode garantit que même si les données sont compromises, les acteurs malveillants ne découvriront que des informations dénuées de sens qui ne peuvent pas identifier les individus.
- Remplacement : Cette méthode est similaire à la tokenisation en supprimant les informations sensibles. Elle diffère en ce que les données réelles ne sont pas remplacées par une chaîne d'informations aléatoire, mais par des données fabriquées qui semblent réelles.
- Coffre de confidentialité : Une forme plus récente de désidentification des données, cette méthode consiste à faire passer les données PII par un coffre. Le coffre agit comme un filtre, identifiant, séparant et remplaçant les données sensibles et les PII par diverses méthodes de désidentification. Les informations séparées sont stockées dans le coffre et protégées par cryptage des données.
Avantages de l'utilisation de la désidentification des données
Il existe plusieurs avantages à désidentifier les données, notamment :
- Conformité : Les réglementations gouvernementales, y compris les normes RGPD et CCPA, ont un langage strict concernant les données que les organisations partagent avec des tiers. Pour rester conformes à ces normes, elles stipulent que les données contenant des PII ou d'autres informations sensibles ne doivent pas pouvoir être raisonnablement liées à l'individu concerné par les données.
- Entretien réduit : Une fois le lien entre les sujets de données et les données sensibles rompu par la désidentification, l'ensemble de données devient un actif à risque et à entretien réduits. Par exemple, les organisations sont souvent tenues de signaler les fuites et violations de données impliquant des données sensibles et des PII. Cependant, il n'y a souvent pas d'exigences légales pour signaler les fuites et violations impliquant des données qui ne peuvent pas identifier les individus.
- Informations précieuses : Les données qui ont été désidentifiées sont souvent utilisées dans des ensembles de données agrégées pour repérer des tendances ou des caractéristiques partagées entre des groupes de personnes. Dans de tels cas, aucune information sensible supprimée n'ajoute de valeur à l'ensemble de données de toute façon, ce qui signifie que les entreprises peuvent toujours utiliser les aspects précieux des données restantes sans compromettre la confidentialité de quiconque.
- Partage de données : Un avantage principal de la désidentification des données est la capacité qu'elle donne aux organisations de partager de grands ensembles de données avec des tiers. Étant donné que les données ne peuvent pas être liées à des individus mais contiennent des informations précieuses, les tiers peuvent aider les organisations à tirer des points de valeur particuliers des données sans connaître l'identité de quiconque.
Éléments de base de la désidentification des données
La désidentification des données comprend les éléments essentiels suivants :
- Suppression des données identifiables : Pour désidentifier correctement les données, les informations sensibles doivent être supprimées. Ces informations sensibles incluent les noms, adresses, numéros de téléphone, informations de carte de crédit, données biométriques et d'autres informations pouvant identifier des individus. Des informations abstraites telles que l'âge, le poids, la taille ou d'autres données qui ne peuvent raisonnablement pas identifier un individu au sein de l'ensemble de données peuvent rester pour que les parties puissent extraire la valeur nécessaire sans compromettre la confidentialité des sujets de données.
- Rupture des liens avec les sujets de données : En supprimant les informations qui identifieraient autrement les individus, le lien entre les données dont on peut tirer de la valeur et la personne dont les données restantes ont été dérivées est rompu. En cas de fuite ou de violation de données, cette rupture rend difficile pour les acteurs malveillants d'identifier les sujets de données à partir d'ensembles de données anonymisées.
Désidentification des données vs masquage des données
La désidentification des données et le masquage des données sont des concepts étroitement liés, mais ils diffèrent légèrement.
- Désidentification des données : Lorsque les données sont désidentifiées, les informations sensibles, y compris les PII, sont séparées ou supprimées de l'ensemble de données. Cela rend très difficile l'identification des sujets de données en interne ou en cas de violation ou de fuite de données. Les méthodes de désidentification des données impliquent souvent de remplacer les PII par des informations fabriquées ou des chaînes de texte dénuées de sens.
- Masquage des données : Masquer les données signifie simplement cela—cacher les points d'information toujours présents dans l'ensemble de données. Les méthodes standard de masquage des données incluent le cryptage et la rédaction. Réidentifier les individus dans les données masquées est possible si le masque est retiré.

Brandon Summers-Miller
Brandon is a Senior Research Analyst at G2 specializing in security and data privacy. Before joining G2, Brandon worked as a freelance journalist and copywriter focused on food and beverage, LGBTQIA+ culture, and the tech industry. As an analyst, Brandon is committed to helping buyers identify products that protect and secure their data in an increasingly complex digital world. When he isn’t researching, Brandon enjoys hiking, gardening, reading, and writing about food.
