L’anonymisation des données est une méthode de nettoyage des informations, qui consiste à supprimer ou à chiffrer les données personnelles identifiables dans un ensemble de données. L’objectif est de garantir la confidentialité des informations du sujet. L’anonymisation des données minimise le risque de fuite d’informations lorsque les données franchissent les frontières. Il maintient également la structure des données, permettant l’analyse post-anonymisation.
Le règlement général sur la protection des données (RGPD) de l’Union européenne exige la pseudonymisation ou l’anonymisation des informations stockées sur les personnes vivant dans l’UE. Les ensembles de données anonymisées ne sont pas classés comme données personnelles et ne sont donc pas soumis aux règles du RGPD. Cela permet aux organisations d’utiliser les informations à des fins plus larges tout en restant conformes et en protégeant les droits des personnes concernées.
L’anonymisation des données est également un élément essentiel des exigences HIPAA. HIPAA est une réglementation américaine régissant l’utilisation des informations privées sur la santé (PHI) dans le secteur de la santé et ses partenaires.
Cela fait partie de notre série d’articles sur le masquage des données .
Dans cet article:
Les informations fournies dans cet article et ailleurs sur ce site Web sont uniquement destinées à une discussion éducative et ne contiennent que des informations générales sur des questions juridiques, commerciales et autres. Il ne s’agit pas d’un avis juridique et ne doit pas être traité comme tel. Les informations contenues sur ce site Web peuvent ne pas constituer les informations juridiques ou autres les plus récentes.
Les informations contenues dans cet article sont fournies « telles quelles » sans aucune représentation ou garantie, expresse ou implicite. Nous ne faisons aucune déclaration ou garantie concernant les informations contenues dans cet article et toute responsabilité concernant les actions prises ou non sur la base du contenu de cet article est expressément déclinée.
Vous ne devez pas vous fier aux informations contenues dans cet article comme alternative aux conseils juridiques de votre avocat ou d’un autre fournisseur de services juridiques professionnels. Si vous avez des questions spécifiques sur une question juridique, vous devriez consulter votre avocat ou un autre prestataire de services juridiques professionnel.
Cet article peut contenir des liens vers d’autres sites Web tiers. Ces liens sont uniquement destinés à la commodité du lecteur, de l’utilisateur ou du navigateur ; nous ne recommandons ni n’approuvons le contenu de sites tiers.
Les cas typiques d’anonymisation des données incluent :
Performance de l’entreprise : les grandes organisations collectent souvent des informations relatives aux employés pour augmenter la productivité, optimiser les performances et améliorer la sécurité des employés. En utilisant l’anonymisation et l’agrégation des données, ces organisations peuvent accéder à des informations précieuses sans que les employés se sentent surveillés, exploités ou jugés.
Tous les ensembles de données ne doivent pas nécessairement être anonymisés. Chaque administrateur de base de données doit identifier quels ensembles de données doivent être rendus anonymes et quelles données peuvent conserver en toute sécurité leur forme originale.
Choisir les ensembles de données à anonymiser peut sembler simple. Or, les « données sensibles » sont une notion subjective qui évolue selon les individus et les secteurs. Par exemple, les informations de contact peuvent être considérées comme impersonnelles pour le responsable d’une agence de marketing, mais elles peuvent être considérées comme très sensibles par le personnel de sécurité.
La plupart des normes de conformité et des politiques organisationnelles conviennent que les informations personnelles identifiables (PII) doivent être traitées comme des données sensibles et stockées en toute sécurité. Ces informations constituent donc un candidat idéal pour l’anonymisation. Cela laisse encore une certaine marge d’interprétation, car les informations personnelles peuvent signifier différentes choses selon les secteurs, et il y a également un débat autour de la définition juridique des informations personnelles dans différents territoires.
Il existe un large consensus sur le fait que certaines données sont considérées comme des informations personnelles, quelle que soit l’influence juridique ou industrielle. Ceci comprend:
Questions de sécurité : ces ensembles de données sont également des identifiants clés. De nombreux services logiciels et applications Web utilisent ces questions comme une étape vers l’octroi de l’accès aux utilisateurs. Compte tenu de cela, il est important de les chiffrer.
Voici les techniques courantes que vous pouvez utiliser pour anonymiser les données sensibles.
Le masquage des données consiste à autoriser l’accès à une version modifiée de données sensibles. Ceci peut être réalisé en modifiant les données en temps réel, au fur et à mesure de leur accès (masquage dynamique des données), ou en créant une version miroir de la base de données avec des données anonymisées (masquage statique des données). L’anonymisation peut être effectuée via une gamme de techniques, notamment le cryptage, le brassage de termes ou de caractères ou la substitution de dictionnaire.
La pseudonymisation est une méthode de désidentification des données. Il remplace les identifiants privés par des pseudonymes ou de faux identifiants, par exemple, le nom « David Bloomberg » peut être remplacé par « John Smith ». Cela garantit la confidentialité des données et la précision statistique.
La généralisation nécessite d’exclure certaines données pour les rendre moins identifiables. Les données pourraient être transformées en une plage de valeurs avec des limites logiques. Par exemple, le numéro de maison à une adresse spécifique peut être omis ou remplacé par une plage comprise entre 200 numéros de maison et la valeur d’origine. L’idée est de supprimer certains identifiants sans compromettre l’exactitude des données.
L’échange de données, également appelé brassage ou permutation de données, réorganise les valeurs des attributs de l’ensemble de données afin qu’elles ne correspondent pas aux informations initiales. Changer de colonne (attributs) comportant des valeurs reconnaissables, y compris la date de naissance, peut grandement influencer l’anonymisation.
La perturbation des données modifie légèrement l’ensemble de données initial en utilisant des méthodes d’arrondi et du bruit aléatoire. Les valeurs utilisées doivent être proportionnelles à la perturbation employée. Il est important de sélectionner soigneusement la base utilisée pour modifier les valeurs d’origine : si la base est trop petite, les données ne seront pas suffisamment anonymisées, et si elle est trop grande, les données risquent de ne pas être reconnaissables ou utilisables.
Les données synthétiques sont des données produites de manière algorithmique sans lien avec un cas réel. Les données sont utilisées pour créer des ensembles de données artificiels plutôt que d’utiliser ou de modifier l’ensemble de données d’origine et de compromettre la protection et la confidentialité.
Cette méthode de données utilise des systèmes mathématiques basés sur des modèles ou des caractéristiques de l’ensemble de données d’origine. Des régressions linéaires, des écarts types, des médianes et d’autres méthodes statistiques peuvent être utilisées pour créer des résultats synthétiques.
Satori est la première plateforme DataSecOps qui effectue une classification automatisée et continue des données et une découverte de données sensibles. Cela se fait sans ajouter d’objets de base de données et permet de découvrir immédiatement de nouvelles données sensibles, plutôt que lors d’une analyse planifiée.