Retour aux actualités
Article suivant Article précédent

Revue 169 - Big data et protection des données personnelles : un défi (quasi) impossible ?

Articles Revue TELECOM

-

15/07/2013


Big data et protection  

des données personnelles :

un défi (quasi) impossible ?



par Claire Levallois-Barth dans la revue TELECOM n° 169

Les avancées technologiques récentes ont étendu le champ des informations disponibles produites par l’individu lui-même ou par les machines.

A cet égard, le phénomène « Big data » se caractérise  par le volume des informations traitées et leur variété. Le traitement d’énormes volumes de données structurées via le datamining par les assureurs et les sociétés de télécommunications n’est pas récent.  La nouveauté réside dans l’hétérogénéité des sources et des formats de données (formes structurées ou non structurées telles que les flux d’images de caméras de vidéosurveillance). Au volume et à la variété s’ajoute également la vitesse d’analyse de la donnée et la compréhension des relations entre les données.  Ainsi, les entreprises, les administrations et les individus disposent à bas coût d’informations combinées, partagées et dupliquées.


Cette ère des données omniprésentes et de leurs usages en cours de définition interroge notre système de protection des droits fondamentaux, en particulier le droit à la protection des données personnelles.  En France, l’usage de ce type de données est règlementé par la loi Informatique et Libertés1 qui, dans sa version modifiée, transpose la directive européenne Protection des données2.

Comment cette législation s’applique-t-elle ?  Est-elle adaptée aux enjeux posés par le big data ? 



Qu’est-ce qu’une donnée « personnelle » ?

Selon l’article 2 de la loi Informatique et Libertés, la donnée personnelle concerne «  toute information relative à une per-sonne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres », étant précisé que « pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne ».

Cette définition large couvre à la fois des informations directement nominatives (nom et prénom d’une personne, son adresse postale et de courrier élec-tronique de type toto.dupond@abc.fr) et des informations indirectement nominatives : le numéro de téléphone d’un individu, sa géolocalisation, le segment comportemental qui lui est rattaché, etc. A cet égard, le Groupe de travail de l’article 29, qui regroupe l’ensemble des autorités de protection des données personnelles de l’Union européenne dont, pour la France, la Commission Nationale de l’Informatique et des Libertés (CNIL), considère que l’adresse IP est une don-née personnelle, sauf exception3.

Ainsi, dès qu’une information est « relative » de près ou de loin à un individu, elle constitue une donnée personnelle. Une piste de réflexion porte alors sur son anonymisation.


Une donnée personnelle  est-elle anonymisable ?

L’anonymisation suppose de détruire le lien entre l’information et l’identité d’une personne à travers diverses méthodes (anonymisation, pseudonymisation, chiffrement irréversible, etc.).

En pratique, la « dé-identification » est difficile à obtenir car il ne s’agit pas de considérer uniquement une information isolée mais de prendre en compte les croissements possibles entre les informations. Or, le big data, ainsi que l’open data, accroissent considérablement les possibilités de recoupement et donc d’identification d’une personne. Un cas célèbre est celui du site web collaboratif d’évaluation et de recommandation de films de la société américaine Netflix. Netflix a publié, dans le cadre d’un concours visant à améliorer son algorithme de recommandation, cent millions de données d’évaluation anonymes. Des chercheurs ont recoupé ces données avec d’autres notations de films non anonymes   : la connaissance de deux notes leur a permis d’identifier 68 % des utilisateurs. Face au risque de condamnation pour non respect de la vie privée de ces clients, Netflix a mis fin au concours.

Est-ce à dire que l’anonymat devient une impossibilité algorithmique puisque la quantité de données augmente le repérage des personnes  ? Une conclusion possible serait d’estimer que toutes les données devraient être considérées comme des données personnelles et donc relevant du champ d’application de la loi Informatique et Libertés.

Cette conclusion nous parait contreproductive. D’une part, elle inciterait les organismes à écarter l’anonymisation ce qui augmenterait les risques d’atteinte aux données personnelles, à la vie privée des individus ou à leur liberté d’expression. Or la dé-identifi-ation est devenue une composante-clé de nombreux business models, en particulier dans le domaine de la santé (on pense ici aux essais cliniques) ou de la publicité comportementale en ligne. D’autre part, une information dé-identifiée, bien que comportant un risque de ré-identification, portera toujours moins atteinte aux droits fondamentaux de la personne.

Une solution consiste à trier quasiment en tant réel les informations qui seront enregistrées pour être analysées. A cet égard, dans un avis rendu sur des panneaux publicitaires munis de caméras et de dispositifs d’analyse du comportement des passants, la CNIL considère que « même si ces données sont anonymisées à très bref délai et si seules des données statistiques sont conservées à l’issue du traitement, il n‘en demeure pas moins que celui-ci est réalisé à partir d’informations permettant d’identifier des personnes ». Dès lors, la loi Informatique et Libertés s’applique alors même que les images ne sont pas enregistrées4.


Quelles données personnelles collecter ?

Selon l’article 6 de la loi Informatique et Libertés, les données personnelles doivent être collectées et traitées pour des finalités (c’est-à-dire des usages) «  déterminées, explicites et légitimes  »  ; elles ne doivent pas être traitées ultérieurement de manière incompatible avec ces finalités. Ce principe de finalité est un préalable au principe de qualité des données. D’une part, seules les données nécessaires et pertinentes pour atteindre les finalités doivent être collectées. D’autre part, la durée de conservation des données ne doit pas excéder la durée nécessaire aux finalités pour lesquelles elles sont collectées. Passé ce délai, les données doivent être détruites. Apparaît ainsi le droit à l’oubli.

Mais que signifient ces règles dans un monde de données massives ? Dans ce monde où les utilisations possibles des informations peuvent difficilement être anticipées et où le principe d’une collecte minimaliste des données et de leur suppression est en contradiction avec la définition même du big data.

Cette difficulté pose la question du contrôle, par la personne elle-même, de ses propres données et de l’image informationnelle qui en résulte.


Quel contrôle pour la personne concernée ?

Cette question du contrôle suppose que la personne soit informée de l’existence même de la création des données. Reconnu par l’article 32 de la loi Informatique et Libertés, ce droit d’information porte aussi bien sur la collecte des données que leur utilisation5. Il est primordial car il conditionne l’exercice du droit d’accès aux données personnelles et du droit d’opposition. Soulignons que le droit d’information est allégé lorsque les données collectées sont très vite anonymisées ou lorsque les données ne sont pas recueillies directement auprès de la personne. Il est même exclu «lorsque l’information de la personne se révèle impossible ou très difficile»

Mais c’est sans nul doute le consentement qui offre – ou est supposer offrir – à la personne un véritable pouvoir6. Le consentement désigne «   toute manifestation de volonté libre, spécifique et informée  »7. Cela signifie que la permis-sion doit être fournie dans un contexte spécifique et déterminé ce qui ne corres-pond pas aux usages actuels, notamment selon la CNIL aux pratiques de Google8. On constate également que le consentement peut être biaisé. Des chercheurs ont ainsi démontré qu’en créant un simple sentiment de contrôle, la personne est encouragée à donner son autorisation, indépendamment de la question de savoir si elle a effectivement acquis un contrôle réel sur la donnée personnelle9.

Le principe de consentement est-il approprié   ? Nous pensons que oui, mais en déterminer les contours s’avère  souvent difficile. Sans doute convient-il d’élargir quelque peu la liste des exceptions dressées par la loi Informatique et Libertés en tenant compte du fait que des traitements big data peuvent poursuivre un objectif « d’intérêt général » et apporter un avantage important à l’ensemble de la société, par exemple en pré-disant des épidémies ou des accidents de voitures. En exploitant des données GPS, des chercheurs ont montré qu’ils pouvaient prédire la position d’une personne à 80 semaines, avec une précision de plus de 80 %. Mais il convient sur ce point d’être vigilant car les prédictions peuvent également permettre de déterminer et d’analyser la personnalité d’un individu, en particulier son comportement, sa situation économique. Ce faisant elles laissent entrevoir des possibilités importantes de discrimination.


 

La Chaire de recherche de l’Institut Mines-Télécom
« Valeurs et politiques des informations personnelles »


Créée en partenariat avec le Groupe Imprimerie Nationale, BNP Paribas et Dassault Systèmes, la chaire se propose d’aider les entreprises, les citoyens et les pouvoirs publics dans leurs réflexions sur la collecte, l’utilisation et le partage des informations personnelles, à savoir les informations concernant les individus (leurs vies privées, leurs activités professionnelles, leurs identités numériques, leurs contributions sur les réseaux sociaux, etc.) incluant celles collectées par les objets communicants qui les entourent (smartphones, compteurs intelligents, etc.).

La chaire regroupe une équipe pluridisciplinaire de chercheurs travaillant à la fois sur les aspects juridique de régulation et de conformité, technique de sécurité des systèmes et des données, économique de partage des informations personnelles, et philosophique de responsabilisation et d’anticipation des conséquences sociétales.

Cinq axes de recherche ont été déterminés : identités numériques, gestion des informations personnelles, contributions et traces, informations personnelles dans l’internet des objets et politiques des informations personnelles.

Pour plus d’informations : www.informations-personnelles.org


La réforme à venir

A cet égard, le profilage constitue sans nul doute l’un des principaux challenges pour la protection des libertés fondamentales car les big data fonctionnent à une échelle qui dépasse la compréhension humaine et ne permettent pas d’expliquer la base de la prédiction. Comment alors éviter qu’elles ne deviennent des boites noires en dehors de toute traçabilité et de toute responsabilité ?

C’est à cette question et bien d’autres que tente de répondre la révision de la direction Protection des données10. L’objectif est de relever les défis posés par le développement des nouvelles technologies tout en réalisant une application effective des règles que nous venons brièvement de présenter.


1 Loi n°78-17 du 6.01.1978 relative à l’informatique, aux fichiers et aux libertés, JORF 7.01.1978, p. 227 (Loi dite Informatique et Libertés).
2 Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, JOCE n° L 281 du 23/11/1995, p. 31.
3 Groupe Article 29, Avis 2/2007 sur le concept de données à caractère personnel, WP 136 adopté le 20 juin 2007.
4 CNIL, Dispositifs d’analyse du comportement des consommateurs : souriez, vous êtes comptés ! 19 avril 2010.
http://www.cnil.fr/linstitution/actualite/article/article/dispositifs-danalyse-du-comportement-des-consommateurs-souriezvous- etes-comptes-2/
5 Art. 32-I de la loi Informatique et Libertés selon laquelle responsable de traitement doit notamment informer la personne concernée de son identité, de la finalité poursuivie par le traitement, des destinataires des données et du caractère obligatoire ou facultatif des réponses. L’information doit également porter sur les transferts de données envisagés à destination d’un État non membre de la l’Union européenne.
6 Art. 7 de la loi Informatique et Libertés.
7 Art. 2- h de la directive Protection des données.
8 CNIL, 16 oct. 2012, Règles de confidentialité de Google : une information incomplète et une combinaison de données incontrôlée
9 L. Brandimarte, A. Acquisti & G. Loewenstein, Misplaced Confidences: Privacy and the Control Paradox, sept. 2010.
10 Voir Commission européenne, Preparing Data Protection Reform,
http://ec.europa.eu/justice/data-protection/review/actions/index_en.htm



L'Auteur


Claire Levallois-Barth
est docteur en droit, et coordinatrice de la Chaire de recherche de l’Institut Mines-Télécom Valeurs et politiques des informations personnelles.







    
    

265 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Quels rôles jouent les technologies numériques dans l’évolution de la médecine du travail ? Groupe Santé#196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

Le numérique au service de la décarbonisation #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

DC Brain nommé au prix de la croissance #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril