Retour aux actualités
Article suivant Article précédent

Revue 169 - Une Sécurisation des Big data est-elle envisageable ?

Articles Revue TELECOM

-

15/07/2013



Une Sécurisation des Big data

est-elle envisageable ?

 



par Tarik Moataz dans la revue TELECOM n° 169
 

Nous vivons dans une ère informatique nouvelle, dominée par des entreprises telles que google, facebook, Yahoo, Amazon… Ces géants comptent dans leurs portefeuilles des millions d’utilisateurs qui s’échangent au quotidien des photos, des vidéos ou des documents sans limites ! Ainsi, des térabits de données se transmettent chaque jour, et l’on estime leur augmentation de 40 à 60 % annuelle. pour exemple, sur le fameux réseau social facebook, l’ensemble des données augmente de 15 térabits par jour. Ces données sont en grande partie des données personnelles des utilisateurs, stockées sur des serveurs externalisés et sollicitées autant que souhaité. Se pose alors la question importante de savoir si nos données sensibles sont sécurisées sur la toile.


Les Big data désignent des données volumineuses de n’importe quel type (données structurées, mi-structurées ou non structurées) et pouvant provenir de différentes sources (temps réel, lot, flux de données...). La voluminosité de ces données implique un besoin de stockage croissant et des algorithmes de traitement améliorés afin de garder l’aspect temps réel des applications. Actuellement de nombreuses études ont réussi à simplifier cette problématique grâce à l’introduction de nouvelles structures de données et de nouveaux concepts de recherche. On a assisté notamment à l’avènement du “No-sql”, une nouvelle approche qui se détache de l’aspect transactionnel connu sous les fondements « ACID(1) » des bases de données relationnelles RDBM pour adopter une nouvelle notion « CAP(2) ». Les Big Tables et Hbase représentent actuellement les bases « no-sql » les plus utlisées. Ces Big data, bien qu’utiles et dans l’air du temps et des besoins actuels ; ne bénéficient pas d’un niveau de sécurité satisfaisant. En effet, les algorithmes de sécurité efficaces dans le cas de faibles données deviennent vite inadaptés en face des Big data. La suite de cet article s’intéressera à la sécurisation des Big data, à travers la confidentialité des données externalisées.
 

Ce que les utilisateurs peuvent ignorer ...

L’externalisation des données est une nouvelle tendance dans le domaine de l’informatique qui a atteint son sommet avec l’arrivée du Cloud Computing. Or, l’utilisateur qui a tendance à stocker ses données sensibles dans le Cloud ignore souvent le revers de l’utilisation de ce service qui ne représente pas toujours une entité de confiance.

En effet, ces serveurs peuvent être considérés « mi-honnêtes » dans le sens où ils réalisent correctement toutes les opérations qui leur sont demandées, mais toutefois gardent et utilisent toutes les informations reçues ou stockées afin d’avoir accès aux données de l’utilisateur.

Pour sécuriser les données sensibles (documents, emails, localisation...), l’utilisateur peut les chiffrer afin de préserver sa confidentialité vis à vis du serveur. Cependant, une fois que les données chiffrées sont externalisées, le serveur voit le champ d’opérations sur ces données chiffrées rétrécir et ainsi annuler l’utilité de base de l’externalisation. L’une des opérations primordiales sur ces données consiste à rechercher des données dépendantes de la contenance du mot-clé cherché par l’utilisateur. En chiffrant les documents, l’utilisateur devra télécharger en local l’ensemble de ces données, les déchiffrer pour ensuite effectuer sa recherche. Cette manœuvre n‘est donc pas pratique et peut très vite devenir gourmande en temps de calcul en cas de grandes quantités de données, ce qui est le cas des Big data. Elle peut également limiter la bande passante entre le serveur et l’utilisateur ou ne pas aboutir, faute de ressources suffisantes côté utilisateur.

Un monde de recherche riche d’innovations

Les travaux de Gentry ont prouvé l’existence de mécanismes de chiffrement complètement homomorphes qui permirent de résoudre ce dilemme, malheureusement, les techniques proposées restent inapplicables en pratique car bien trop coûteuses. Par ailleurs, de nombreux concepts sont apparus afin de résoudre cette problématique. On peut citer par exemple “Oblivious RAM” et “PIR” dont l’application se limite au cadre théorique à cause de leur grande complexité. En réduisant le champ d’application à un cadre plus spécifique, les chercheurs ont réussi à mettre au point un nouveau concept permettant la résolution de ce problème. Le « chiffrement cherchable » (Searchable encryption), introduit au début du vingt-et-unième siècle, permet d’effectuer des recherches par mot clé sur des documents chiffrés. Cette solution permet de mettre en œuvre un processus complet de recherche sécurisée incluant une requête chiffrée et un calcul, côté serveur, sans fuite d’informations liées au contenu des données ou de la requête. La faisabilité pratique du chiffrement cherchable sur les Big data représente un très grand avantage vis-à-vis des autres solutions.
 

Zoom sur le chiffrement cherchable

Différents travaux de recherche avaient pour objectif de résoudre la problématique de sécurisation des données externalisées en rendant la recherche possible. Ils restèrent cependant sans concrétisation jusqu’à l’an 2000. Dawn Song, David Wagner et Adrien Perrig étaient les premiers à proposer un schéma de chiffrement cherchable. Ce dernier permet d’effectuer des recherches ciblées sur des documents chiffrés en ne récupérant que les documents voulus. Ces chercheurs ont aussi présenté les bases de tout schéma de chiffrement cherchable en définissant ses trois piliers de sécurité : 

✔ la recherche contrôlée : le serveur ne peut retrouver aucune information sans l’autorisation de l’utilisateur,

✔ les requêtes cachées : l’utilisateur envoie des requêtes sans révéler aucune information sur le contenu,
✔ les requêtes isolées : le serveur n‘apprend rien sur le contenu caché des requêtes.

Le chiffrement cherchable se compose de deux phases conceptuelles : la phase de stockage c’est-à-dire quand les données chiffrées sont stockées sur serveur externalisé, et la phase de recherche lorsqu’une requête chiffrée est envoyée au serveur pour récupérer les documents chiffrés.
 

Durant la phase de recherche, l’utilisateur envoie une requête chiffrée au serveur. Cette requête présente un chiffrement spécial du mot-clé que l’utilisateur cherche à trouver dans ses documents chiffrés. Le serveur va chercher tous les documents qui contiennent le mot chiffré sans savoir ni le contenu de la requête, ni le contenu des documents. Finalement, le serveur envoie tous les documents qui correspondent à la requête à l’utilisateur. En pratique, le chiffrement cherchable a plusieurs applications et peut être appliqué à tous les systèmes de stockage de données externalisées.
 

Un monde de recherche riche par ses challenges

Appliquer le chiffrement cherchable sur des données volumineuses reste un grand défi. En effet, la complexité de recherche a été améliorée durant ces dix dernières années pour atteindre le minimum optimum en 2006 par les travaux de Reza Curtmola. Cette complexité reste comparable à une recherche sur des données en clair. En revanche, il reste un point problématique dans cette méthode : la phase “off-line” du chiffrement cher-chable qui, dans le cas des données volumineuses non-structurées ou non-textuelles, va impliquer l’invocation d’algorithmes d’indexation et de création de tags. Cette étape d’indexation est souvent négligée dans les travaux actuels dans la mesure où aucune étude théorique ou expérimentale n‘a été réalisée jusqu’à présent. Dans un contexte où l’utilisateur est considéré un point final avec une capacité de calcul limitée, une telle phase va créer un problème pratique énorme à l’utilisateur. D’autre part, les schémas de chiffrement actuels sont limités à la recherche de mots uniques, c’est-à-dire, que l’utilisateur ne peut chercher qu’un seul mot à la fois. Cette problématique a été résolue en 2012 par les travaux de Tarik Moataz et Abdullatif Shikfa en offrant la première construction de chiffrement cherchable booléen. Néanmoins une grande partie des options de recherches devrait être étudiée afin qu’un déploiement à grande échelle soit envisageable.

Le chiffrement cherchable représente une solution pratique permettant de maintenir la confidentialité de l’utilisateur tout en lui permettant de bénéficier de l’utilité de l’externalisation des données. Plusieurs recherches s’appuient sur ce schéma pour le faire évoluer et parvenir à une solution de sécurisation tournée vers le futur : Les Big data ! 

 

1 Atomicité, cohérence, isolation et durabilité, propriétés nécessaires pour une transaction informatique fiable
2 Théorème de CAP ou de Brewer. Cohérence, disponibilité et résistance aux morcellements, trois propriétés qui ne pourraient coexister tous dans un système distribué.


 
L'Auteur


Ingénieur Telecom Bretagne promotion 2012 obtenant la même année un Master de recherche de l’Irisa dans le domaine de la sécurisation des infrastructures informatiques Tarik Moataz est actuellement doctorant en première année en cot-tutelle entre Telecom Bretagne et Colorado State University. Ses travaux actuels dans le domaine de la cryptographie appliquée s’orientent vers la sécurisation des Big data. Distinctions : • Prix Talents Croisés 2013 du meilleur stage dans la catégorie Informatique – Télécommunication – High-Tech • 2ème prix du meilleur stage de la Fondation Telecom 2013 (stage réalisé à Alcatel-Lucent, Bell Labs France).

263 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Quels rôles jouent les technologies numériques dans l’évolution de la médecine du travail ? Groupe Santé#196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

Le numérique au service de la décarbonisation #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

DC Brain nommé au prix de la croissance #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril