Retour aux actualités
Article suivant Article précédent

Revue 169 - De Big data à Big Brother

Articles Revue TELECOM

-

15/07/2013




De Big data à Big Brother






Entretien avec Gérard Memmi (1976), responsable du département INFRES de Télécom ParisTech.
Propos recueillis par Gérard Cambillau (1973) dans la revue TELECOM n° 169

 
Gérard MEMMI, vous dirigez une équipe de chercheurs qui travaille depuis de longues années sur le stockage des données, leurs analyses, quels sont les grands challenges des Big data  que vous étudiez ?
 
 
Tout d’abord, j’aimerais distinguer les défis de nature socio-économique des défis plus scientifiques. Parmi les premiers, je compte bien sur les réseaux sociaux, les nouveaux systèmes d’information de l’entreprise, la gestion « intelligente » des villes, des routes, des réseaux énergétiques de nos systèmes de santé, le transport multimodal et je suis sûr d’en oublier. Sur un plan plus scientifique, j’aime beaucoup la façon dont Mike Stonebraker du MIT divise d’emblée big data en ‘big volume’ et ‘big analytics’, puis de détailler les défis autour des volumes (ou des masses) de données non seulement par leur taille plusieurs ordres de grandeur supérieurs à ce qu’un ou plusieurs serveurs et son système de gestion de base de données traditionnel peut gérer ; mais également par leur vélocité c’est-à-dire la rapidité à laquelle elles sont produites (puis reproduites) et dans certains cas (où la donnée est éphémère : elle n’aura qu’une durée de vie très courte) la rapidité à laquelle le flux de données doit être traité  ; enfin à leur diversité, leur adaptation à des requêtes sql, nosql, ou encore newsql. Au département, nous nous attachons à résoudre de nombreuses questions autour de ces défis majeurs : comment résoudre efficacement des requêtes sur des données textuelles se trouvant sur divers sites web avec des performances acceptables pour l’utilisateur, comment organiser, représenter ces données peu structurées, comment représenter leur signification ou sémantique?
 
Dans le domaine des télécoms la sécurité des données est un problème critique qui ne fait que s’aggraver dans le domaine des big data qui s’accumulent et restent stockées de manière délocalisée dans nos clouds. Nous attaquons cette question avec divers outils : notion de coffre-fort de données, utilisation de la théorie des jeux afin d’évaluer la vulnérabilité d’un système,... Plus récemment, nous avons obtenu des premiers résultats en cryptographie homomorphique au sein de l’ISA notre laboratoire commun avec Morpho.
 
Un autre grand défi est la visualisation de ces immenses champs de résultats issus des ‘big analylitics’ ; comment représenter des milliers de résultats sur un écran et comment les exploiter  ? L’utilisation de toute la surface de l’écran, de couleurs ou de fontes diverses ne suffit pas bien sûr. On jouera sur différents niveaux d’abstraction des données ou encore sur de l’interaction entre l’analyste et l’écran. Pour big data, on parlera plutôt de data scientist sous-entendant des compétences approfondies en particulier en statistiques et l’art de manipuler des déluges de données et de résultats. Notons enfin que cette visualisation peut se concevoir de façon collaborative permettant à plusieurs analystes d’interagir de concert.
 
Je viens d’évoquer le fait que les données sont stockées pour longtemps dans nos clouds. Cela a pour conséquence directe que nos requêtes peuvent enquêter sur un historique plus ou moins important. Ce qui signifie que les temps de réponse de la même requête vont sensiblement s’allonger au cours du temps. L’archivage ou la ‘Data curation’ répond au besoin d’organiser le stockage des données dans le temps pour faciliter les fonctions de requêtes, repérer les extractions, regrouper les données ...c’est la fonction d’archiviste de bibliothèque que nous réinventons mais relativement à une bibliothèque de données numériques. 

Résoudre ces questions est essentiel pour l’utilisation et le déploiement des Big data. Ainsi, je me souviens que dans les années 2006-2008, lors d’une enquête sur certains historiques de maladie de patients de plus de 65 ans demeurant dans un seul état des USA, certaines requêtes scrutant leur dossier médical électronique pouvaient durer 5 à 6 jours dans un grand centre de données de l’époque. L’optimisation et la
parallelisation des requêtes est indispensable et fait partie de nos recherches.

Indiquons pour finir d’illustrer le seul domaine de la santé que Big data porte l’espoir de résoudre les verrous technologiques constitués par la masse toujours croissante de données peu structurées. Il devient maintenant possible de suivre des historiques longs d’évolution de maladie et mesurer l’impact et effets secondaires de médicaments nouveaux sur de très nombreux malades pendant longtemps de façon fiable. Enfin de participer à double titre au développement des médicaments sur mesure en permettant l’étude et la connaissance approfondie du génome, puis en permettant l’abaissement des coûts de production pour le bien du plus grand nombre.
 
Nous avons vu quelques challenges pour les chercheurs, également pour les citoyens avec les aspects santé mais qu’en est-il pour les entreprises ? Que leur apporte le Big data ?
 
C’est une véritable révolution qui se développe sous nos yeux au niveau des systèmes d’information de l’entreprise incluant de grands nombre de détails sur ses clients, fournisseurs (dois-je dire ‘amis’ ?). L’entreprise dispose de masses données qui transforme le degré de précision du marketing amont, optimise prix et campagnes de ventes, accélérant les cycles de ventes, diminuant la prise de risques dans les décisions stratégiques de l’entreprise désormais ‘connectée’ de façon constante et en temps réel à son écosystème. Production, stockage et distribution sont optimisés. Par exemple, en s’appuyant sur l’analyse des réseaux sociaux, sur les échanges de flux de données produit par l’internet des objets, une chaine de supermarchés pourra optimiser et reconnaitre les emplacements les plus favorables pour ses centres de distribution par exemple en minimisant les trajets de leur clientèle. La combinaison « internet des objets permettant capture et transport de données, cloud pour le stockage et le traitement de grands volumes de données structurées ou non, bigdata pour l’organisation, l’analyse et la visualisation de données » permettra un suivi précis des produits et de leur évolution. Cela peut s’appliquer aussi bien à la consommation d’énergie des foyers, au transport multimodal etc.
 
Tout ceci repose en particulier sur un autre défi, celui de l’authenticité des données des réseaux sociaux, la confiance que nous pouvons accorder à certains sites web. Nous modélisons ces relations de manière probabiliste dans de très grands graphes de relations sociales et élaborons des systèmes de recommandation.
 
Avec ces masses de données en expansion exponentielle, les données prennent le pouvoir ! N’avez-vous pas peur d’un tsunami, d’un BIG BANG des data centers ?
 
En fait les données sont comme les êtres humains  : elles naissent puis vieillissent et à un moment elles meurent. Elles ont leur propre cycle de vie, il faut les renouveler, les rafraîchir. Une vraie question c’est leur démographie : comment les agréger, les compacter, les archiver. Dans quelques années nous atteindrons un nombre d’octets voyageant sur l’internet de l’ordre du nombre d’Avogadro : il faudra bien se résoudre à
comprendre comment organiser et éventuellement faire dis paraitre ces données sans perdre ‘trop’ d’information.
 
Avec toutes ces données, toutes ces informations analysées et presque volées aux hommes, aux entreprises ne jouons-nous pas à BIG BROTHER ?
 
Avec toutes ces données les risques de désinformation sont réels : il m’est difficile de retrouver un ancien ami si son nom est du style ‘Jean Dupont’. Changer de nom et emprunter celui de quelqu’un de connu est une bonne façon de se cacher sur le web.

Plus sérieusement, les polices et cyberpolices américaines et françaises nous ont montré dans deux exemples récents comment l’exploitation de multiples données video a permis l’identification puis l’arrestation de suspects.
 
La capacité de croiser et traiter les données stockées par notre banquier sur nos dépenses, les compagnies électriques sur nos diverses consommations énergétiques, par les opérateurs téléphoniques sur les lieux où nous passons et les personnes avec lesquelles nous parlons, les organismes d’assurance sur nos soucis de santé pourrait ne pas laisser beaucoup de place à un espace privé nécessaire aux citoyens que nous sommes tous.
 
Nous ne sommes pas dans une situation aussi terrible que celle décrite par Orwell, cependant, nous apprenons régulièrement dans les journaux les possibilités accrues de ‘cyberespionage’ ou ‘cybersurveillance’ développées dans tel ou tel pays par tel ou tel organe de renseignement.
 
Ceci m’évoque le vieux débat sur la neutralité de la science. Bien ou mal, big data sera ce que nos gouvernants en feront. En tout cas big data apporte la promesse d’une plus grande connaissance et une meilleure observation de notre monde, avec des retombées scientifiques dans de très nombreux domaines et des applications socio-économiques innovantes qui vont transformer notre monde numérique. Nous n’avons encore rien vu.


L'auteur 

 

Gérard Memmi (1976) est professeur et chef du Département Informatique et Réseaux de Télécom ParisTech depuis 2009. Il a été nommé au CA de l’IRT SystemX en 2012, puis récemment au Conseil Scientifique de Numergy.
Gérard MEMMI est diplômé en 1976 de Télécom ParisTech. Il a soutenu une thèse de Doctorat d‘État en 1983 à l’Université Pierre et Marie Curie (Université Paris 6) dans le domaine de la vérification formelle de systèmes parallèles et temps réels. Il est l’auteur d’environ 50 publications scientifiques et techniques, dont plusieurs brevets, co-auteur et co-directeur scientifique avec Gérard ROUCAIROL d’un ouvrage sur les réseaux de Petri qui fait référence dans son domaine, et a été conférencier invité à plusieurs reprises dans des Conférences Internationales.
Aux Etats-Unis, il a été nommé Principal Investigator pour DARPA/SISTO ainsi que Conseiller au Commerce Extérieur de France, à Boston.
Au final, c’est plus de 25 années d’expérience dans l’industrie du logiciel, partagées entre la France et les États-Unis où il a occupé diverses positions exécutives dans plusieurs jeunes pousses.
historiques longs d

228 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Comment la France peut réussir dans le quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

28 juillet

Articles Revue TELECOM

ORDINATEUR QUANTIQUE ET CRYPTOGRAPHIE POST-QUANTIQUE #197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet

Articles Revue TELECOM

Editorial l'informatique quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet