Retour aux actualités
Article suivant Article précédent

Revue 169 - Big data : une nouvelle science des données

Articles Revue TELECOM

-

15/07/2013



Big data : une nouvelle

science des données




par Eric MOULINES (86) dans la revue TELECOM  n° 169
 

Un demi-siècle après l’apparition des ordinateurs les données s’accumulent à un rythme frénétique. le monde est inondé d’informations de toute sorte, et la collecte d’informations est en croissance exponentielle. De nouvelles disciplines émergent pour répondre à ce phénomène non anticipé.

 

 



Le défi des Big data

Le terme Big data est apparu dès la fin des années 1990, tout d’abord dans les laboratoires d’astronomie, puis de sciences du vivant. Ce concept s’est rapidement étendu à pratiquement l’ensemble des domaines de l’activité humaine. L’univers numérique est en constante expansion. Prenons comme exemple l’astronomie. Lorsque le « Sloan Digital Sky Survey » a débuté en 2000, son télescope au Nouveau-Mexique a recueilli plus de données en 5 semaines que l’ensemble des informations collectées dans toute l’histoire de l’astronomie. A la fin 2011, il avait recueilli plus de 140 téraoctets d’information. Son successeur, le « Grand Synoptic Survey Telescope » au Chili, qui devrait entrer en service en 2016, sera capable d’acquérir la même quantité de données tous les cinq jours. Sur le marché EURONEXT, environ 1,5 millions de transactions sont enregistrées quotidiennement, dont environ 70 % sont effectués par trading algorithmique basés sur des modèles mathématiques permettant d’élaborer des stratégies haute fréquence. Google traite plus de 24 pétaoctets de données par jour, un volume qui est mille fois plus important que l’ensemble des documents imprimés rassemblés dans la Bibliothèque du Congrès américain. Facebook collecte sur son réseau social plus de 10 millions de nouvelles photos chaque heure. Les membres de Facebook cliquent sur un bouton « iLike » ou laissent un commentaire près de trois milliards de fois par jour. Pendant ce temps, les 800 millions d’utilisateurs qui visitent chaque mois YouTube téléchargent chaque seconde plus d’une heure de vidéos. Le nombre de messages sur Twitter croît à environ 200 pour cent par an et a dépassé 150 millions de tweets par jour à la fin 2012.

De l’astronomie aux sciences du vivant, du commerce à la santé, de la finance à l’Internet, les secteurs et les applications sont différentes mais tous ensembles, la même révolution est en train de se réaliser : la quantité de données dans le monde explose !

Le Big data marque le début d’une transformation majeure, qui va affecter de façon profonde l’ensemble des secteurs de l’économie et de la recherche scientifique. Tout comme le télescope nous a permis de comprendre l’univers et le microscope électronique la structure de la matière, les nouvelles techniques de collecte et d’analyse d’énormes quantités de données vont bouleverser nos sociétés d’une manière que nous commençons tout juste à entrevoir. La vraie révolution n’est pas uniquement dans les architectures informatiques de stockage et de traitement de l’information mais dans les données elles-mêmes et les immenses promesses que recèle leur utilisation.

Les Big data sont traditionnellement décrites par trois caractéristiques (les trois V) : la Volumétrie (les volumes de données créées ou manipulées en 2013 auront dépassé1 les 4 zeta-octets -1021- soit une augmentation de 48 % sur 2011), la Variété (données structurées, texte, parole, image, vidéo, données issues des réseaux sociaux, des capteurs et des mobiles) et la Vélocité (données arrivant en flux ou devant être traitées en « temps réel », jusqu’à des nanosecondes). Les pure players du web (Google, Facebook, eBay, Amazon) ont été les pionniers, mais de très nombreuses opportunités apparaissent désormais pour toutes les entreprises. Pour traiter ces masses de données, il faut mettre en place des architectures de 3ème génération intégrant infrastructures, algorithmes, appareils mobiles et applications qui, servant des milliards d’utilisateurs, génèreront, à travers de très nombreuses applications, des dépenses qui devraient atteindre 10 milliards de dollars en 2013 et 20 en 2016.

Les grandes tendances de la recherche en Big data portent sur des méthodes innovantes de traitement et d’analyse sur toute la chaîne de valeur de la donnée : collecte, indexation, stockage, gestion, exploitation, valorisation, accessibilité, visualisation. Les mécanismes de collecte, d’intégration de données multisources, de distribution des données et des calculs (Map/Reduce), dans des environnements Cloud, nécessite le développement et l’optimisation de nouvelles techniques ou le portage d’algorithmes existants pour le traitement et l’analyse des données. Le développement d’applications verticales intégrées, accessibles sur tous supports mobiles et commercialisables en mode SaaS sera un des axes principaux de valorisation. Pour garantir l’acceptabilité des applications par les utilisateurs, de nombreux travaux s’intéressent aux mécanismes de protection de la vie privée.
 

Apprentissage et Big data

Le travail que nous menons à Télécom ParisTech au sein de l’équipe STA porte principalement sur l’apprentissage. L’enjeu de l’apprentissage statistique dans le domaine du Big data est de traiter, d’analyser, d’exploiter les données de plus en plus nombreuses et complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions et à optimiser leur modèle d’organisation et de gouvernance, mais aussi pour aider les scientifiques à repousser les frontières de la connaissance.

La « valorisation » de ces immenses ensembles de données passe par la mise en œuvre de méthodes d’analyse sophistiquées, combinant des approches issues de :

✔ l’inférence statistique classique : régression linéaire et non linéaire, analyse de la variance, mais aussi des méthodes plus modernes comme les arbres de régression et de classification et les modèles linéaires généralisés, les modèles à effets aléatoires,

✔ des statistiques non-paramétriques : régression fonctionnelle par splines, polynômes locaux, ondelettes, krigeage, réseaux de neurones,

✔ des méthodes de représentation et de traitement des données structurées permettant de modéliser des dépendances entre les observations, voire à les lier avec des données latentes qui ne sont pas directement observées, comme des « classes » ou des « régimes » : chaînes de Markov cachées, processus gaussiens, modèles graphiques, etc.,

✔ des méthodes d’apprentissage statistique : classification non supervisée, clustering, apprentissage par renforcement, bandits multibras, systèmes de recommandation, méthodes séquentielles.

Le volume des problèmes à traiter, la variété des données, la vitesse d’acquisition et de prise de décision constituent de véritables défis scientifiques, qui sont au cœur de la « révolution » du Big data. De la conception des modèles d’analyse jusqu’à la mise en œuvre des algorithmes d’inférence, le passage à l’échelle est devenu l’élément essentiel.

La grande dimension requiert de réviser de façon fondamentale la théorie classique de l’inférence statistique : celle-ci est basée sur une asymptotique dans le nombre d’exemples mais pour des modèles de complexité relativement limitée : en prenant l’analogie d’un tableur, des tableaux qui peuvent être « longs » car comportant un nombre important d’enregistrements mais pas « larges » car les variables explicatives sont peu nombreuses. Le CTO de Google rapporte que le nombre d’observations dans des modèles de régression traités par Google est en moyenne de 100 milliards (avec une médiane de 1 milliard) et que le nombre de variables explicatives est en moyenne de 1 milliard (médiane 10 millions).

La complexité et la variabilité des données obligent de redéfinir la notion même de modèles statistiques et de leur utilisation. L’approche statistique classique est basée sur l’utilisation d’un ensemble de modèles stochastiques relativement simple permettant d’expliquer des observations. On parle de modèle « génératif », au sens où ces modèles décrivent les observations comme une réalisation d’une famille de lois de probabilités, dépendant de paramètres. Le nombre de modèles en « compétition » pour un ensemble de données est relativement limité, et il est possible de « calibrer » ces différents modèles sur l’ensemble des données, puis de choisir le modèle le plus approprié soit en « testant » le modèle sur des exemples extraits des données et non utilisés pendant l’apprentissage (par des méthodes de validation croisée ou de bootstrap) soit en utilisant des méthodes de pénalisation appropriées (qui permettant de prédire la performance sur un ensemble d’observations de test à partir du risque mesuré sur l’ensemble d’apprentissage).


Dans le cadre du Big data, une telle approche est prohibée : la variété et la très grande dimensionnalité des modèles, la complexité des procédures d’inférence sont telles qu’il est indispensable d’approcher de façon simultanée l’estimation des paramètres et le choix des modèles statistiques. Dans ce contexte, la mise en œuvre de méthodes permettant de contraindre la recherche à des solutions « parcimonieuses » est devenue un paradigme absolument central, car dans la plupart des problèmes, le nombre de variables explicatives réellement pertinentes est limité. Pour le profane cette quête peut s’apparenter un peu à la recherche d’une aiguille dans une botte de foin ! Les algorithmes utilisés permettent de retrouver cette information cachée sont basées sur des méthodes sophistiquées de régularisation par des pénalisations convexes « non-lisses », dont l’importance a explosé au cours de la dernière décennie.

 

Les data scientists : les quants des années 2020

Dans les années 1990 à Wall Street, les analystes quantitatifs (quants) formés dans les meilleures universités américaines s’arrachaient à prix d’or. Les « Quants » développaient des stratégies d’arbitrage et de gestion du risque, basés sur des modèles mathématiques sophistiqués et éclairaient les choix des traders. Il y a tout lieu de penser, qu’à l’ère du Big data, les entreprises et les laboratoires soient désormais en recherche d’experts capables de traiter le déluge de données et d’en tirer toute la quintessence décisionnelle et managériale : c’est ainsi que le besoin en Data Scientist, le quant des années 2010, est né !

Ce concept de Data Scientist est apparu à la fin des années 2000 et s’est forgé à partir du concept de « Data Science » lui-même formé à partir de « Computer Science »). Dans les entreprises, les Data Scientists développent de nouveaux paradigmes d’extraction de l’information, décryptent à l’aide de modèles statistiques élaborés des structures souvent cachées et ignorées : ils développent aussi des stratégies en matière de portefeuille produits, de stratégie marketing et commerciale et orientent dans leur processus de décision. Ils jouent auprès des décideurs le rôle des quants auprès des traders.

Dans les laboratoires, les data scientists permettent de définir de nouveaux paradigmes d’acquisition de la connaissance : ils procèdent en renversant le cycle classique de la création des savoirs, qui part la plupart du temps d’un modèle, une abstraction de la réalité, construite de façon inductive à partir de connaissances existantes, suivi d’une validation expérimentale. Le data scientist pratique un nouveau genre de maïeutique, à l’inverse de l’approche inductive, il découvre les modèles à partir du déluge des données elles-mêmes.

Les Data Scientists apparaissent aujourd’hui comme des acteurs fondamentaux dans les entreprises et les laboratoires : ils sont le chaînon essentiel qui permet de transformer en connaissance et prise de décision le déluge informationnel. Les Écoles d’ingénieurs et Télécom ParisTech sont idéalement placées pour répondre à cette demande. 
 

1 Frank Gens. IDC Predictions 2013: Competing on the 3rd Platform. IDC #238044, Volume 1. November 2012. http://www.idc.com/research/Predictions13/downloadable/238044.pdf.


L'Auteur


Eric Moulines (86)
est ingénieur général du corps des mines.
Après avoir obtenu son doctorat au Centre National de Recherche en Télécommunications à Lannion (1986-1990), il a rejoint Télécom- ParisTech en 1990 comme maître de conférences. Il occupe depuis 1996 un poste de professeur. Ses domaines de recherches sont centrés autour des statistiques et ces applications aux domaines des télécommunications : il s’intéresse plus particulièrement à la modélisation stochastique, à la simulation numérique, et à l’inférence de modèles graphiques. Il a reçu la médaille d’argent du CNRS en 2010 et le prix « France Télécom » de l’Académie des Sciences. Il est auteur de plus de 100 articles dans des revues internationales avec comités de lecture, et de 200 articles dans des conférences internationales.

507 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Comment la France peut réussir dans le quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

28 juillet

Articles Revue TELECOM

ORDINATEUR QUANTIQUE ET CRYPTOGRAPHIE POST-QUANTIQUE #197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet

Articles Revue TELECOM

Editorial l'informatique quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet