Retour aux actualités
Article suivant Article précédent

Revue 169 - Télécom ParisTech lance la première formation en France dédiée au Big data

Articles Revue TELECOM

-

15/07/2013



Télécom ParisTech lance la

première formation en France

dédiée au Big data

 


par Stéphan CLEMENCON dans la revue TELECOM n° 169


Dès la rentrée 2013, Télécom ParisTech propose un Mastère Spécialisé dédié au « Big data » (Gestion et Analyse des Données Massives). Ce nouveau programme vise à enseigner les techniques récentes de gestion et d’analyse de grandes masses de données, à former ce que l’on appelle communément aujourd’hui des « data scientists ».



Une évolution aux conséquences considérables

Le phénomène « Big data » est aujourd’hui perçu comme une tendance de fond, aux conséquences sociétales et économiques considérables. L’Institut Mc Kinsey Global estime par exemple qu’elle induira le recrutement de 140 000 à 190 000 spécialistes de l’analyse des données aux États-Unis d’ici à 2018 et que l’activité de plus de 15 millions de cadres américains requerra alors des connaissances générales dans ce domaine. Le déploiement généralisé de plates-formes Hadoop permettant l’analyse de données massives non structurées, la mise sur le marché de solutions dédiées à ces analyses par les éditeurs de logiciel majeurs, le phénomène Open Data, le développement de « Clouds » et le succès de sociétés nouvelles dont l’activité repose précisément sur l’exploitation des flux de données de trafic web, laissent à penser qu’une mutation est en train de se produire. Selon les résultats d’un récent sondage publié par Capgemini, 58 % des 600 directeurs du développement et cadres du secteur IT en France ont l’intention d’investir dans des systèmes Big data comme Hadoop et MapReduce, au cours des trois prochaines années. Le concept d’une information « propriétaire », sous un format rigide standardisé, stockée dans un data-warehouse et circulant en circuit (très) fermé, semble être aujourd’hui totalement dépassé dans de nombreux domaines émergents, les Big data ne prenant leur sens et leur valeur qu’au sein d’un « écosystème » et ne pouvant être dissociés des usages et services qui sont réalisés à partir de ces derniers ou qui les génèrent.

Le phénomène « Big data » pose ainsi de nombreuses questions, relatives au développement technologique qu’il va devoir susciter, à la valeur qu’il est susceptible de créer et renvoie à des problèmes scientifiques, sociétaux et juridiques, de nature différente mais souvent entremêlés. Il appelle aussi de nouveaux programmes de formation, intégrant ses multiples facettes, les offres d’emploi relatif au métier de « data scientist » affichant une hausse spectaculaire sur le marché du travail ces dernières années.
 

Un enseignement pluridisciplinaire et directement opérationnel

Si les programmes de master recherche/ professionnel proposent naturellement des enseignements très largement issus d’une même discipline scientifique, l’informatique ou les mathématiques appliquées par exemple, le mastère spécialisé, s’adressant à un public plus aguerri (les candidats ont obligatoirement le grade de master ou peuvent se prévaloir d’un niveau équivalent acquis à travers leur expérience professionnelle), peut offrir plus aisément un enseignement pluridisciplinaire, débouchant sur un savoir-faire opérationnel. Ce type de formation est particulièrement adapté au domaine Big data, à l’interface de l’informatique et des mathématiques appliquées et appelant une vision d’ensemble stratégique pour la conception de nouveaux services et produits.

Les relations étroites avec l’industrie entretenues par Télécom ParisTech dans le domaine de la recherche, l’innovation et la formation en font un témoin privilégié de l’émergence des problématiques Big data et des besoins afférents. Les nombreux projets de recherche menés par Télécom ParisTech, en partenariat avec des industriels le plus souvent, sur des thématiques Big data (e.g. exploration des réseaux sociaux, conception de moteurs de recommandation, élaboration de systèmes décisionnels pour la détection d’attaque dans les réseaux, publicité personnalisée sur Internet) lui confèrent une légitimité certaine dans le domaine de la formation des futures générations de « data scientists ».
 

Un programme déjà porteur

La formation dispensée en vue du diplôme de mastère spécialisé « Big data » délivré par Télécom ParisTech se veut à la fois complète et progressive. La quasi-ubiquité des problématiques « Big data » s’accompagne naturellement d’une grande variété des secteurs d’activité concernés et d’une inévitable hétérogénéité des profils des candidats au mastère spécialisé. La première session de recrutement a fait apparaître trois types de profils : de jeunes diplômés en informatique, télécommunications ou mathématiques appliqués), des salariés du domaine de l’IT ayant besoin de monter en compétences et enfin des candidats à une reconversion professionnelle dans un secteur très porteur.

Le programme s’articule autour de trois champs disciplinaires et mobilise des en-seignants-chercheurs issus de plusieurs départements de recherche, principalement : le département de traitement de l’image et du signal (TSI), le département informatique & réseaux (INFRES) et le département de sciences humaines et sociales. Plus précisément, les enseignements sont répartis sur dix unités de valeur, délivrant des connaissances approfondies sur les thèmes suivants :

✔ Sécurité des systèmes d’information. Le programme couvre à la fois les aspects techniques (sécurisation des OS, des bases de données, des sites web), organisationnels/méthodologiques (évaluation/certification de la sécurité des systèmes d’information) et juridiques (loi sur l’économie).

✔ Bases de données. Cet enseignement a pour but la maîtrise progressive des systèmes de gestion de données hétérogènes, massives et semi-structurées. Partant de concepts et techniques élémentaires relatifs au modèle relationnel et au langage SQL, il aborde les notions essentielles de stockage, d’indexation, d’évaluation/optimisation/ répartition de requêtes.

✔ Données du Web. L’objectif de l’enseignement est de permettre la compréhension et l’utilisation des technologies du Web : des techniques de base (e.g. HTML, CSS, JavaScript, PHP), aux méthodes permettant d’exploiter automatiquement les données du Web. Les technologies d’informatique décisionnelle, telles que celles mises en œuvre par les moteurs de recherche et de recommandation, seront couvertes en détail : modélisation (Web sémantique, graphe du Web), extraction (wrappers), indexation (langage naturel), calcul à grande échelle (MapReduce).

✔ Machine-Learning. Le programme aborde de nombreux aspects de ce domaine, à l’interface des mathématiques et de l’informatique, dédié à l’élaboration, l’analyse et la mise en œuvre d’algorithmes permettant à une « machine » d’extraire des informations à partir de données, d’accomplir automatiquement des tâches de prédiction, d’aide à la décision ou de représentation efficace des données (indexation, compression). Le « machine-learning » constitue en effet un véritable corpus de méthodes algorithmiques, pouvant s’adapter à des données de nature différente, sur lequel repose de nombreux systèmes décisionnels. L’enseignement proposé couvre les concepts et techniques essentiels en apprentissage supervisé et non supervisé (théorie de Vapnik, support vector machines, méthodes d’agrégation, modèles graphiques) ainsi que les avancées récentes réalisées dans le domaine, motivées par les problématiques du Big data : apprentissage distribué, optimisation stochastique et apprentissage par renforcement, apprentissage multitâche, graph-mining, ranking.

 Systèmes répartis. Le programme traite en particulier de l’architecture des systèmes répartis et de leurs fonctionnalités, des grandes tendances en matière de pair-à-pair, de « Cloud » et d’informatique mobile. Il propose une étude détaillée des intergiciels (middleware), des briques technologiques et de l’algorithmique pour la construction de systèmes répartis.

 Visualisation. Il s’agira d’enseigner les techniques récentes de visualisation permettent aux utilisateurs de logiciels de mieux comprendre l’information contenue dans les grandes masses de données, ainsi que les règles de décisions complexes fondées sur ces dernières, facilitant ainsi l’interaction entre système décisionnel et utilisateur final.


Au-delà de la vision technique, la formation propose d’explorer les aspects sociétaux, juridiques et économiques du Big data :

✔ L’écosystème Big data. Le Big data, par son potentiel d’innovation multisectoriel, aura à son échelle un impact certain, forçant l’adaptation, permettant l’émergence, ou poussant vers la sortie les acteurs selon leur position et leurs gènes business. Par un mélange de modèles, d’exemples réels et de témoignages de professionnels, cet enseignement explorera comment les Big data prennent appui sur l’environnement économique en place pour le modifier.

✔ Données personnelles et économie de l’Internet. Il s’agit d’aborder des éléments d’économie de protection de la vie privée, de la réputation et des asymétries d’information ainsi que de valorisation de données sur les moteurs de recherche et les réseaux socio-numériques. Ce cours propose également une étude prospective sur les scénarios possibles autour des données personnelles et des Big data à moyen et long terme.
 

L’implication des entreprises

Au-delà des compétences reconnues de l’équipe académique de Télécom ParisTech, s’appuyant sur une activité de recherche très compétitive dans les domaines scientifiques afférents, la formation mobilisera des professionnels, issus de secteurs variés (par exemple, Internet, sécurité, Défense, finance, e-commerce, consulting), de grands groupes ou de PME innovantes. Le comité de perfectionnement du mastère spécialisé Big data compte en particulier des représentants de Thalès, du groupe Safran, d’EADS, de Capgemini, de SAS, de Criteo, d’IBM et de Liligo. Les correspondants de nos partenaires industriels interviendront lors de séminaires et des séances de cours ou de travaux pratiques mais participeront également à l’élaboration et à l’encadrement de projets « fil rouge », réalisés en groupe en parallèle avec les cours tout au long du cursus, autour d’une problématique industrielle.

La synergie entre les équipes académiques de Télécom ParisTech et le monde industriel s’incarne aussi à travers des projets de chaires industrielles étroitement liées au phénomène Big data : « Machine-Learning for Big data », « E-commerce & Big data » et « Valeurs et Politiques des Informations Personnelles» (cette dernière ayant démarré au printemps 2013). Elle garantira à n’en pas douter le succès de cette nouvelle formation. 


L'Auteur


Stéphan Clémençon
est Professeur à Télécom-ParisTech, Institut Mines-Télécom. Il effectue ses travaux de recherche en mathématiques appliquées au LTCI UMR Télécom ParisTech/CNRS No. 5141. Ses thématiques de recherche se situent principalement dans les domaines du machine-learning, des probabilités et des statistiques. Il est responsable du Mastère Spécialisé Big data à Télécom ParisTech ainsi
que du projet de chaire industrielle « Machine-Learning for Big data ».

198 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Revue TELECOM 195 - 5G : une révolution numérique des télécoms ?

User profile picture

Melina LAURICELLA

16 janvier

Articles Revue TELECOM

Revue TELECOM 195 - Dans la lumière Brune

User profile picture

Rédaction Revue TELECOM

15 janvier

Articles Revue TELECOM

Revue TELECOM 195 - Onboarding, intégration, rétention... what for ?

User profile picture

Rédaction Revue TELECOM

15 janvier