Retour aux actualités
Article suivant Article précédent

Revue 169 - Soif de données ? Les sourceurs arrivent

Articles Revue TELECOM

-

15/07/2013



Soif de données ?


Les sourceurs arrivent

 



par François Bancilhon dans la revue TELECOM n° 169


La donnée devient de plus en plus importante dans tous les processus de décision. Chaque entreprise ou organisation la produit et la récolte. Le travail de récolte, réalisé à l’origine par l’utilisateur lui-même devient de plus en plus technique et complexe et va être pris en charge par des spécialistes : les sourceurs de données.

La prise de conscience de l’importance des données 

Les mots à la mode : « open data », « big data », « dataviz », « data journalisme », « data analytics » et « data science », ont en commun un mélange latino-anglosaxon peu gouteux, mais surtout un mot commun : data. Et le sujet essentiel de cette mode est là : la prise de conscience par l’ensemble des acteurs économiques, timal, réagir à un changement : toutes ces actions ou décisions supposent de la donnée. Ce phénomène n’est pas nouveau : la gestion comptable d’une entreprise, la production des statistiques d’un état, la commande optimale d’un système électronique, la prédiction des ventes de la grande distribution, la gestion des stocks, et le contrôle du trafic routier existent depuis longtemps et fonctionnent en consommant de la donnée.

Juger une stratégie, évaluer la performance d'une entreprise, faire un choix optimal, réagir à un changement : toutes ces actions ou décisions supposent de la donnée. Ce phénomène n'est pas nouveau : la gestion comptable d'une entreprise, la production des statistiques d'un état, la commande optimale d'un système électronique, la prédiction des ventes de la grande distribution, la gestion des stocks, et le contrôle du trafic routier existent depuis longtemps et fonctionnenet en consommant de la donnée.

Mais le phénomène s’est récemment largement amplifié (taille) complexifié (diversité) et accéléré (vitesse) sous la double action de l'explosion de la demande et de l'offre de données.



La soif de données : production et collection

Toutes les organisations humaines, donc les entreprises et les organismes publics, sont concernées par les données : elles en consomment, elles en produisent, et elles en collectent. Elles en produisent dans leur fonctionnement normal (toute activité organisée est productrice de données). Elles en collectent, soit parce que ces données sont indispensables à leur fonctionnement, soit parce qu’elles leur permettent de fonctionner mieux ou plus efficacement.

Production de données : Twitter, Facebook, Baidu, Google, Linkedin, Foursquare et Viadeo ont comme actif principal des données qu’ils recueillent, puis qu’ils valorisent par un modèle économique spécifique. La BNP, Carrefour, la SNCF et EDF, génèrent et manipulent une grande quantité de données, données qui peuvent constituer un actif (mais pas leur actif majeur) s’ils les exploitent intelligemment. La Sécurité Sociale, les organismes médicaux et Pôle Emploi produisent, recueillent, gèrent et utilisent des masses de données. D’autres organisations n’ont qu’une activité de production de données marginale, mais le simple fait de tenir sa comptabilité, de gérer la liste de ses clients, de ses employés ou de ses fournisseurs est une opération de collecte et maintenance de données. 60% des entreprises françaises ont un site Web : les données de fréquentation du site sont des données valorisables.

Collection de données : Les sociétés d’études de marché, les cabinets d’analyse et les instituts de sondage font du recueil de données l’essentiel de leur activité. De nombreuses entreprises constituent des fichiers marketing de leurs cibles potentielles, réunissent des données sur la concurrence, sur l’environnement économique, et sur les meilleures zones géographiques ou segment thématique à cibler. Toute construction d’un plan d’affaires commence par une collecte de données plus ou moins approfondie. Les réalisateurs d’opérations immobilières, les services marketing, les responsables stratégiques, recueillent de données sur lesquelles baser leurs études. De nombreuses start-ups Internet (de l’immobilier ou de la comparaison de prix) construisent des modèles économiques basés sur de la donnée. La plupart des applications mobiles sur Smartphones (tourisme, spectacle ou transports) utilisent de façon massive des données qui doivent en général être recueillies.
 

La séparation de la donnée de son utilisation

De même que dans la plupart des entreprises, c’est la même entité qui collecte et qui utilise, dans de nombreuses applications, la donnée et l’application l’utilisant forment un tout fermé et indivisible. Mais cela est en train de changer.

Prenons l’exemple du feu rouge intelligent : c’est une application qui gère des capteurs à un carrefour, capteurs qui connaissent donc l’arrivée et le passage des véhicules. L’application utilise les données des capteurs pour contrôler le feu tricolore selon des critères définis. Telle quelle, c’est une application utile et fonctionnelle, mais sa portée est limitée. Séparons maintenant la donnée de l’application. D’un côté les données fournies par les capteurs et mises à disposition de tous par exemple par un site web, ou sur celui de Pachube, de l’autre l’application qui se sert de ces données pour gérer le feu tricolore. L’application de contrôle du feu utilise les données disponibles et tout fonctionne comme avant. Mais les données étant ouvertes, d’autres applications peuvent être construites au-dessus de ces mêmes données : une carte animée montrant le passage des voitures, un outil de mesure du trafic dans la région ou le quartier, etc.

Même chose avec les entrées et sorties dans un parking, avec la mise à disposition des données chaudes du transport par la RATP et la SNCF, des données Velib et Autolib, de la température ambiante, des capteurs de mesure de pollution, etc. Donc la séparation données/application est ce qui libère le potentiel de la donnée.

L’idée de l’ouverture des données est que de la mise à disposition de la donnée vont jaillir 1000 idées de son utilisation. Donc quand nous mettons à disposition les données du feu rouge intelligent, nous ne pouvons pas prévoir l’usage qui va en être fait. C’est la sérendipité du processus qui en fait la force. Cela s’oppose bien entendu au principe de finalité, prôné par exemple par la CNIL : « dites-moi pourquoi vous voulez cette donnée et je vous dirai si cet usage est légitime et si vous pouvez l’avoir ». Un véritable changement de paradigme est nécessaire ici, et la donnée doit être ouverte, sans que la finalité soit établie.
 

Un nouveau métier : sourceur de données

La situation actuelle la plus courante dans les entreprises est que le recueil est fait en interne. Donc la même entité recueille et utilise la donnée. Nous voyons cependant apparaitre les limites de ce modèle : les données nécessaires sont de plus en plus importantes en taille, le plus en plus diverses en nature et leur recherche est de plus en plus difficile et de plus en plus technique. La technologie de recueil de données devient une science en soi, donc un métier.

Le métier de recueil, de mise en forme et de livraison est un métier nouveau et à part entière. Un nouveau métier est donc en train d’émerger : celui de spécialiste dans la production de données. Des sociétés comme Factual aux Etats-Unis, Scraper Wiki au Royaume Uni, Spazio Dati en Italie et Data Publica en France sont les pionniers de ce nouveau type d’entreprises.

Comment travaille le producteur de données ? A partir des spécifications d’un jeu de données, l’objectif est de constituer le jeu de données en questions. Le processus se déroule en 4 étapes :

  1. Identification des sources : celles-ci peuvent se trouver sur le Web en général, dans un portail open data, dans les réseaux sociaux (Twitter ou Face-book), chez les éditeurs publics (IGN, Dila, Insee) ou privé (Reuters), payants (BOAMP ou Sirene) ou gratuits (informations socio-démographiques), et enfin chez le client lui-même.

  2. Extraction automatisée des données brutes des sources : une fois les sources identifiées, il faut extraire les données brutes des sources, de façon automatisée si possible. On utilise pour cela des techniques comme l’ETL (extraction, transformation & load), le crawl (parcours simple d’un site) ou le scraping (parcours ciblé d’un site).

  3. Transformation des données brutes en données structurées. Une fois les données extraites du site, il faut en général les retraiter pour les améliorer, ce qui peut inclure du dédoublonnage, de l’analyse de texte, de la classification par apprentissage, etc.

  4. Livraison des données sous forme d’un flux ou d’une dataviz.


L’exercice du métier de producteur suppose donc la maitrise de plusieurs expertises : 

✔ Contenu : où trouver les données relatives à telle ou telle thématique ; 
✔ Extraction : comment extraire auto
matiquement les données ; 
✔ Transformation : comment transfor
mer du brut en structuré ; 
✔ Livraison : sous quelle forme livrer.


Quels types de jeux de donnés sont recherchés et demandé par les utilisateurs ? Une grande variété, en voici quelques exemples :

✔ Elus français (avec leur mandat et leur affiliation) ;
✔ Annonce des appels d’offres publics (il en parait 2.000 par jour en France, venant de 8.000 sources) ;

✔ Tableau de bord économique, social et démographique des 36 000 communes ;
✔ Tableau de bord de l’activité économique par secteur ;
✔ Tableaux de bord des 300 zones d’emploi ;
✔ Tableau de bord immobilier des 600 secteurs notariaux ;
✔ Tableau de bord de la diffusion des produits d’une marque dans l’ensemble des réseaux de distribution ;
✔ Carte scolaire de la France ; 
✔ Géolocalisation des enseignes de la grande distribution.

Tous ces jeux sont vivants et donc changent chaque année, mois, semaine ou jour. Il faut donc les produire et suivre leur évolution dans le temps.
 

Conclusion

La séparation de la donnée et de l’application coïncide avec la séparation entre le métier de la récolte de la donnée et celui de son utilisation, donc avec la naissance du métier de sourceur de données. 


L'Auteur


Diplômé de l’École des Mines de Paris, titulaire d’un PhD de l’Université du Michigan et d’une Thèse d’État de l’Université de Paris XI, François Bancilhon a eu une double carrière : une première dans la recherche académique (INRIA, MCC et Université de Paris XI), et une deuxième dans l’industrie : il a co-créé et/ou dirigé plusieurs entreprises, (O2 Technology, Arioso, Xylème, Ucopia, Mandriva et Data Publica). Il a partagé sa vie professionnelle entre la France et les États-Unis. Il est actuellement CEO de Data Publica, une société du monde de l’open data et du big data, qui développe des jeux de données sur étagère ou sur mesure pour ses clients.

 

252 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Comment la France peut réussir dans le quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

28 juillet

Articles Revue TELECOM

ORDINATEUR QUANTIQUE ET CRYPTOGRAPHIE POST-QUANTIQUE #197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet

Articles Revue TELECOM

Editorial l'informatique quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet