Retour aux actualités
Article suivant Article précédent

Revue 169 - La pub en ligne boostée par la Big data

Articles Revue TELECOM

-

15/07/2013



La pub en ligne boostée

par le Big data

 



par Vincent Lepage (2006) et Nicolas Grislain dans la revue TELECOM n° 169

 

Comment le big data et les techniques de temps réel peuvent améliorer les revenus des éditeurs.




















La nouvelle disponibilité de masses de données considérables, et d’outils et de méthodologies permettant de les traiter efficacement est une révolution en cours. Après avoir créé Cinequant, une startup de modélisation de données ayant une approche « moderne » (big data, temps réel, avec un souci de la dataviz), notre petit groupe d’associés (3 X-Telecom et ENS-ENSAE) s’est focalisé sur un sujet particulièrement porteur, le Real Time Bidding (RTB, enchères en temps réel de publicité en ligne). Ce domaine est très actif en France avec Criteo, véritable champion mondial du RTB, qui développe des offres pour les annonceurs publicitaires.

Ce nouveau projet, http://www.alephd.com, propose aux éditeurs de sites web d’optimiser leurs revenus publicitaires via le RTB. Une part croissante des publicités sur internet est attribuée avec cette technologie où les espaces publicitaires sont mis aux enchères pendant le chargement d’une page. L’enchère se déroule donc en quelques 100 ms. Le RTB permet aux éditeurs de vendre une publicité différenciée par utilisateur et il permet aux annonceurs de mieux cibler les utilisateurs afin de proposer des publicités pertinentes.

AlephD développe une technologie de pointe pour déterminer, en temps réel et pour chaque affichage, les meilleurs paramètres de l’enchère (prix de réserve, affichage en cas d’échec, etc.). Ces paramètres sont ensuite utilisés dans la plateforme d’enchère (ad ex-change).
 

Plusieurs Téra-octets de données

Pour trouver ces paramètres, nous disposons de données sur l’historique de toutes les enchères, soit plusieurs Téra octets de données, sur lesquels nous paramétrons nos algorithmes prédictifs. AlephD travaille aujourd’hui avec un certain nombre de partenaires en France et au Royaume-Uni, et le lecteur pourra par exemple chercher nos « empreintes » sur ses sites favoris (ces « empreintes » sont des chargements de pixels sur nos serveurs, permettant de récupérer des données). Nous analysons aujourd’hui environ 2 milliards d’impressions par mois, soit plus de 30Go de données d’enchère chaque jour.

Dans ce contexte, le volume de données devient trop important pour être manipulé avec une base de données classique (une très bonne base de données SQL, bien configurée et conçue, peut difficilement dépasser quelques Téra-octets, ce qui est cependant largement suffisant pour beaucoup d’applications). Par ailleurs, les garanties offertes par les bases de données classiques (atomicité des transactions, cohérence de la base, indépendance et “durabilité” des transactions), qui sont gourmandes en temps, ne sont plus toutes nécessaires. Perdre quelques transactions n’est pas problématique. Ce type de besoin, qu’on retrouve dans de nombreux services web, a donné naissance à la grande famille des bases de données No-SQL (Not Only SQL), qui relâchent telle ou telle contrainte.

Dans cette famille, AlephD a choisi d’utiliser le paradigme Hadoop. Hadoop est un projet open-source de la fondation Apache (issu d’une initiative Yahoo), qui s’appuie sur un système de fichiers distribué, HDFS. Ainsi, on peut stocker les données sur un cluster de machines coordonnées (et non plus sur un seul serveur) qui, au dépend de certaines propriétés, permet d’organiser et de traiter des données à très grande échelle. De nombreux outils sont disponibles sur cette base : bases de données ou entrepôts de données (HBase, Hive...), datamining (Mahout), calcul distribué (Hadoop Map/Reduce) etc. Nous utilisons pour notre part la base de données Hive et Hue, qui simplifient l’accès aux données.

Ces systèmes open-source sont assez complexes à manier (déjà essayé de configurer ZooKeeper ?), mais des fournisseurs de solutions tels que Cloudera les packagent en logiciel facilement installables (aide à la config, monitoring, GUI etc.). Par ailleurs, leur évolution rapide nécessite une veille technologique importante, pour migrer les applications régulièrement. Enfin, leurs performances en termes de passage à l’échelle (doubler le volume des données nécessite juste de doubler le nombre de machines, le temps de recherche restera constant) ont comme contrepartie, en général, une vitesse d’accès en lecture et écriture assez limitée.
 

Un algorithme prédictif en quelques millisecondes

Une fois ces données d’enchères mises à disposition sur ce cluster Hadoop, un modèle statistique est calibré, permettant de réagir en temps réel à une enchère. Nos algorithmes cherchent ainsi à détecter et à mettre en évidence des régularités (patterns) ou des corrélations afin d’aboutir à un modèle prédictif. Le traitement statistique de ces données pose alors de nombreux problèmes liés à la nature distribuée des informations. De nombreux algorithmes de machine learning se prêtent à des traitements distribués, mais le développement d’algorithmes adaptés reste un défi.

Enfin, il convient de se rappeler que notre technologie doit répondre en quelques millisecondes avant l’affichage de la page. Les algorithmes précédemment évoqués ne peuvent donc que tourner en tâche de fond, et permettent de paramétrer une règle de décision, qui elle est très rapide (type arbre de décision stocké en mémoire). Cette règle est codée dans un serveur http propriétaire, très rapide (10 000 requêtes/s), s’appuyant sur une approche asynchrone (cette approche, moderne, permet d’atteindre de bien meilleures performances que les serveurs classiques tels qu’Apache).

Rapidement, AlephD devra être à même de traiter plusieurs dizaines de milliards d’impressions par mois, d’enregistrer les paramètres de chaque impression pour calibrer des modèles statistiques, permettant de réagir en temps réel à chaque impression. Ce type de service, dont la valeur est de l’ordre de 0,00002 € par impression, ne peut exister que grâce aux technologies big data. Il existe, de façon certaine mais encore largement inexplorée, de nombreux autres nouveaux produits reposant sur la capacité nouvelle à analyser un grand volume de données.
 

Les Auteurs


Vincent Lepage (2006)
est ancien expert au sein du Trésor sur les questions de dette souveraine et de financement internationaux. Il est diplomé de l’École Polytechnique (2001), spécialisé en mathématique et informatique, et de Télécom ParisTech (2006). Avant de rejoindre le Trésor, il travaillait dans une startup à Montréal comme développeur Java et dans un cabinet de conseil en TIC à New York.




Nicolas Grislain
était gestionnaire de risque, responsable de l’équipe en charge des stress-tests dans le Groupe Société Générale. Il a également été expert du Trésor au Ministère des Finances, en charge de questions de politique économique et de dette souveraine. Nicolas est diplomé de l’École Normale Supérieure de Lyon (spécialisation en Mathématique) et de l’École Nationale de Statistique et de l’Administration Économique (spécialisation en ingénierie financière) en 2006.

193 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Quels rôles jouent les technologies numériques dans l’évolution de la médecine du travail ? Groupe Santé#196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

Le numérique au service de la décarbonisation #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril

Articles Revue TELECOM

DC Brain nommé au prix de la croissance #196

photo de profil d'un membre

Rédaction Revue TELECOM

01 avril