Retour aux actualités
Article suivant Article précédent

Revue TELECOM 177 - L'Eldorado du big data textuel

Articles Revue TELECOM

-

15/10/2015


L'ELDORADO DU BIG DATA

TEXTUEL

Par Daniel Mayer (1996) dans la revue TELECOM n° 177
 
Les données dites « non structurées » sont les plus communes et les plus difficiles à analyser, mais aussi celles qui révèlent le plus d’informations.
 

Le big data est devenu un véritable sujet de société, suscitant des prises de positions de tous les média, intellectuels et autorités publiques. Pourtant, un de ses aspects essentiels est souvent absent du débat. Saviez-vous en effet que l’informatique du big data (celle qui analyse, crée des modèles et prédit) reste le plus souvent confinée à une petite zone de confort : celle des données structurées ?
Il s’agit de données soit numériques, soit pré-ordonnées par l’homme, qui ne représentent cependant qu’une partie mineure des données disponibles.

IDC estime en effet que 80% de nos données sont de nature non-structurée. Elles se présentent le plus souvent sous forme de contenus textuels : e-mails internes, correspondance client, commentaires sur les media sociaux, mais aussi dossiers patients, articles scientifiques ou d’actualité, rapports de maintenance sur matériel industriel, documentation technique ou décisions juridiques. Tous secteurs confondus, ces « big data textuels » représentent en fait le premier gisement d’information stratégique de nos organisations, et leur exploitation efficace à grande échelle est devenue possible récemment grâce à l’avènement des technologies sémantiques.

Elle ouvre la porte à des cas d’usage très variés dont nous brossons quelques portraits représentatifs ci-dessous. Ils contribuent systématiquement à orien
ter la stratégie et les décisions opérationnelles des organisations citées et simplifier et accélérer leurs processus métier.

Services : réduire le « churn » et améliorer son offre en comprenant les attentes client

Provenant d’enquêtes, des comptes-rendus de conversation en centres d’appels ou d’e-mails, les propos client sont une mine d’enseignements. Un grand énergéticien français analyse ainsi chaque année près de trois millions de réclamations et les corrèle avec ses processus internes et son offre de services. Traduites en tableaux de bord mensuels, ces données offrent une vision normalisée et continue dans le temps de la satisfaction client. Elles permettent notamment d’identifier les problèmes clés perçus par la clientèle, de prendre rapidement des actions correctives, mais aussi d’identifier des opportunités de vente de services complémentaires. Dans une logique similaire, des établissements régionaux d’une grande banque commerciale française analysent périodiquement les réponses de leurs clients à des enquêtes de satisfaction, afin de mieux comprendre leurs attentes relationnelles, d’y répondre en temps quasi-réel et au niveau de chaque agence, pour mieux se différencier des autres banques.

Sciences de la Vie et Secteur Industriel : orienter sa stratégie de recherche et développement

La littérature scientifique (brevets, articles,…) est également un réservoir important de découvertes pour les sociétés du secteur des Sciences de la Vie.

Découvrir les technologies sémantiques

En quoi consistent les techno- logies sémantiques ?

Il s’agit des technologies qui permettent à l’informatique de comprendre le sens d’un texte, et notamment :

• le traitement automatisé du langage (TAL) qui repère dans le texte les objets métiers grâce à des modèles linguistiques, à des règles métiers, aux statistiques et au « machine learning » ;

• la gestion de taxonomie et d’ontologie, qui assigne à chaque objet métier un identifiant unique et standardise ses attributs et relations avec d’autres objets.


La majorité des sociétés pharmaceutiques de premier plan les exploitent afin d’accumuler des connaissances sur leurs sujets de recherche, par exemple pour identifier les effets secondaires graves de molécules proches de leurs produits, ou leurs éventuels effets thérapeutiques inattendus. Cela leur permet soit d’interrompre par anticipation un développement voué à l’échec (et donc d’éviter les coûts associés), soit de prolonger le cycle de vie d’un produit en identifiant des zones d’application complémentaires (et donc de développer des revenus additionnels). Les mêmes contenus permettent aussi d’identifier les experts de référence sur tel ou tel aspect du métier mais aussi de comprendre le profil du pipeline produit de ses concurrents.

Dans le secteur industriel, des approches similaires appliquées aux rapports de maintenance permettent d’identifier les signes avant-coureurs de pannes pour réduire les interruptions de service, maîtriser les coûts d’intervention et piloter les améliorations de produit.

Santé : améliorer le diagnostic, cibler les essais cliniques

La même logique est à l’œuvre dans le domaine de la santé. L’éditeur médical allemand Thieme propose ainsi un outil d’aide au diagnostic via son portail Radbase destiné aux radiologues. Ceux-ci peuvent y accéder à une base documentaire de centaines de milliers de radiographies, de comptes rendus médicaux, et d’articles du domaine, organisés par thème, qu’ils peuvent interroger en fonction des observations qu’ils font sur leurs patient. Le portail leur présente alors des documents représentatifs de situations potentiellement comparables, de manière à permettre un diagnostic différentiel et à optimiser le traitement prescrit.
Dans le même secteur, Unicancer identifie parmi des millions de dossiers patients ceux dont le profil permet de participer aux études cliniques qui testent les traitements les plus innovants. Cette recherche est maintenant largement automatisée grâce aux technologies sémantiques et se fait en quelques heures à l’échelle nationale alors qu’elle se faisait manuellement auparavant et prenait des semaines à l’échelle locale. Les mêmes technologies sous-jacentes anonymisent les dossiers patients afin de préserver leur confidentialité.


Banque : réduire les risques de conformité réglementaire

 

Dans le secteur financier, les banques présentes aux Etats-Unis sont soumises à une réglementation en matière d’évasion fiscale qui les amène – sous peine d’amendes importantes – à faire diligence pour identifier d’éventuels clients américains ayant des comptes à l’étranger, au cas où ils ne l’auraient pas fait de leur propre initiative. C’est pourquoi de nombreux établissements financiers analysent leurs fichiers clients à la recherche d’indices révélant d’éventuels contrevenants. Les technologies sémantiques, qui jouent un rôle central dans cette tâche, permettent de traiter des archives documentaires en quelques jours là où des personnels qualifiés y auraient consacré des mois.

Dans d’autres organisations, les mêmes techniques sont employées pour router automatiquement des demandes de gestion de cas (case management), pour la reprise d’archives, pour optimiser la navigation dans les systèmes de gestion documentaire, offrant des gains de productivité significatifs dans toutes les tâches liées à l’exploitation de données rédigées par l’homme.


Et dans votre métier ?

Ces exemples le montrent, grâce aux technologies sémantiques maintenant matures, le big data textuel aide désormais de nombreuses organisations publiques et privées de premier plan à orienter leur stratégie, prendre de meilleures décisions opérationnelles et accélérer leurs processus métier. Toutefois,
ces usages sont pionniers et de nombreuses opportunités restent à capturer dans ce nouvel Eldorado.

Pour les découvrir avant ses concurrents, il tient à chacun de faire un tour d’horizon de ses propres usages et de se poser quelques questions simples :

• Lesquels de nos contenus textuels restent peu ou pas exploités ?

• Quels processus métiers liés au texte pourrions-nous accélérer ?

• Quelles décisions essentielles dans notre métier pourrions-nous optimiser ?

• Quels revenus ou économies ainsi créés ? Et quels risques évités ?


Biographie de l'auteur
Daniel Mayer (1996) est le VP Produit & Marketing de TEMIS (www.temis.com), le leader des solutions sémantiques pour l'entreprise. Sa mission consiste à définir et promouvoir la gamme des produits Luxid, avec une attention particulière aux applications de gestion d'information en entreprise. Avant de rejoindre TEMIS, Daniel a occupé pendant 15 ans des fonctions en marketing et stratégie produit dans le secteur des technologies de líinformation. Daniel est diplômé d'HEC et de Télécom Paristech.

275 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Comment la France peut réussir dans le quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

28 juillet

Articles Revue TELECOM

ORDINATEUR QUANTIQUE ET CRYPTOGRAPHIE POST-QUANTIQUE #197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet

Articles Revue TELECOM

Editorial l'informatique quantique # 197

photo de profil d'un membre

Rédaction Revue TELECOM

13 juillet