TELECOM PARIS ALUMNI
Retour aux actualités
Article suivant Article précédent

Revue TELECOM 190 - Intelligence artificielle, risque ou opportunité pour les cyber-défenseurs ?

Articles Revue TELECOM

-

01/10/2018

INTELLIGENCE ARTIFICIELLE, RISQUE OU OPPORTUNITÉ POUR LES CYBER-DÉFENSEURS ?


Par Hervé Debar dans la revue TELECOM n° 190


L'intelligence artificielle offre depuis quelques années de nouvelles méthodes efficaces pour traiter de grosses masses de données et prendre des décisions. Le domaine de la cybersécurité est bien entendu impacté, car ces méthodes sont promues par les fournisseurs de technologie et de services comme le nouvel outil indispensable pour lutter contre les attaques informatiques. Comme toute technologie, celle-ci sera sans doute également exploitée par les attaquants. Entre risques et opportunités, cet article tente de proposer quelques pistes pour mieux préparer l'exploitation des techniques d'intelligence artificielle dans la cybersécurité.


Comme de nombreux domaines de l’informatique, la cybersécurité est touchée par l’émergence de nouvelles techniques qui renouvellent l’intelligence artificielle. Cette émergence s’est tout d’abord traduite par une nouvelle génération de plates-formes de Security Information and Event Management (SIEM), fondées sur des technologies de fouille de données (Splunk, pile ELK, etc.). Ces plates-formes permettent de traiter de manière effective des données, soutenant l’activité des centres opérationnels de cybersécurité, et ont donc un intérêt majeur pour les professionnels du domaine.

Cependant, l’émergence de l’intelligence artificielle va bien au-delà. Le « Cyber Grand Challenge DARPA » http://archive.darpa.mil/cybergrandchallenge/ crée un certain nombre de fantasmes quant à la capacité des ordinateurs, des intelligences artificielles, à s’attaquer et se défendre, sans intervention humaine. A l’instar des véhicules autonomes, et comme nous avons pu le voir avec certains codes malveillants hautement toxiques (Stuxnet, Mirai, Wannacry, etc.), il est possible que le développement de l’intelligence artificielle offre aux codes malveillants, et donc aux attaquants, de nouvelles possibilités.


La problématique de la règle

La cybersécurité est, d’abord et avant tout, un problème de règle, et donc de politique définissant ce qui est légitime, et ce qui ne l’est pas : notre « politique de sécurité ». Cette politique de sécurité est bien entendu fortement associée à l’usage que nous faisons du monde numérique, aux services auxquels nous accédons. Nous sommes habitués, depuis de nombreuses années, à fonctionner en définissant un certain nombre de fonctionnements attendus, et à rejeter les comportements non conformes. Cela se traduit par exemple par le déploiement de systèmes pare-feu, de systèmes de contrôle d’accès, de mécanismes d’identification et d’authentification, qui permettent de définir ces règles d’une part, de vérifier leur mise en application d’autre part.

La première problématique que peut donc poser l’intelligence artificielle dans le domaine de la cybersécurité est une sur-dépendance à la donnée pour définir le bon fonctionnement des systèmes d’information. Cette problématique est ancienne, puisque dès le début des années 2000 des articles (1) étudient la manière de configurer des modèles de contrôle d’accès en analysant les traces de fonctionnement des systèmes. Cela suppose, bien évidemment, que le système d’information analysé ne présente pas de comportement déviant. La vérification des résultats de ces analyses se pose d’ailleurs plus en termes d’efficacité (2) qu’en termes de qualité.

Il y a donc une première difficulté à l’introduction actuelle de l’intelligence artificielle dans le domaine de la cybersécurité, qui est d'abord de comprendre quelles sont les règles qui sont effectivement mises en place dans le système d’information, et ensuite de valider la conformité de ces règles au besoin de l’organisation et à la conformité de ces règles aux besoins réglementaires et à l’analyse de risque qui doit les précéder.


La problématique de la donnée

La deuxième problématique posée par l’intelligence artificielle est le surinvestissement dans la donnée, et la qualité de cette donnée. Il existe de nombreuses applications, tant pour les défenseurs que pour les attaquants.


Analyse de code (malveillant ou vulnérable)

Le premier domaine dans lequel l’intelligence artificielle peut aider la cybersécurité est l’analyse de code, et notamment de code malveillant. Les pré-requis essentiels à une bonne application des outils d’IA sont satisfaits. Nous disposons aujourd’hui de bases de code volumineuses, associées à des classifications relativement fiables (code malveillant, normal, vulnérable à tel type d’attaque). Il peut exister des difficultés pratiques liées à l’obfuscation¹, à l’analyse de binaire, au langage de programmation utilisé, mais ces difficultés sont connues et des solutions pour y remédier existent, même si elles sont imparfaites.

Plus généralement, les techniques d’intelligence artificielle peuvent permettre de passer l’obstacle de ces problèmes pratiques.

La difficulté relève plus de l’introduction de nouvelles applications, de nouveaux mécanismes d’infection ou de commande et contrôle (C&C), ou de nouveaux protocoles. Ces changements de paradigme, qui se produisent relativement fréquemment (tous les deux ans), vont impacter significativement et très rapidement les codes malveillants alors que les méthodes d’analyse mettront du temps à acquérir les volumes de données ainsi que les classifications associées. Il convient par ailleurs de noter que la classification est essentiellement manuelle, ce qui crée une dissymétrie en faveur de l’attaquant.

Il semble même ici que les techniques d’IA soient plutôt un outil susceptible de favoriser l’attaquant. En effet, la publication d’une vulnérabilité est souvent accompagnée d’un correctif. Un créateur de code malveillant va donc essayer d’analyser ce correctif, les modifications qu’il apporte à l’application, pour en déduire l’effet exact de la vulnérabilité et de construire un code malveillant plus efficace. Aujourd’hui, les éditeurs de logiciel utilisent des techniques de masquage de code pour rendre cette rétro-ingénierie plus difficile. Les outils d’intelligence artificielle sont susceptibles de permettre aux attaquants de pratiquer des recherches extensives sur le fonctionnement du correctif, afin d’arriver plus rapidement à construire leurs charges malveillantes.


Analyse comportementale

Certaines méthodes d’intelligence artificielle permettent de modéliser et d’analyser le fonctionnement d’un système d’information. Par exemple, la corrélation de trafic (source et destination, type par le port, direction, volumétrie) permet de mettre en évidence des dépendances entre systèmes, ainsi que des rôles associés (serveur de fichier, impression, etc.). Ces outils permettent au défenseur de modéliser un fonctionnement de système d’information et apprécier un risque.

Ces traitements massifs d’informations, comparés à un modèle de fonctionnement « habituel » considéré comme normal, permettent de détecter des comportements anormaux, assimilés à des attaques. La capacité croissante des algorithmes d’intelligence artificielle a sans aucun doute permis des avancées significatives dans le domaine de la détection comportementale des attaques. Cela permet de s’affranchir d’une connaissance fine des vulnérabilités, toujours difficile à obtenir et à maintenir.

Il reste cependant une difficulté majeure à franchir, celle de l’asymétrie entre le volume de données représentatif du comportement normal, par rapport à celui des attaques. Cette interrogation, connue sous le nom de « base rate fallacy », (4) limite mécaniquement la capacité de détecter certaines attaques.


Indicateurs de compromission

L’analyse de données permet également une boucle de rétroaction. En effet, la mise en évidence de comportements anormaux, ont également permis la définition de ce qui est connu sous le nom d’indicateurs de compromission (IoC pour indicators of compromise), des éléments qui matérialisent l’attaque dans les logs et que les sondes (ou les experts) peuvent rechercher pour déterminer soit si une attaque est en cours, soit si elle a été effectuée avec succès.

Cependant, cela peut également introduire un biais cognitif. Par définition, les algorithmes d’analyse de données utilisés en intelligence artificielle se focalisent sur les grandes masses de données. Par conséquent, il existe un risque, identifié, de perdre les « signaux faibles ».

Et il faut faire attention au délai de traitement, les algorithmes d’intelligence artificielle pouvant prendre du temps pour converger.


Traitement des alertes et détection d’incidents

Très classiquement, depuis plus de 20 ans, nous traitons des logs pour détecter des attaques, sous le vocable de détection d’intrusions. Cela a amené au déploiement massif de sondes, puis des technologies de type SIEM et SOC. La dernière génération des outils SIEM, comme la pile ELK (ElasticSearch / Logstash / Kibana) permet de traiter des volumes massifs de logs pour détecter des anomalies. Cela permet de traiter les grandes masses d’alertes de manière automatisée pour permettre à l’opérateur de se focaliser sur les alertes qui ne sont pas traitées de cette manière.

L’un des bénéfices complémentaires de cette démarche est de permettre la production automatique de certains indicateurs techniques. Une expérience récente nous a, par exemple, permis de produire quelques indicateurs « Information Security Indicators » (ISI) de l’ETSI en utilisant des techniques de fouille de données pour analyser les alertes remontées au sein d’un SIEM, sans fournir aucune information concernant ces indicateurs « a priori ». La méthodologie reste expérimentale à ce jour, mais devrait être incluse dans la spécification des indicateurs ISI d’ici la fin de l’année.


La problématique de l’imagination

Il convient finalement de noter que la créativité de l’attaquant est sans limites. La limite importante d’un système d’intelligence artificielle est sa capacité à imaginer des phénomènes qui se produiraient en dehors des données qui lui sont fournies.

Ceci est particulièrement problématique, comme indiqué dans le paragraphe « Traitement des alertes et détection d'incidents ». En effet, aller en dehors de ce qui est contenu dans les données expose le défenseur à des faux positifs. Cela fournit également une opportunité à l’attaquant de créer ces faux positifs. Il en résulte une surcharge opérationnelle qui permet facilement à un attaquant de se glisser sous le radar de la détection, et à progresser dans le système d’information sans être dérangé.

L’exemple du « DARPA Cyber Grand Challenge » http://archive.darpa.mil/cybergrandchallenge/ est particulièrement intéressant à cet égard. En effet, il montre que les intelligences artificielles sont plus rapides que les humains pour explorer un système et attaquer leur cible de manière large et intensive. Cependant, ces intelligences artificielles se limitent à utiliser certains types de failles et n’explorent pas l’espace de toutes les vulnérabilités existantes. Leur efficacité est donc limitée.


Conclusion

L’intelligence artificielle offre clairement de nouvelles opportunités dans le domaine de la cybersécurité, tant pour les attaquants que pour les défenseurs. Il semble aujourd’hui que si les défenseurs prennent en compte ces technologies d’IA, cela permettra d’accroitre le degré d’automatisation dans la lutte contre les attaques informatiques, et donc l’efficacité de cette lutte, tant en qualité des résultats obtenus qu’en termes économiques.

Dans le même temps, il ne faut ni manquer le déploiement de ces technologies ni surestimer leur impact. L’élément humain, la compréhension des objectifs d’un attaquant, restent du domaine d’appréciation d’un analyste. La prise en compte du risque, les arbitrages à rendre pour déployer des moyens de protection, de détection et de remédiation restent de nature humaine et doivent garder l’homme dans la boucle opérationnelle de la cybersécurité.


Références

1. Kuhlmann, M., Shohat, D., & Schimpf, G. (2003, June). Role mining-revealing business roles for security administration using data mining technology. In Proceedings of the eighth ACM symposium on Access control models and technologies (pp. 179-186). ACM. http://www.cs.odu.edu/~mukka/cs795sum10dm/Lecturenotes/Day6/rolemining.pdf

2. Vaidya, J., Atluri, V., & Guo, Q. (2007, June). The role mining problem: finding a minimal descriptive set of roles. In Proceedings of the 12th ACM symposium on Access control models and technologies (pp. 175-184). ACM. https://pdfs.semanticscholar.org/cd0d/c36412779b0774831af8be80a12310a915ce.pdf

3. Siddiqui, M., Wang, M. C., & Lee, J. (2008, March). A survey of data mining techniques for malware detection using file features. In Proceedings of the 46th annual southeast regional conference on xx (pp. 509-510). ACM. https://www.islab.ntua.gr/attachments/article/91/p509-siddiqui.pdf

4. Axelson, S, The base-rate fallacy and the difficulty of intrusion detection, ACM Transactions on Information and System Security (TISSEC) 3(3), 2000.


1/ Stratégie de protection de la vie privée sur internet qui consiste à publier des informations fausses ou imprécises de manière à dissimuler les informations pertinentes.



Biographie de l'auteur


Hervé Debar est professeur à Télécom SudParis, responsable du département Réseaux et Services de Télécommunications (RST). Il est responsable de l'option de 3eme année cybersécurité à Télécom SudParis. Son activité de recherche se focalise sur les problématiques de détection et de lutte contre les attaques informatiques, dans des contextes variés.


737 vues Visites

J'aime

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Articles Revue TELECOM

Revue TELECOM 194 - Editorial Laura Peytavin et Yves Poilane

User profile picture

Rédaction Revue TELECOM

13 novembre

Articles Revue TELECOM

Revue TELECOM 193 - La kippa bleue

User profile picture

Rédaction Revue TELECOM

15 juin

Articles Revue TELECOM

Revue TELECOM 193 - La transformation digitale (numérique) 2.0

User profile picture

Rédaction Revue TELECOM

15 juin