Apprentissage automatique pour la détection d’anomalies dans les graphes issus des données réseau - Laboratoire d'Informatique et de Mathématiques Accéder directement au contenu
Thèse Année : 2022

Machine learning for the detection of anomalies in graphs from network data

Apprentissage automatique pour la détection d’anomalies dans les graphes issus des données réseau

Kévin Hoarau
  • Fonction : Auteur
  • PersonId : 1186951
  • IdRef : 264392256

Résumé

The analysis of networks, their protocols and applications is impacted by the fast evolution of machine learning methods. Moreover, although the data in this application domain are intrinsically related to graph representations, tabular representations are generally used by machine learning techniques, which consequently do not allow to represent all the complexity of these data. This thesis focuses on the exploitation of graphs of network data using machine learning techniques. In particular, it is proposed to integrate and evaluate recent advances in the field of Graph Neural Networks (GNN). The application domain is the detection of anomalies in the Border Gateway Protocol (BGP), a protocol that generates massive and complex graphs in which anomalies are difficult to detect. This protocol is the backbone of the Internet, which justifies that its anomalies have been widely studied by the community, either via expert rules or classical machine learning methods. A prior work identifies that unlike the main application domains of machine learning, there are no baseline datasets for the study of BGP anomalies. Moreover, the construction of these datasets appears laborious and is a barrier to the research in this area. Therefore, BML, a tool for the construction of BGP datasets is proposed. The first contribution of this thesis highlights the fact that the exploitation of features extracted from a BGP graph allows to detect an anomaly with performances in accordance with the state ofthe art. This is the case for large scale anomalies (accuracy of 88%) but it also allows to significantly improve the performances on small scale anomalies (+18% of accuracy). In a second contribution, the temporal component is integrated by using a recurrent neural network (RNN). From a sequence of BGP graphs, a temporal series of features is extracted and consumed by this model. However, it appears that the loss of information induced by the extraction of features from the BGP graph is detrimental to the performance. In a last contribution, this problem is overcome by using a GNN that directly exploits the graphs without any feature extraction step. By construction, this model also provides a fine granularity that made it possible to detect an anomaly at the level of an AS with an accuracy of 96% on large scale events. To our knowledge, this is the first GNN-based model for BGP anomaly detection. This work has highlighted the relevance of graph representations for the analysis of BGP data. Nevertheless, GNNs open more perspectives than those studied in this thesis. In particular, the identification of the node at the origin of an attack or the prediction of the impact of an anomaly.
L’analyse des réseaux, de leurs protocoles et applications est impactée par l’évolution rapide des méthodes d’apprentissage automatique. Par ailleurs, bien que les données de ce domaine d’application soient intrinsèquement liées aux représentations sous forme de graphe, ce sont des représentations tabulaires qui sont généralement utilisées par les techniques d’apprentissage automatique ce qui, par conséquent, ne permet pas de représenter toute la complexité de ces données. Cette thèse s’intéresse à l’exploitation des graphes des données réseau à l’aide de techniques d’apprentissage automatique. Il est notamment proposé d’intégrer et d’évaluer les avancées récentes dans le domaine des Graph Neural Networks (GNN). Le cadre applicatif retenu est celui de la détection d’anomalies dans le Border Gateway Protocol (BGP), protocole qui génère des graphes massifs et complexes dans lesquels les anomalies sont difficilement décelables. Ce protocole constitue l’épine dorsale de l’Internet ce qui justifie que ses anomalies aient été largement étudiées par la communauté, que ce soit via des règles expertes ou des méthodes d’apprentissageautomatique classiques. Un travail préalable identifie que contrairement aux principaux domaines d’application de l’apprentissage automatique, il n’y a pas de jeux de données de référence pour l’étude des anomalies BGP. En outre, la construction de ces derniers apparaît pénible et constitue un frein à la recherche dans ce domaine. Ainsi, BML, un outil pour la construction de jeu de données BGP est proposé. La première contribution de cette thèse met en exergue le fait que l’exploitation d’attributs extraits d’un graphe BGP permet d’y détecter une anomalie avec des performances conformes à l’état de l’art. C’est le cas pour les anomalies de grande échelle (accuracy de 88%) mais il permet également d’améliorer significativement les performances sur les anomalies de petite échelle (+18% d’accuracy). Dans une seconde contribution, la composante temporelle est intégrée par l’utilisation d’un réseau de neurones récurrent (RNN). À partir d’une séquence de graphes BGP, une série temporelle d’attributs est extraite puis consommée par ce modèle. Cependant, il apparaît que la perte d’information induite par l’extraction d’attributs du graphe BGP nuit aux performances. Dans une dernière contribution, ce problème est contourné par l’utilisation d’un GNN qui exploite directement les graphes sans étape préalable d’extraction d’attributs. Par construction, ce modèle offre également une granularité fine qui a permis de détecter une anomalie au niveau d’un AS avec une accuracy de 96% sur des évènements de grande échelle. À notre connaissance, il s’agit du premier modèle basé sur un GNN pour la détection d’anomalies BGP. Ces travaux ont mis en évidence la pertinence des représentations sous forme de graphe pour l’analyse des données issues de BGP. Néanmoins, les GNN ouvrent davantage de perspectives que celles étudiées dans cette thèse. Notamment, l’identification du nœud à l’origine d’une attaque ou encore la prédiction de l’impact d’une anomalie.
Fichier principal
Vignette du fichier
2022LARE0019_K_HOARAU.pdf (3.82 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03852688 , version 1 (15-11-2022)

Identifiants

  • HAL Id : tel-03852688 , version 1

Citer

Kévin Hoarau. Apprentissage automatique pour la détection d’anomalies dans les graphes issus des données réseau. Apprentissage [cs.LG]. Université de la Réunion, 2022. Français. ⟨NNT : 2022LARE0019⟩. ⟨tel-03852688⟩
206 Consultations
183 Téléchargements

Partager

Gmail Facebook X LinkedIn More