Functional anomaly detection and robust estimation - Equipe Signal, Statistique et Apprentissage Accéder directement au contenu
Thèse Année : 2022

Functional anomaly detection and robust estimation

Détection d'anomalies fonctionnelles et estimation robuste

Résumé

Enthusiasm for Machine Learning is spreading to nearly all fields such as transportation, energy, medicine, banking or insurance as the ubiquity of sensors through IoT makes more and more data at disposal with an ever finer granularity. The abundance of new applications for monitoring of complex infrastructures (e.g. aircrafts, energy networks) together with the availability of massive data samples has put pressure on the scientific community to develop new reliable Machine-Learning methods and algorithms. The work presented in this thesis focuses around two axes: unsupervised functional anomaly detection and robust learning, both from practical and theoretical perspectives.The first part of this dissertation is dedicated to the development of efficient functional anomaly detection approaches. More precisely, we introduce Functional Isolation Forest (FIF), an algorithm based on randomly splitting the functional space in a flexible manner in order to progressively isolate specific function types. Also, we propose the novel notion of functional depth based on the area of the convex hull of sampled curves, capturing gradual departures from centrality, even beyond the envelope of the data, in a natural fashion. Estimation and computational issues are addressed and various numerical experiments provide empirical evidence of the relevance of the approaches proposed. In order to provide recommendation guidance for practitioners, the performance of recent functional anomaly detection techniques is evaluated using two real-world data sets related to the monitoring of helicopters in flight and to the spectrometry of construction materials.The second part describes the design and analysis of several robust statistical approaches relying on robust mean estimation and statistical data depth. The Wasserstein distance is a popular metric between probability distributions based on optimal transport. Although the latter has shown promising results in many Machine Learning applications, it suffers from a high sensitivity to outliers. To that end, we investigate how to leverage Medians-of-Means (MoM) estimators to robustify the estimation of Wasserstein distance with provable guarantees. Thereafter, a new statistical depth function, the Affine-Invariant Integrated Rank-Weighted (AI-IRW) depth is introduced. Beyond the theoretical analysis carried out, numerical results are presented, providing strong empirical confirmation of the relevance of the depth function proposed. The upper-level sets of statistical depths—the depth-trimmed regions—give rise to a definition of multivariate quantiles. We propose a new discrepancy measure between probability distributions that relies on the average of the Hausdorff distance between the depth-based quantile regions w.r.t. each distribution and demonstrate that it benefits from attractive properties of data depths such as robustness or interpretability. All algorithms developed in this thesis are open-sourced and available online.
L’engouement pour l’apprentissage automatique s’étend à presque tous les domaines comme l’énergie, la médecine ou la finance. L’omniprésence des capteurs met à disposition de plus en plus de données avec une granularité toujours plus fine. Une abondance de nouvelles applications telles que la surveillance d’infrastructures complexes comme les avions ou les réseaux d’énergie, ainsi que la disponibilité d’échantillons de données massives, potentiellement corrompues, ont mis la pression sur la communauté scientifique pour développer de nouvelles méthodes et algorithmes d’apprentissage automatique fiables. Le travail présenté dans cette thèse s’inscrit dans cette ligne de recherche et se concentre autour de deux axes : la détection non-supervisée d’anomalies fonctionnelles et l’apprentissage robuste, tant du point de vue pratique que théorique.La première partie de cette thèse est consacrée au développement d’algorithmes efficaces de détection d’anomalies dans le cadre fonctionnel. Plus précisément, nous introduisons Functional Isolation Forest (FIF), un algorithme basé sur le partitionnement aléatoire de l’espace fonctionnel de manière flexible afin d’isoler progressivement les fonctions les unes des autres. Nous proposons également une nouvelle notion de profondeur fonctionnelle basée sur l’aire de l’enveloppe convexe des courbes échantillonnées, capturant de manière naturelle les écarts graduels de centralité. Les problèmes d’estimation et de calcul sont abordés et diverses expériences numériques fournissent des preuves empiriques de la pertinence des approches proposées. Enfin, afin de fournir des recommandations pratiques, la performance des récentes techniques de détection d’anomalies fonctionnelles est évaluée sur deux ensembles de données réelles liés à la surveillance des hélicoptères en vol et à la spectrométrie des matériaux de construction.La deuxième partie est consacrée à la conception et à l’analyse de plusieurs approches statistiques, potentiellement robustes, mêlant la profondeur de données et les estimateurs robustes de la moyenne. La distance de Wasserstein est une métrique populaire résultant d’un coût de transport entre deux distributions de probabilité et permettant de mesurer la similitude de ces dernières. Bien que cette dernière ait montré des résultats prometteurs dans de nombreuses applications d’apprentissage automatique, elle souffre d’une grande sensibilité aux valeurs aberrantes. Nous étudions donc comment tirer partie des estimateurs de la médiane des moyennes (MoM) pour renforcer l’estimation de la distance de Wasserstein avec des garanties théoriques. Par la suite, nous introduisons une nouvelle fonction de profondeur statistique dénommée Affine-Invariante Integrated Rank-Weighted (AI-IRW). Au-delà de l’analyse théorique effectuée, des résultats numériques sont présentés, confirmant la pertinence de cette profondeur. Les sur-ensembles de niveau des profondeurs statistiques donnent lieu à une extension possible des fonctions quantiles aux espaces multivariés. Nous proposons une nouvelle mesure de similarité entre deux distributions de probabilité. Elle repose sur la moyenne de la distance de Hausdorff entre les régions quantiles, induites par les profondeur de données, de chaque distribution. Nous montrons qu’elle hérite des propriétés intéressantes des profondeurs de données telles que la robustesse ou l’interprétabilité. Tous les algorithmes développés dans cette thèse sont accessible en ligne.
Fichier principal
Vignette du fichier
108327_STAERMAN_2022_archivage.pdf (15.99 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03650864 , version 1 (25-04-2022)

Identifiants

  • HAL Id : tel-03650864 , version 1

Citer

Guillaume Staerman. Functional anomaly detection and robust estimation. Machine Learning [stat.ML]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAT021⟩. ⟨tel-03650864⟩
501 Consultations
185 Téléchargements

Partager

Gmail Facebook X LinkedIn More