Soutenance de thèse de Steven Golovkine
Steven Golovkine soutiendra sa thèse de doctorat, « Statistical methods for multivariate functional data » le vendredi 18 juin à 9h à l’ENSAI.
Ecole Doctorale : Mathématiques et Sciences et Technologies de l’Information et de la Communication
Unité de recherche : CREST (UMR 9194)
Directeur de thèse : Valentin PATILEA, Professeur CREST, ENSAI
Co-directeur de thèse : Nicolas KLUTCHNIKOFF, Maître de conférences, IRMAR, Université Rennes
Rapporteurs avant soutenance
Sophie DABO-NIANG Professeur, Université de Lille
Alois KNEIP Professeur, Université de Bonn
Composition du Jury
Nom | Qualité | Etablissement | Rôle |
---|---|---|---|
Sophie DABO-NIANG | Professeur | Université de Lille | Examinateur |
Vincent FEUILLARD | Expert statistique | Renault Technocentre, Guyancourt | Examinateur |
Claire GORMLEY | Professeur | University College Dublin | Examinateur |
Alois KNEIP | Professeur | Université de Bonn | Examinateur |
André MAS | Professeur | Université de Montpellier | Examinateur |
Valentin PATILEA | Professeur | CREST, ENSAI | Directeur de thèse |
Nicolas KLUTCHNIKOFF | Maître de conférences | IRMAR, Université Rennes 2 | Co-directeur de thèse |
Mot clés
analyse de données fonctionnelles ; analyse en composantes principales fonctionnelles ; lissage optimal ; groupement model-based ; régularité
Méthodes statistiques pour données fonctionnelles multivariées
Résumé : Le sujet de cette thèse est lié à l’analyse de données fonctionnelles et est motivé par l’analyse de données provenant de l’industrie automobile. Les méthodes standards concernant les données fonctionnelles sont basées sur l’hypothèse que les courbes sont observées de façon continue et sans erreur. Or, en pratique, c’est rarement le cas. Pour cette rai- son, une étape cruciale est de reconstruire les trajectoires à partir de mesures bruitées ayant des instants d’observations discrets et aléatoires. Pour cela, nous proposons une approche originale : l’utilisation de la régularité locale du processus générant les courbes. Ainsi, utilisant le grand nombre de trajectoires, ainsi que leur variabilité intrinsèque, nous proposons un estimateur simple de cette régularité locale. Munis de cet estimateur, nous construisons un estimateur par polynômes locaux, quasiment optimal, des courbes à partir d’un échantillon de courbes bruitées. Des estimateurs non-paramétriques des fonctions moyenne et covariance pour données fonctionnelles, basés sur la régularité locale du processus, sont développés. De plus, un algorithme de groupement, de type model-based, pour une classe générale de données fonctionnelles pour laquelle les composantes peuvent être des courbes ou des images est présenté. Les résultats sur des données réelles et simulées montrent les bonnes performances de ces méthodes. Un package Python, implémentant celles-ci et disponible publiquement, a été développé.
Abstract: The topic of this thesis is related to functional data analysis and is motivated by modern data from automobile industry. The standard functional data methods rely on the assumption that the curves are continuously observed, without error. However, in general, the real data is neither continuously nor exactly observed. Therefore, a crucial step is to recover the trajectories from noisy measurements at discrete random points. For that, we propose an original point of view: the local regularity of the process generating the curves. Thus, combining information both within and across trajectories, we propose a simple estimator for this local regularity. Given this estimate, we build a nearly optimal local polynomial smoother of the curves from a sample of noisy trajectories. Nonparametric estimators for the mean and the covariance functions of functional data, using the local regularity of the process, are derived. Moreover, we propose a model-based clustering algorithm for a general class of functional data for which the components could be curves or images. Results of both simulated and real data show the good performances of this method. A Python package, implementing the methods and publicly available, has been developed.