Recherche

Soutenance de thèse de Steven Golovkine

Steven Golovkine soutiendra sa thèse de doctorat, « Statistical methods for multivariate functional data » le vendredi 18 juin à 9h à l’ENSAI. 

 

Ecole Doctorale : Mathématiques et Sciences et Technologies de l’Information et de la Communication

Unité de recherche : CREST (UMR 9194)

Directeur de thèse : Valentin PATILEA, Professeur CREST, ENSAI

Co-directeur de thèse : Nicolas KLUTCHNIKOFF, Maître de conférences, IRMAR, Université Rennes

 

Rapporteurs avant soutenance

Sophie DABO-NIANG Professeur, Université de Lille

Alois KNEIP Professeur, Université de Bonn

Composition du Jury

NomQualitéEtablissementRôle
Sophie DABO-NIANGProfesseurUniversité de LilleExaminateur
Vincent FEUILLARDExpert statistiqueRenault Technocentre, Guyancourt Examinateur
Claire GORMLEYProfesseurUniversity College DublinExaminateur
Alois KNEIPProfesseurUniversité de BonnExaminateur
André MASProfesseurUniversité de MontpellierExaminateur
Valentin PATILEAProfesseurCREST, ENSAIDirecteur de thèse
Nicolas KLUTCHNIKOFF Maître de conférencesIRMAR, Université Rennes 2Co-directeur de thèse


Mot clés 

analyse de données fonctionnelles ; analyse en composantes principales fonctionnelles ; lissage optimal ; groupement model-based ; régularité

Méthodes statistiques pour données fonctionnelles multivariées

Résumé : Le sujet de cette thèse est lié à l’analyse de données fonctionnelles et est motivé par l’analyse de données provenant de l’industrie automobile. Les méthodes standards concernant les données fonctionnelles sont basées sur l’hypothèse que les courbes sont observées de façon continue et sans erreur. Or, en pratique, c’est rarement le cas. Pour cette rai- son, une étape cruciale est de reconstruire les trajectoires à partir de mesures bruitées ayant des instants d’observations discrets et aléatoires. Pour cela, nous proposons une approche originale : l’utilisation de la régularité locale du processus générant les courbes. Ainsi, utilisant le grand nombre de trajectoires, ainsi que leur variabilité intrinsèque, nous proposons un estimateur simple de cette régularité locale. Munis de cet estimateur, nous construisons un estimateur par polynômes locaux, quasiment optimal, des courbes à partir d’un échantillon de courbes bruitées. Des estimateurs non-paramétriques des fonctions moyenne et covariance pour données fonctionnelles, basés sur la régularité locale du processus, sont développés. De plus, un algorithme de groupement, de type model-based, pour une classe générale de données fonctionnelles pour laquelle les composantes peuvent être des courbes ou des images est présenté. Les résultats sur des données réelles et simulées montrent les bonnes performances de ces méthodes. Un package Python, implémentant celles-ci et disponible publiquement, a été développé.

Abstract: The topic of this thesis is related to functional data analysis and is motivated by modern data from automobile industry. The standard functional data methods rely on the assumption that the curves are continuously observed, without error. However, in general, the real data is neither continuously nor exactly observed. Therefore, a crucial step is to recover the trajectories from noisy measurements at discrete random points. For that, we propose an original point of view: the local regularity of the process generating the curves. Thus, combining information both within and across trajectories, we propose a simple estimator for this local regularity. Given this estimate, we build a nearly optimal local polynomial smoother of the curves from a sample of noisy trajectories. Nonparametric estimators for the mean and the covariance functions of functional data, using the local regularity of the process, are derived. Moreover, we propose a model-based clustering algorithm for a general class of functional data for which the components could be curves or images. Results of both simulated and real data show the good performances of this method. A Python package, implementing the methods and publicly available, has been developed.