Sport et data : quatre thèses dirigées ou encadrées par des enseignants-chercheurs de l’ENSAI
Euro, Tour de France et bien sûr Jeux Olympiques : les performances des athlètes sont au centre de l’attention lors de ces rendez-vous internationaux. Pour viser l’excellence sportive, limiter les blessures ou encore aider à la décision en temps réel, exploiter la data revêt une importance majeure. Naturellement, les projets de recherche se multiplient autour de ces sujets en plein essor, à l’interface du sport et de la science des données.
Parmi les thèses actuellement dirigées ou encadrées par des enseignants –chercheurs de l’ENSAI, quatre portent sur le thème du sport. Koffi Amezouwui, Sunny Wang, Antoine Bouvet et Arthur Guillotel présentent leurs travaux.
Koffi Amezouwui, Analyse et classification des situations de jeu de football pour peupler les environnements virtuels
Koffi Amezouwui est doctorant en première année à l’ENSAI et au CREST. Sa thèse est co-financée par le CREST et l’EUR Digisport. Licencié en Mathématiques Fondamentales à l’Université de Lomé, il a obtenu un Master en Mathématiques Appliquées, parcours Statistiques, à l’Université de Strasbourg.
Ses travaux sont dirigés par Matthieu Marbac-Lourdelle (CREST-ENSAI), et co-encadrés par Brigitte Gelein (IRMAR-ENSAI) et Anthony Sorel (Université Rennes 2-M2S).
“Cette thèse s’inscrit dans le domaine de la statistique appliquée au sport, avec un focus particulier sur le football. L’objectif de la thèse est d’analyser et de classer les situations de jeu de football afin de peupler les environnements virtuels. Pour répondre à notre objectif, nous nous intéressons à la classification des possessions, c’est-à-dire des phases de jeu ininterrompues. Chaque possession est caractérisée par la trajectoire du ballon. La possession s’arrête lorsque l’équipe perd le ballon (tir, interception, touche…). Nous proposons de modéliser la trajectoire du ballon par une chaîne de Markov cachée, caractérisée par la présence d’un état absorbant ainsi que par une distribution initiale distincte de la distribution pseudo-stationnaire. L’état absorbant correspond à une perte de balle, marquant la fin de la possession. La distribution initiale modélise la distribution lors de la prise de balle et n’a donc pas de raison d’être identique à la distribution pseudo-stationnaire. Les modèles de Markov cachés sont peu étudiés en présence conjointe d’un état absorbant et d’une distribution initiale libre. L’étude de ce modèle, dans le contexte de la modélisation des trajectoires du ballon dans les séquences de football, constituera notre contribution en statistique mathématique. Pour vérifier l’intérêt de notre modélisation dans l’analyse de données de football, nous disposons d’une base de données riche, constituée des enregistrements de 38 matchs pour lesquels nous avons les coordonnées du ballon enregistrées toutes les 0,04 secondes, ainsi que les positions des joueurs, etc. Après le clustering des situations de jeu, nous allons générer, en utilisant des modèles d’IA, de nouvelles séquences réalistes de situations de jeu pour peupler des environnements virtuels. Ces environnements permettront aux joueurs de s’entraîner sur le plan cognitif sans la nécessité d’efforts musculaires.
Nous espérons que cette recherche contribuera de manière significative à la compréhension et à la prise de décision des professionnels du football, offrant ainsi de nouvelles perspectives pour le peuplement des environnements virtuels et l’analyse statistique dans le domaine du sport.”
Sunny Wang, Modélisation adaptative des données fonctionnelles, avec des applications au sport et à d’autres données complexes
Après un premier cycle universitaire à Singapour, Sunny Wang a obtenu un Master en Statistique et Econométrie à la Toulouse School of Economics. Doctorant au CREST et à l’ENSAI, ses travaux de thèse sont dirigés par Valentin Patilea. Sa thèse est co-financée par le CREST et l’EUR Digisport.
“De nos jours, les jeux de données complexes prennent souvent la forme de courbes ou de surfaces. Par exemple, on peut étudier les courbes de performance des athlètes au cours de leur carrière afin de définir des profils de performance et identifier les talents. Les données d’accéléromètre peuvent, elles, révéler la dynamique des mouvements.
L’analyse fonctionnelle des données (AFD) fournit un cadre approprié pour l’examen de ces types de données. Cette thèse vise à développer de nouvelles méthodes qui s’adaptent à la structure de ces ensembles de données complexes.
L’un des défis réside dans la nature « locale » de ces courbes. Par exemple, l’identification des caractéristiques les plus saillantes dans les données d’accéléromètre peut s’avérer difficile en raison de la régularité variable des courbes, qui change en fonction de l’activité physique d’un individu tout au long de la journée. La question clé est de savoir comment extraire les principaux modes de variation tout en tenant compte de ces caractéristiques locales.
La manière dans laquelle les données fonctionnelles sont recueillies constitue un autre défi. Par exemple, l’âge auquel les athlètes participent aux compétitions varie de manière aléatoire, ce qui complique le processus d’estimation des courbes de performance. La prise en compte de ce caractère aléatoire peut améliorer la précision de la modélisation. De même, dans les données d’images, l’identification des orientations et directions optimales pour l’estimation peut être avantageux.
Nous relevons ces défis en développant des méthodes qui intègrent ces complexités, soutenues par des garanties théoriques et des implémentations pratiques.”
Antoine Bouvet, Monitoring et modélisation de la performance en natation
Doctorant au laboratoire Mouvement Sport Santé (M2S) et au CREST, Antoine Bouvet est licencié en STAPS, diplômé du Magistère Sciences du Sport & Education Physique (Ecole Normale Supérieure de Rennes) et du Master Entraînement et Optimisation de la Performance Sportive (Université Rennes 2).
Ses travaux sont co-encadrés par Nicolas Bideau (M2S, INRIA MimeTIC), Matthieu Marbac-Lourdelle (CREST, ENSAI) et Salima El-Kolei (CREST, ENSAI).
Titre de la thèse : Monitoring et modélisation de la performance en natation : développement d’outils et méthodes basées centrales inertielles et apprentissage automatique pour l’analyse biomécanique et technique du nageur en situation réelle d’entraînement et de compétition
« Ce travail de thèse s’agrège sous l’acronyme SWIMO²P (SWImming Monitoring & Modeling of Performance) et s’intègre dans le cadre du projet ANR PPR NePTUNE (Natation & Paranatation, Tous Unis pour Nos Elites).
A l’heure de la révolution digitale, la natation est une discipline encore sous-technologisée, avec une culture capteur faible et de fortes réticences culturelles à leur intégration. Or, la densification actuelle du haut-niveau contraint à toujours plus d’optimisation et d’individualisation du processus d’entraînement, ainsi que d’analyse fine des compétitions. L’apport d’approches data-driven, à travers l’utilisation de centrales inertielles en routine, fournit une perspective de suivi in-situ intéressante.
Néanmoins, l’exploitation de ces données pour l’accompagnement scientifique à la performance pose de nombreux obstacles, notamment méthodologiques, afin d’extraire – automatiquement et de manière généralisable – des métriques de performance et de technique à partir d’une série temporelle multivariée relative aux accélérations et vitesses angulaires 3D du mouvement.
Les différents travaux menés au cours de cette thèse comprennent donc, d’un côté, des contributions méthodologiques basées apprentissage automatique et analyse de données fonctionnelles pour le monitoring biomécanique du nageur : (1) reconnaissance d’activité humaine, (2) clustering des qualités techniques, (3) détection de rupture cinématique. De l’autre, des applications pratiques sont proposées en collaboration avec la Fédération Française de Natation et au service de l’accompagnement scientifique à la performance : (4) profilage des habiletés biomécaniques en sprint, (5) modèle de performance internationale en eau libre, (6 et 7) caractérisation des liens entre régulation technique et stratégies de course. Ces outils sont actuellement déployés dans le cadre de la préparation des nageurs aux Jeux Olympiques de Paris 2024, afin d’analyser la performance, mais surtout la technique sous-jacente, aussi bien à l’entraînement qu’en compétition internationale bassin et eau libre. »
Arthur Guillotel, Approche multiparamétrique et prédictive du passage entre joueur à haut potentiel et footballeur professionnel
Ingénieur diplômé de l’Ecole des Mines de Nantes, Arthur Guillotel a poursuivi sa formation dans le cadre d’un Master STAPS EOPS parcours accompagnement scientifique à la performance à l’INSEP. Désormais en thèse CIFRE au Stade Rennais, il est co-encadré par Brigitte Gelein (IRMAR – ENSAI), Benoit Bideau (Université Rennes 2-M2S) et Anthony Sorel (Université Rennes 2-M2S).
“Ce projet de thèse vise à prédire la réussite de la carrière de jeunes footballeurs en centre de formation. L’ensemble des joueurs de l’académie d’un club de football professionnel a été suivi sur une période de quatre saisons consécutives en mesurant une multitude de paramètres sur le plan athlétique, technico-tactique et psychologique. La cinétique d’évolution de variables athlétiques en fonction de l’âge et des antécédents de blessure a été modélisée individuellement en utilisant les modèles mixtes. Des indices de malus (respectivement bonus) ont été créés afin de prendre en compte les blessures antérieures en pénalisant les individus ayant souffert de blessures, (respectivement en favorisant les individus très peu blessés).
Pour chaque modèle, une validation croisée a été utilisée pour évaluer les performances des modèles. Les résultats indiquent des modèles fiables et précis et valident ainsi notre choix porté sur les modèles mixtes pour modéliser l’évolution de la performance en fonction de l’âge, tout en intégrant l’information sur les blessures antérieures. Cette approche ouvre de multiples perspectives concernant l’analyse et la prédiction de potentiel, à commencer par l’estimation de potentiel maximal et le moment d’atteinte de ce maximum. L’utilisation de couloirs de performances basés sur ces modèles mixtes pourront également apporter une plus-value pour analyser la performance à un instant donné, ainsi que la progression attendue. Enfin, l’analyse de données fonctionnelles sera mobilisée tant pour la classification non supervisée des joueurs que pour prédire le passage en joueur professionnel.”
En savoir plus sur l’EUR Digisport, dont l’ENSAI est partenaire académique et sur le doctorat à l’ENSAI