Data Science et sport : défis et perspectives selon Geoffroy Berthelot
Le sport a toujours été au cœur des thèmes de recherche de Geoffroy Berthelot. Data Scientist à l’INSEP, il est par ailleurs membre du groupe Statistique & Sport de la Société Française de Statistique, partenaire du Data Challenge qui se tiendra en mars à l’ENSAI avec la Fédération Française de Rugby.
L’INSEP, l’Institut national du sport, de l’expertise et de la performance accueille régulièrement des Ensaiens et Ensaiennes dans le cadre de stages de fin d’études.
Limites physiologiques et réseaux complexes
Geoffroy Berthelot a mené des travaux de recherche à l’IRMES (INSEP) durant une dizaine d’années sur la relation entre la performance et le vieillissement ainsi que sur les limites physiologiques humaines.
Dans ce cadre, il s’est interrogé sur le cas d’Usain Bolt. Comment l’athlète jamaïcain d’1 m 95 a-t-il pu décrocher le record du 100 m en 9 s 58 ?
“Cet athlète cumule probablement plusieurs gènes exceptionnels qui lui confèrent une bonne explosivité en dépit de sa grande taille. C’est une question de probabilités : la chance qu’une personne sur 7 milliards d’humains puisse cumuler autant de gènes favorables à la performance sportive est faible, mais lui en est l’exemple parfait !”
Geoffroy Berthelot estime que l’on peut encore espérer quelques gains marginaux en termes de performance des athlètes, par exemple sur certaines épreuves de course de d’endurance, dont le marathon.
Depuis quelques années, il s’intéresse au transport dans les réseaux complexes, libres d’échelles et aux propriétés structurelles particulières de celui-ci. Il mène également des travaux sur les mouvements particulaires, sur la manière dont ces particules, par exemple des joueurs sur un terrain de foot, se déplacent et comment elles interagissent entre elles pour atteindre un objectif (marquer un but).
La Data Science comme moyen de prédiction des blessures, des victoires et des défaites
Les applications de la Data Science dans le domaine du sport sont multiples. L’une d’entre elles concerne la prévention des blessures. Un athlète blessé ne produisant pas de performance, les fédérations et clubs ont donc tout intérêt à exploiter la data à ce sujet.
“Il existe des modèles mathématiques et statistiques permettant d’estimer la fréquence, le volume et l’intensité optimale des entrainements pour chaque athlète afin de minimiser le risque de blessure”.
Geoffroy Berthelot souligne le fait que cette utilisation de la Data Science pour prévenir les blessures serait encore plus efficace si les données exploitées étaient biologiques. En effet, une grande partie des données se base sur des déclarations subjectives de ressentis des athlètes et de fait il existe un biais intra et inter-individuel difficilement quantifiable.
La Data Science pourrait également permettre de prédire les victoires ou défaites des équipes dans une certaine mesure et d’apporter une aide à la décision en temps réel pendant les matchs. Plusieurs laboratoires de recherche développent d’ailleurs des modèles à partir de données de matches agrégées ou des moyennes de déplacement pour essayer de mieux comprendre les déterminants de la victoire.
Le Data Scientist à l’INSEP doit précisément lancer des travaux de recherche sur un modèle mathématique permettant de prédire les victoires en fonction des déplacements des joueurs et de la balle. Il appliquera ce modèle au basket, grâce aux données de déplacement des joueurs et du ballon fournies par un club américain.
“Sur un match, cela représente 3 millions de lignes : le positionnement de chaque joueur à chaque instant et la position de la balle. Ces données permettront de tirer des conclusions, grâce à des modèles mathématiques basés sur des marches aléatoires biaisées corrélées, dans lesquelles on rajoute des paramètres pour modéliser le mouvement de chaque joueur”.
Tester des modèles mathématiques et statistiques sur FIFA ? Geoffroy Berthelot révèle que le jeu vidéo, dont les matchs sont générés par des intelligences artificielles, permet une exploitation des données. Une manière simple d’éprouver les modèles, quand bien même les matchs FIFA ne sont pas « réels”.
Les défis actuels des Data Scientists dans le domaine du sport
Pourquoi utiliser des données de jeux vidéo lorsque des milliers d’athlètes s’entraînent quotidiennement ?
“Le problème n’est pas tant l’existence des données, ce qu’il nous faut trouver, ce sont des cadres légaux entre les structures pour accéder à ces données et les traiter”.
Geoffroy Berthelot illustre ses propos par le cas de travaux de recherche sur le tennis, notamment sur des données issues du Grand Chelem. Selon qu’elles aient été générées à Roland Garros, Wimbledon, à l’US Open et à l’Open d’Australie, ces data tombent sous le coup de réglementation différentes, notamment le RGPD en Europe.
Il convient donc de trouver des accords avec chaque pays, chaque fédération, ou institut, afin de justifier de l’utilisation des données, de leur anonymisation, etc. Cela représente une charge administrative conséquente pour les chercheurs et un verrou majeur dans l’utilisation de ces données.
Geoffroy Berthelot souligne une autre difficulté à surmonter pour les Data Scientists : le lien entre l’innovation et le sport de haut niveau. La relation entre les deux est délicate : il y a un manque de communication d’une part et certaines réticences peuvent exister suite à des expériences technologiques infructueuses d’autre part.
“On se cherche mutuellement, on fait des conférences pour mieux sensibiliser les entraineurs à des technologies qui peuvent bénéficier à l’athlète. Cela fonctionne petit à petit. Un jour on arrivera peut-être à fluidifier complètement cette relation !”
L’effet Paris 2024 : les perspectives pour les futurs Data Scientists
En prévision des Jeux Olympiques à Paris en 2024, de nombreux Data Scientists ont été recrutés à partir de 2018.
Lors des JO de Londres en 2012, Geoffroy Berthelot avait étudié avec intérêt la stratégie britannique. “Dès 2010, les Anglais ont investi massivement en recrutant de nombreux statisticiens. Les travaux qu’ils ont réalisés ne sont pas accessibles, mais il est évident qu’ils ont travaillé sur les athlètes, la récupération et l’optimisation des technologies, comme les vélos. Cela a contribué à l’amélioration des performances, c’est certain”.
Alors, un “effet Paris 2024” qui permettrait de rattraper les Anglo-Saxons ? Ceux-ci ont en effet une longueur d’avance lorsqu’il s’agit d’exploiter les données dans le monde du sport. La NBA et la NFL récupèrent systématiquement toutes les données de positionnement lors des matchs, et ce depuis des années.
“Après 2024, il y aura toujours un intérêt du sport pour la data science. Les clubs vont recruter, ils sont de plus en plus intéressés. Ils prennent conscience qu’il faut désormais un expert pour exploiter au mieux les données qu’ils récoltent”.
Futurs Data Scientists, le sport vous attend !
En mars 2021, l’ENSAI accueillera d’ailleurs un événement entièrement dédié à cette thématique. Au programme notamment : un Data Challenge étudiant en partenariat avec la Fédération Française de Rugby et un séminaire du groupe Statistique et Sport de la SFdS.