Science des données et transport : le stage de Justine au sein du Datalab’ Mass Transit de Transilien SNCF Voyageurs
Étudier la répartition des voyageurs sur le quai pour améliorer leur confort et la ponctualité des trains : Justine Lebrun, ingénieure diplômée de l’ENSAI en 2024, y a consacré son stage de fin d’études. Retour sur cette expérience de six mois au sein du Datalab’ Mass Transit de Transilien SNCF Voyageurs.
Au terme de son stage, Justine Lebrun a poursuivi ses travaux sur le positionnement à quai des voyageurs dans le cadre d’une thèse CIFRE de doctorat.
Justine, qu’est-ce que le Datalab’ Mass Transit et quel était le sujet de ton stage de fin de cursus ingénieur ?
Justine Lebrun : Le Datalab’ Mass Transit est une entité d’innovation centrée sur la data au sein de Transilien SNCF Voyageurs. Transilien est l’opérateur de trains Mass Transit en Île-de-France.
Le Mass Transit, c’est réussir à synchroniser de millions de voyageurs avec des milliers de trains. Pour répondre à ce défi, le Datalab’ Mass Transit exploite les données au service d’un parcours voyageurs fluide et d’une exploitation performante en Mass Transit.
L’intitulé de mon stage était : « Etude de la répartition des voyageurs à quai en zone dense ». J’ai été encadrée par deux personnes : un chargé de recherche de l’université Gustave Eiffel ainsi que le responsable du Datalab’, qui était mon tuteur principal.
Quelle mission t’a-t-on confiée ? Quels outils et méthodes as-tu mobilisés durant ces six mois ?
Ma mission concernait l’étude du positionnement des voyageurs à quai. En effet, les voyageurs ne se positionnent pas uniformément le long des quais. Cela peut entrainer divers problèmes pour le confort et la sécurité des voyageurs ou la ponctualité des trains.
La première étape de mon stage s’est concentrée sur l’identification des facteurs qui influencent le choix des voyageurs. Ensuite, l’objectif était de réussir à modéliser la distribution des voyageurs le long des quais grâce aux variables identifiées. Pour commencer, j’ai beaucoup étudié la littérature en lien avec mon sujet de stage.
Une grande partie de mon travail a été concentrée sur le traitement de données, qui étaient de nature diverse, des geodata par exemple. D’un point de vue plus technique, j’ai principalement utilisé R pour coder. En termes de méthode, j’ai pu utiliser de la régression linéaire, du clustering ou encore des forêts aléatoires.
Mon travail était un travail de recherche et n’avait pas pour vocation à être industrialisé à ma sortie de stage. Mes résultats seront cependant utiles dans le cadre de ma thèse qui a débuté en janvier.
Tu poursuis en doctorat, à Transilien SNCF Voyageurs, bravo ! Sur quel sujet portera ta thèse ?
Effectivement, je continue dans la même entité en thèse CIFRE. Elle est co-encadrée par l’université Paris-Saclay ainsi que l’université Gustave Eiffel. Le sujet de ma thèse est : « Modélisation / prévision / gestion du positionnement des voyageurs à quai et à bord des trains en zone dense ». Elle est donc très en lien avec mon sujet de stage.
Revenons un peu sur tes années à l’ENSAI. Tout d’abord, quel a été ton parcours entre le baccalauréat et la première année en tant qu’élève-ingénieure en science des données ?
J’ai fait une première année de prépa MSPI au lycée Rabelais à Saint-Brieuc puis je me suis réorientée vers l’Université de Rennes, où j’ai obtenu une Licence de Mathématiques Appliquées. Après ma licence, je voulais approfondir mes connaissances en statistique et en data science. J’ai donc postulé, via admission sur titres, à plusieurs masters et écoles d’ingénieurs en lien avec ces domaines. C’est finalement l’ENSAI qui a retenu mon attention notamment car c’est une école réputée pour offrir de solides connaissances en statistique. De plus, plusieurs des spécialisations proposées en troisième année m’intéressaient.
Justement, quelle spécialisation as-tu choisie et pourquoi ?
En deuxième année, lorsque nous avons dû faire notre choix de spécialisation, je n’avais pas encore de projet précis concernant mon futur professionnel. Je ne savais pas si je voulais m’orienter vers une carrière industrielle en entreprise ou académique au sein du monde de la recherche. J’ai donc fait le choix de m’orienter vers la filière la plus généraliste, c’est-à-dire la filière Génie Statistique. De plus, J’ai toujours eu un intérêt particulier pour le domaine de l’écologie et je considérais que ce parcours était le plus adapté.
Merci Justine !
Vous souhaitez devenir data scientist ? Plus d’informations sur le cursus ingénieur de l’ENSAI