Premier semestre

Topics, Case Studies, Conferences

Enseignant(s): Romaric GAUDEL, Shadi IBRAHIM, Rémi LELUC, Franck ORAGA, Thomas ZAMOJSKI

Type de matière: STATISTIQUE

Correspondant: François PORTIER

Module: UE-MSD06 : Case Studies and Project

Nombre d'ECTS: 2.5

Code matière: MSD 06-2

Répartition des enseignements: Heures de cours : 36

Langue d'enseignement: Anglais

Objectifs

Cette partie est divisée en plusieurs sessions de séminaires (chacune étant consacrée à un sujet récent en science des données) :rn- THÉORIE BANDIT : vous apprendrez à identifier quand l’exploration est nécessaire dans un système d’apprentissage, à connaître les stratégies standard pour répondre à cette exigence, à mettre en œuvre et à tester (à l’aide de cahiers) ces stratégies. Le besoin d’exploration est omniprésent dans les applications, dès lors que nous apprenons un modèle à partir des données résultant des choix effectués par ce modèle. Ce défi est l’un des obstacles fondamentaux de l’apprentissage par renforcement et des systèmes de recommandation.rn QUELQUES AVANCÉES RÉCENTES EN MATIÈRE DE TRAITEMENT DES MÉGADONNÉES DANS LE CLOUD : À la fin des cours, l’étudiant sera capable d’identifier les principaux goulots d’étranglement en matière de performances lors de l’exécution d’applications de mégadonnées dans le cloud et saura comment améliorer les performances de Hadoop en conséquence. Au cours de cette conférence, nous aborderons plusieurs approches et méthodes utilisées pour optimiser les performances de Hadoop dans le cloud. Nous discuterons également des limites de Hadoop et présenterons les systèmes de gestion des ressources et les planificateurs de tâches de pointe pour les applications Big Data, notamment Mesos, Delay scheduler, ShuffleWatcher et Tetrium. En outre, nous discuterons de la manière dont les techniques de redondance, telles que la réplication et le codage d’effacement, affectent les performances des applications MapReduce. MÉTHODES D’OPTIMISATION STOCHASTIQUE POUR L’APPRENTISSAGE AUTOMATIQUE : À la fin du cours, les étudiants auront acquis une solide compréhension de la théorie et des applications des méthodes d’optimisation stochastique, une vue d’ensemble des différentes techniques d’optimisation stochastique telles que Adam, Adagrad, (L)BFGS et les méthodes de conditionnement générales, ainsi que des techniques pratiques pour appliquer les méthodes d’optimisation stochastique à des problèmes concrets d’apprentissage automatique.rnrnrn- ÉTUDES DE CAS SMART DATA : À la fin du cours, l’étudiant saura quels sont les défis liés au déploiement et à la maintenance d’un modèle d’apprentissage automatique en fonctionnement, quelles sont les meilleures pratiques pour répondre à ces préoccupations, comment créer une image Docker et exécuter un conteneur, comment fournir un modèle en tant que service en python, et quelles sont les méthodes statistiques pour la surveillance des modèles en ligne et hors ligne.rn

Plan

– THÉORIE BANDIT : Paramètres et cas d’utilisation du bandit, analyse de la stratégie « Explore then Commit », présentation, mise en œuvre et test de solutions standard : epsilon-greedy, UCB, Thompson Sampling. – QUELQUES AVANCÉES RÉCENTES EN MATIÈRE DE TRAITEMENT DU BIG DATA DANS LE CLOUD : Approches pour optimiser Hadoop dans les clouds (2,5 heures), gestion des ressources et planification des tâches pour les applications Big Data : Mesos, Delay scheduler, ShuffleWatcher, Tetrium, etc. (2,5 heures),rnTravail indépendant (provisoire) : Les étudiants seront répartis en groupes qui devront chacun faire une présentation de 15 à 20 minutes (1 heure)rnrn- MÉTHODES D’OPTIMISATION STOCHASTIQUE POUR L’APPRENTISSAGE AUTOMATIQUE : Ce séminaire explore les méthodes d’optimisation stochastique adaptées à l’apprentissage automatique, plongeant les étudiants à la fois dans la théorie et dans la pratique. L’accent est mis sur l’algorithme largement utilisé de descente stochastique du gradient (SGD) et ses variantes. En explorant la théorie derrière le SGD, nous découvrons ses limites et nous nous intéressons à des améliorations telles que la mise à l’échelle diagonale, les techniques du second ordre et les méthodes de conditionnement plus larges. En complément, le cours se transforme en une session pratique, dévoilant l’application directe de l’optimisation stochastique dans l’apprentissage par renforcement à travers les méthodes de gradient de politique.rn – ETUDES DE CAS SMART DATA : Les modèles d’apprentissage automatique sont réputés difficiles à mettre en place et à maintenir en production. Mais pourquoi en est-il ainsi et que pouvons-nous faire pour y remédier ? Dans ce cours, nous explorerons les toutes dernières tendances en matière de MLOps. Nous découvrirons des technologies telles que les conteneurs Docker et FastAPI. Nous apprendrons également des méthodes statistiques pour automatiser intelligemment la surveillance des modèles et nous verrons comment les mettre en œuvre via des implémentations dans des paquets Python tels que scikit-multiflow et ruptures.rn

Prérequis

– THÉORIE BANDIT : Connaissances de base en Python et en programmation orientée objet – Des connaissances de base en apprentissage automatique seraient un plusrnrn- QUELQUES AVANCÉES RÉCENTES EN MATIÈRE DE TRAITEMENT DU BIG DATA DANS LE CLOUD : Suivez le cours : Traitement du Big Data dans le cloud : Hadooprn- MÉTHODES D’OPTIMISATION STOCHASTIQUE POUR L’APPRENTISSAGE AUTOMATIQUE : Analyse convexe, algèbre linéaire, Python (bases/numpy/pytorch)rn- ÉTUDES DE CAS SMART DATA : Connaissances de base en langage de programmation Python