Premier semestre

Apprentissage statistique

Objectifs

Ce cours porte sur les méthodes d’apprentissage supervisé pour la régression et la classification. En partant d’algorithmes élémentaires tels que les moindres carrés ordinaires, nous aborderons les méthodes de régularisation (essentielles dans les contextes d’apprentissage à grande échelle), les règles de décision non paramétriques telles que les machines à vecteurs de support (SVM), et plus largement les méthodes à noyau dans les espaces de Hilbert à noyau auto-reproduisant. Ensuite, nous étudierons les techniques d’ensembles, avec des rappels sur le bagging, les forêts aléatoires, avec un accent particulier sur le boosting (XGBoost). Enfin, nous aborderons quelques aspects de la sélection de variables.rnTout au long du cours, nous mettrons l’accent sur les aspects méthodologiques et algorithmiques, tout en donnant un aperçu des fondements théoriques sous-jacents. Des séances pratiques permettront d’appliquer les méthodes à des jeux de données en utilisant Python. Le cours alternera entre des cours magistraux et des séances de travaux pratiques.rn

Plan

Supervised learning; Regression; Classification; Empirical risk minimization; Model evaluation; Cross validation; Model complexity; Large scale optimization; Stochastic gradient descent; Regularization; RIDGE and LASSO; Support Vector Machine; Kernel trick; Ensemble methods (Random forest, Aggregation, Boosting); Feature selection.

Prérequis

Bases d’apprentissage supervisé, régression linéaire, régression logistique, bases d’optimisation, programmation Python