Premier semestre

Machine Learning for Data Science

Objectifs

A l’issue de ce cours, les étudiants devraient être capables de :

– sélectionner les méthodes appropriées
– mettre en œuvre ces méthodes statistiques ;
– comparer les procédures de pointe sur la base d’arguments statistiques ;
– évaluer les performances de prédiction d’un algorithme d’apprentissage ;
– appliquer ces connaissances clés aux activités de la classe à l’aide de logiciels statistiques.

Plan

Ce cours se concentre sur les méthodes d’apprentissage supervisé pour la régression et la classification. En partant d’algorithmes élémentaires tels que les moindres carrés ordinaires, nous couvrirons les méthodes de régularisation (cruciales dans l’apprentissage à grande échelle), les règles de décision non paramétriques telles que la machine à vecteur de support, l’algorithme du plus proche voisin et CART.

Enfin, les techniques de bagging et de boosting seront discutées en présentant la forêt aléatoire et l’algorithme XGboost.

Nous nous concentrerons sur les aspects méthodologiques et algorithmiques, tout en essayant de donner une idée des fondements théoriques sous-jacents. Des sessions pratiques donneront l’occasion d’appliquer les méthodes sur des ensembles de données réelles en utilisant R ou Python. Le cours alternera entre cours magistraux et séances de travaux pratiques.

Prérequis

Algèbre linéaire, probabilité, optimisation