Deuxième semestre

Outils pour le Big Data

Objectifs

S’orienter parmi les technologies étiquetées « big data » les plus courantes
Identifier les goulots d’étranglements dans l’exécution d’un traitement de données et adapter le traitement pour y remédier
Choisir et mettre en œuvre une architecture adaptée à un traitement donné, et en particulier choix CPU vs. GPU, local vs. cloud, batch vs. flux, haut niveau vs. bas niveau etc.
Produire des analyses statistiques simples avec Spark
Provisionner une infrastructure simple sur AWS

Plan

Le terme de big data est de plus en plus utilisé aussi bien en entreprise que dans les médias généralistes. Malheureusement, souvent, il est utilisé en tant que terme fourre-tout. Ce cours débute avec une déconstruction de la notion de big data en présentant les V du big data et l’introduction de la notion de traitement de données à haute performance.
Il présente ensuite un panorama des technologie étiquetées big data et les architectures informatiques associés en les mettant en parallèle à des solutions classiques :
Architecture générale du calcul en local (processeur, mémoire vive, stockage) et en distribué (centralisé vs. pee-to-peer ; avantages et inconvénients des systèmes répartis)
Architectures de stockages (systèmes de fichier vs. base de données, local vs. Distribué)
Zoom sur le stockage distribué avec HDFS
Zoom sur le calcul distribué avec Spark et MapReduce
Présentation du cloud computing avec manipulation de Amazon Web Service

Prérequis

Connaissances élémentaires en Python