IT Tools 2 (NoSQL, Big Data Processing with Spark)
- Enseignant(s)
- Hervé MIGNOT, Nikolaos PARLAVANTZAS
- Type de matière
- INFORMATIQUE
- Correspondant
- François PORTIER
- Module
-
UE-MSD05 : IT Tools
- Nombre d'ECTS
- 3
- Code matière
- MSD 05-2
- Répartition des enseignements
-
Heures de cours : 24
- Langue d'enseignement
- Anglais
Objectifs
NoSQL : rnComprendre les principes fondamentaux des bases de données NoSQL et les caractéristiques et défis spécifiques que les bases de données NoSQL abordent par rapport aux bases de données SQL classiques. Évaluer et sélectionner les technologies NoSQL appropriées pour des situations particulières. Acquérir une expérience pratique dans le déploiement et l’utilisation de bases de données NoSQL, telles que MongoDB ou Neo4j.rnrnBig Data Processing with Spark : rnComprendre les enjeux du calcul distribué à travers l’architecture Apache Spark. Découvrir comment utiliser Apache Spark, les plateformes et les outils disponibles. Pratiquer le codage PySpark pour apprendre les fonctionnalités d’Apache Spark, de la gestion des données à l’apprentissage automatique.
Plan
NoSQL :rn- Origines NoSQL (histoire et acteurs) rn- Comparaison NoSQL / SQL rn- Concepts clés des bases de données NoSQL : rn – Modèles de données rn – Modèles de distribution rn – Langages de requête rn – Cohérence rn- Types de bases de données NoSQL rn- Technologies et comparaisons des bases de données NoSQL (MongoDB, Cassandra, Neo4j, Redis, ElasticSearch…) rn- Neo4j introduction + laboratoire rn- Cassandra introduction + laboratoire rnrnBig Data Processing with Spark : rn- Introduction à l’informatique distribuée rn- Origine et histoire d’Apache Spark, liens avec Apache Hadoop rn- Architecture et concepts principaux d’Apache : rn – Les "modules" d’Apache Spark rn – Architecture : pilote et exécuteurs rn – Transformations vs. actions rn – Évaluation paresseuse rn – Structures de données : RDD, dataframes & datasets rn- Utilisation d’Apache Spark : rn – Créer des sessions et se connecter à des clusters rn – Utiliser les fonctions de gestion des données rn – Exploiter SQL avec Spark SQL rn- Entraîner et tester des modèles d’apprentissage automatique rn- Utiliser l’interface Web de Spark
Prérequis
NoSQL :rnConnaissance de base du langage SQL, des bases de données et des systèmes informatiquesrnrnBig Data Processing with Spark : rnConnaissance de base des systèmes informatiques et de l’architecture, pratique des langages Python et SQL