Ce cours aborde les problèmes et les solutions liés au “big data” avec comme objectif d’aborder tous les aspects permettant le développement d’un pipeline de données efficace allant de la préparation et la représentation des données jusqu’à leur analyse. Le cours aborde les deux axes suivants. 1) Gestion des données : paradigmes de programmation parallèle avec des données large échelle (MapReduce, Pregel), optimisation des data pipelines, qualité des données, stockage optimisé des données massives. 2) Analyse des données : analyse de données complexes (graphes de données et de connaissances, texte), in-database ML, bases de données vectorielles, integration de données (datalake). Les travaux pratiques permettent d’aborder les langages et les technologies suivantes : SQL, MapReduce, Pregel, Cypher, Spark, Delta, MLLib, GraphX.
Informations
- Période: M2 S1
- Langue: français
- Crédits: 6 ECTS