Niveau
Intermédiaire
Prix
2430 Euros HT
Editeur

Durée
3 jours
Public visé
- professionnels souhaitant concevoir, développer, optimiser et sécuriser des solutions d’ingénierie des données à l’aide des services AWS
Prérequis
- Familiarité avec les concepts de base de l’apprentissage automatique, tels que l’apprentissage supervisé et non supervisé, la régression, la classification et les algorithmes de clustering.
- Connaissance pratique du langage de programmation Python et des bibliothèques de science des données courantes telles que NumPy, Pandas et Scikit-learn.
- connaissance de la plateforme AWS.
- Connaissance SQL & Git sont un atout
Objectifs
- Comprendre les rôles fondamentaux et les concepts clés de l’ingénierie des données, notamment les profils de données, la découverte de données et les services AWS pertinents.
- Identifier et expliquer les différents outils et services AWS essentiels à l’ingénierie des données, incluant l’orchestration, la sécurité, la surveillance, le CI/CD, l’IaC, la mise en réseau et l’optimisation des coûts.
- Concevoir et mettre en œuvre une solution de lac de données sur AWS, incluant le stockage, l’ingestion, la transformation et la mise à disposition des données.
- Optimiser et sécuriser une solution de lac de données en implémentant des formats de table ouverts, des mesures de sécurité et en résolvant les problèmes courants.
- Concevoir et configurer un entrepôt de données avec Amazon Redshift Serverless, en comprenant son architecture, ses capacités d’ingestion, de traitement et de mise à disposition des données.
- Gérer la sécurité et le contrôle d’accès des entrepôts de données dans Amazon Redshift, en comprenant l’authentification, la sécurité des données, l’audit et la conformité.
- Concevoir, optimiser, orchestrer et sécuriser des pipelines de données par lots efficaces utilisant les services AWS appropriés pour le traitement et la transformation des données
- Architecturer, optimiser et sécuriser des pipelines de données en streaming, en comprenant divers cas d’utilisation, l’ingestion, le stockage, le traitement et l’analyse à l’aide des services AWS
Programme (3 jours)
JOUR 1
Rôles et concepts clés de l’ingénierie des données
Outils et services d’ingénierie des données AWS
Conception et mise en œuvre de lacs de données
Lab 1: Configuration d’un lac de données sur AWS
Optimisation et sécurisation d’une solution de lac de données
Lab 2: Automatisation de la création d’un lac de données à l’aide des plans AWS Lake Formation
JOUR 2
Architecture et principes de conception d’un entrepôt de données
Lab 3: Configuration d’un entrepôt de données avec Amazon Redshift Serverless
Techniques d’optimisation des performances des entrepôts de données
Sécurité et contrôle d’accès pour les entrepôts de données
Lab 4: Gestion du contrôle d’accès dans Redshift
Conception de pipelines de données par lots
Mise en œuvre de stratégies pour les pipelines de données par lots
Lab 5: Une journée dans la vie d’un ingénieur de données
JOUR 3
Optimisation, orchestration et sécurisation de pipelines de données par lots
Lab 6: Orchestration du traitement des données dans Spark à l’aide d’AWS Step Functions
Modèles d’architecture de données en streaming
Lab 7: Analyse de streaming avec Amazon Managed Service pour Apache Flink
Optimisation et sécurisation des solutions de streaming
Lab 8: Contrôle d’accès avec Amazon Managed Streaming pour Apache Kafka
