Data Engineering on AWS

Niveau

Intermédiaire

Prix

2430 Euros HT

Editeur

Durée

3 jours

Public visé

professionnels souhaitant concevoir, développer, optimiser et sécuriser des solutions d’ingénierie des données à l’aide des services AWS

Prérequis

Familiarité avec les concepts de base de l’apprentissage automatique, tels que l’apprentissage supervisé et non supervisé, la régression, la classification et les algorithmes de clustering.
Connaissance pratique du langage de programmation Python et des bibliothèques de science des données courantes telles que NumPy, Pandas et Scikit-learn.
connaissance de la plateforme AWS.
Connaissance SQL & Git sont un atout

Objectifs

Comprendre les rôles fondamentaux et les concepts clés de l’ingénierie des données, notamment les profils de données, la découverte de données et les services AWS pertinents.
Identifier et expliquer les différents outils et services AWS essentiels à l’ingénierie des données, incluant l’orchestration, la sécurité, la surveillance, le CI/CD, l’IaC, la mise en réseau et l’optimisation des coûts.
Concevoir et mettre en œuvre une solution de lac de données sur AWS, incluant le stockage, l’ingestion, la transformation et la mise à disposition des données.
Optimiser et sécuriser une solution de lac de données en implémentant des formats de table ouverts, des mesures de sécurité et en résolvant les problèmes courants.
Concevoir et configurer un entrepôt de données avec Amazon Redshift Serverless, en comprenant son architecture, ses capacités d’ingestion, de traitement et de mise à disposition des données.
Gérer la sécurité et le contrôle d’accès des entrepôts de données dans Amazon Redshift, en comprenant l’authentification, la sécurité des données, l’audit et la conformité.
Concevoir, optimiser, orchestrer et sécuriser des pipelines de données par lots efficaces utilisant les services AWS appropriés pour le traitement et la transformation des données
Architecturer, optimiser et sécuriser des pipelines de données en streaming, en comprenant divers cas d’utilisation, l’ingestion, le stockage, le traitement et l’analyse à l’aide des services AWS

Programme (3 jours)

JOUR 1

Rôles et concepts clés de l’ingénierie des données

Outils et services d’ingénierie des données AWS

Conception et mise en œuvre de lacs de données

Lab 1: Configuration d’un lac de données sur AWS

Optimisation et sécurisation d’une solution de lac de données

Lab 2: Automatisation de la création d’un lac de données à l’aide des plans AWS Lake Formation

JOUR 2

Architecture et principes de conception d’un entrepôt de données

Lab 3: Configuration d’un entrepôt de données avec Amazon Redshift Serverless

Techniques d’optimisation des performances des entrepôts de données

Sécurité et contrôle d’accès pour les entrepôts de données

Lab 4: Gestion du contrôle d’accès dans Redshift

Conception de pipelines de données par lots

Mise en œuvre de stratégies pour les pipelines de données par lots

Lab 5: Une journée dans la vie d’un ingénieur de données

JOUR 3

Optimisation, orchestration et sécurisation de pipelines de données par lots

Lab 6: Orchestration du traitement des données dans Spark à l’aide d’AWS Step Functions

Modèles d’architecture de données en streaming

Lab 7: Analyse de streaming avec Amazon Managed Service pour Apache Flink

Optimisation et sécurisation des solutions de streaming

Lab 8: Contrôle d’accès avec Amazon Managed Streaming pour Apache Kafka

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.