Data Engineering on AWS


Niveau

Intermédiaire

Prix

2430 Euros HT

Editeur

Durée

3 jours


Public visé

  • professionnels souhaitant concevoir, développer, optimiser et sécuriser des solutions d’ingénierie des données à l’aide des services AWS

Prérequis

  • Familiarité avec les concepts de base de l’apprentissage automatique, tels que l’apprentissage supervisé et non supervisé, la régression, la classification et les algorithmes de clustering.
  • Connaissance pratique du langage de programmation Python et des bibliothèques de science des données courantes telles que NumPy, Pandas et Scikit-learn.
  • connaissance de la plateforme AWS.
  • Connaissance SQL & Git sont un atout

Objectifs

  • Comprendre les rôles fondamentaux et les concepts clés de l’ingénierie des données, notamment les profils de données, la découverte de données et les services AWS pertinents.
  • Identifier et expliquer les différents outils et services AWS essentiels à l’ingénierie des données, incluant l’orchestration, la sécurité, la surveillance, le CI/CD, l’IaC, la mise en réseau et l’optimisation des coûts.
  • Concevoir et mettre en œuvre une solution de lac de données sur AWS, incluant le stockage, l’ingestion, la transformation et la mise à disposition des données.
  • Optimiser et sécuriser une solution de lac de données en implémentant des formats de table ouverts, des mesures de sécurité et en résolvant les problèmes courants.
  • Concevoir et configurer un entrepôt de données avec Amazon Redshift Serverless, en comprenant son architecture, ses capacités d’ingestion, de traitement et de mise à disposition des données.
  • Gérer la sécurité et le contrôle d’accès des entrepôts de données dans Amazon Redshift, en comprenant l’authentification, la sécurité des données, l’audit et la conformité.
  • Concevoir, optimiser, orchestrer et sécuriser des pipelines de données par lots efficaces utilisant les services AWS appropriés pour le traitement et la transformation des données
  • Architecturer, optimiser et sécuriser des pipelines de données en streaming, en comprenant divers cas d’utilisation, l’ingestion, le stockage, le traitement et l’analyse à l’aide des services AWS

Programme (3 jours)

JOUR 1

Rôles et concepts clés de l’ingénierie des données

Outils et services d’ingénierie des données AWS

Conception et mise en œuvre de lacs de données

Lab 1: Configuration d’un lac de données sur AWS

Optimisation et sécurisation d’une solution de lac de données

Lab 2: Automatisation de la création d’un lac de données à l’aide des plans AWS Lake Formation

JOUR 2

Architecture et principes de conception d’un entrepôt de données

Lab 3: Configuration d’un entrepôt de données avec Amazon Redshift Serverless

Techniques d’optimisation des performances des entrepôts de données

Sécurité et contrôle d’accès pour les entrepôts de données

Lab 4: Gestion du contrôle d’accès dans Redshift

Conception de pipelines de données par lots

Mise en œuvre de stratégies pour les pipelines de données par lots

Lab 5: Une journée dans la vie d’un ingénieur de données

JOUR 3

Optimisation, orchestration et sécurisation de pipelines de données par lots

Lab 6: Orchestration du traitement des données dans Spark à l’aide d’AWS Step Functions

Modèles d’architecture de données en streaming

Lab 7: Analyse de streaming avec Amazon Managed Service pour Apache Flink

Optimisation et sécurisation des solutions de streaming

Lab 8: Contrôle d’accès avec Amazon Managed Streaming pour Apache Kafka


Nos prochaines dates

Nous contacter !

Contact