Este curso de 2 días ofrece a los participantes la capacidad de integrar datos en Google Cloud utilizando Cloud Data Fusion. Durante este curso, abordamos los desafíos con la integración de datos y la necesidad de una plataforma de integración de datos (middleware). Luego, discutimos cómo Cloud Data Fusion puede ayudar a integrar eficazmente datos de una variedad de fuentes y formatos, generando insights. Exploramos los principales componentes de Cloud Data Fusion y cómo funcionan, incluyendo el procesamiento de datos en lotes y en tiempo real con un diseño visual de pipeline, seguimiento detallado de metadatos y linaje de datos, y cómo desplegar pipelines de datos en varios motores de ejecución.
Objetivos
Este curso enseña a los participantes las siguientes habilidades:
- Identificar la necesidad de integración de datos.
- Comprender las capacidades que Cloud Data Fusion proporciona como plataforma de integración de datos.
- Identificar casos de uso para posibles implementaciones con Cloud Data Fusion.
- Enumerar los componentes principales de Cloud Data Fusion.
- Diseñar y ejecutar pipelines de procesamiento de datos en lotes y en tiempo real.
- Trabajar con Wrangler para construir transformaciones de datos.
- Utilizar conectores para integrar datos de diversas fuentes y formatos.
- Configurar el entorno de ejecución.
- Monitorizar y solucionar problemas de ejecución de pipelines.
- Comprender la relación entre metadatos y linaje de datos.
Público
Esta clase está dirigida a la siguiente audiencia:
- Ingenieros de Datos
- Analistas de Datos
Prerrequisitos
Para aprovechar al máximo este curso, los participantes deben cumplir con los siguientes criterios:
- Completar el curso Big Data and Machine Learning Fundamentals o experiencia equivalente.
Duración
Duración
2 dias
Inversión
Si está interesado en una clase cerrada para su empresa, contáctenos.
Resumen del curso
- Course Introduction
- Data integration: what, why, challenges
- Data integration tools used in industry
- User personas
- Introduction to Cloud Data Fusion
- Data integration critical capabilities
- Cloud Data Fusion UI components
- Cloud Data Fusion architecture
- Core concepts
- Data pipelines and directed acyclic graphs (DAG)
- Pipeline Lifecycle
- Designing pipelines in Pipeline Studio
- Branching, Merging and Joining
- Actions and Notifications
- Error handling and Macros
- Pipeline Configurations, Scheduling, Import and Export
- Schedules and triggers
- Execution environment: Compute profile and provisioners
- Monitoring pipelines
- Wrangler
- Directives
- User-defined directives
- Understand the data integration architecture.
- List various connectors.
- Use the Cloud Data Loss Prevention (DLP) API.
- Understand the reference architecture of streaming pipelines.
- Build and execute a streaming pipeline.
- Metadata
- Data lineage
- Course Summary