Este curso de 2 dias apresenta aos participantes a capacidade de integração de dados do Google Cloud usando o Cloud Data Fusion. Neste curso, discutimos desafios com a integração de dados e a necessidade de uma plataforma de integração de dados (middleware). Em seguida, discutimos como o Cloud Data Fusion pode ajudar a integrar efetivamente dados de uma variedade de fontes e formatos e gerar insights. Damos uma olhada nos principais componentes do Cloud Data Fusion e como eles funcionam, como processar dados em lote e dados de streaming em tempo real com design visual de pipeline, rastreamento rico de metadados e linhagem de dados, e como implantar pipelines de dados em vários motores de execução.
Objetivos
Neste curso, os participantes aprenderão as seguintes habilidades:
- Identificar a necessidade de integração de dados.
- Compreender as capacidades que o Cloud Data Fusion oferece como plataforma de integração de dados.
- Identificar casos de uso para possíveis implementações com o Cloud Data Fusion.
- Listar os componentes principais do Cloud Data Fusion.
- Projetar e executar pipelines de processamento de dados em lote e em tempo real.
- Trabalhar com o Wrangler para construir transformações de dados.
- Utilizar conectores para integrar dados de diversas fontes e formatos.
- Configurar o ambiente de execução.
- Monitorar e solucionar problemas de execução de pipelines.
- Entender a relação entre metadados e linhagem de dados.
Público-Alvo
Esta aula destina-se ao seguinte público:
- Engenheiro de Dados
- Analistas de Dados
Pré-requisitos
Para aproveitar ao máximo este curso, os participantes precisam atender aos seguintes critérios:
- Completar o curso Big Data and Machine Learning Fundamentals ou experiência equivalente.
Duração
2 dias
Investimento
Caso tenha interesse em uma turma para sua empresa, por favor entre em contato conosco.
Resumo do curso
- Course Introduction
- Data integration: what, why, challenges
- Data integration tools used in industry
- User personas
- Introduction to Cloud Data Fusion
- Data integration critical capabilities
- Cloud Data Fusion UI components
- Cloud Data Fusion architecture
- Core concepts
- Data pipelines and directed acyclic graphs (DAG)
- Pipeline Lifecycle
- Designing pipelines in Pipeline Studio
- Branching, Merging and Joining
- Actions and Notifications
- Error handling and Macros
- Pipeline Configurations, Scheduling, Import and Export
- Schedules and triggers
- Execution environment: Compute profile and provisioners
- Monitoring pipelines
- Wrangler
- Directives
- User-defined directives
- Understand the data integration architecture.
- List various connectors.
- Use the Cloud Data Loss Prevention (DLP) API.
- Understand the reference architecture of streaming pipelines.
- Build and execute a streaming pipeline.
- Metadata
- Data lineage
- Course Summary