Data Engineering no Google Cloud

Obtenha experiência prática com o design e construção de sistemas de processamento de dados no Google Cloud. Este curso utiliza palestras, demonstrações e laboratórios práticos para mostrar como projetar sistemas de processamento de dados, construir pipelines de dados de ponta a ponta, analisar dados e implementar aprendizado de máquina. Este curso aborda dados estruturados, não estruturados e em streaming.

Objetivos

Neste curso, os participantes aprenderão as seguintes habilidades:

  • Projetar e construir sistemas de processamento de dados no Google Cloud.
  • Processar dados em lote e em streaming implementando pipelines de dados com escalonamento automático no Dataflow.
  • Derivar insights de negócios a partir de conjuntos de dados extremamente grandes usando o BigQuery.
  • Alavancar dados não estruturados usando o Spark e as APIs de ML no Dataproc.
  • Possibilitar insights instantâneos a partir de dados em streaming.
  • Entender as APIs de ML e o BigQuery ML, e aprender a usar o AutoML para criar modelos poderosos sem codificação.

Público-Alvo

Esta aula destina-se a desenvolvedores experientes responsáveis pelo gerenciamento de transformações de Big Data, incluindo:
  • Extrair, carregar, transformar, limpar e validar dados;
  • Projetar canais e arquiteturas para processamento de dados;
  • Criar e manter modelos de machine learning e modelos estatísticos; consultar conjuntos de dados, visualizar resultados de consulta e criar relatórios.

Pré-requisitos

Para aproveitar ao máximo este curso, os participantes precisam atender aos seguintes critérios:
  • Curso Google Cloud Fundamentals: Big Data & Machine Learning concluído ou experiência equivalente.
  • Proficiência básica em linguagem de consulta comum, como SQL.
  • Experiência com atividades de modelagem de dados, extração, transformação e carga.
  • Desenvolvimento de aplicativos com linguagem de programação comum, como Python.
  • Familiaridade com machine learning e/ou estatísticas.

Duração

4 dias

Investimento

Consulte o valor atualizado e datas das próximas turmas abertas em nossa página de inscrições.
Caso tenha interesse em uma turma fechada para sua empresa, entre em contato conosco.
Dependências de outros cursos e certificações com o curso de Data Engineering no Google Cloud
Dependências de outros cursos e certificações com o curso de Data Engineering no Google Cloud

Resumo do curso

O curso inclui apresentações, demonstrações e laboratórios práticos.
  • Explore the role of a data engineer
  • Analyze data engineering challenges
  • Introduction to BigQuery
  • Data lakes and data warehouses
  • Transactional databases versus data warehouses
  • Partner effectively with other data teams
  • Manage data access and governance
  • Build production-ready pipelines
  • Review Google Cloud customer case study
  • Introduction to data lakes
  • Data storage and ETL options on Google Cloud
  • Building a data lake using Cloud Storage
  • Securing Cloud Storage
  • Storing all sorts of data types
  • Cloud SQL as a relational data lake
  • The modern data warehouse
  • Introduction to BigQuery
  • Getting started with BigQuery
  • Loading data
  • Exploring schemas
  • Schema design
  • Nested and repeated fields
  • Optimizing with partitioning and clustering
  • EL, ELT, ETL
  • Quality considerations
  • How to carry out operations in BigQuery
  • Shortcomings
  • ETL to solve data quality issues
  •  The Hadoop ecosystem
  • Run Hadoop on Dataproc
  • Cloud Storage instead of HDFS
  • Optimize Dataproc
  • Introduction to Dataflow
  • Why customers value Dataflow
  • Dataflow pipelines
  • Aggregating with GroupByKey and Combine
  • Side inputs and windows
  • Dataflow templates
  • Dataflow SQL
  • Building batch data pipelines visually with Cloud Data Fusion
  • Components
  • UI overview
  • Building a pipeline
  • Exploring data using Wrangler
  • Orchestrating work between Google Cloud services with Cloud Composer
  • Apache Airflow environment
  • DAGs and operators
  • Workflow scheduling
  • Monitoring and logging
  • Introduction to Pub/Sub
  • Pub/Sub push versus pull
  • Publishing with Pub/Sub code
  • Process Streaming Data
  • Steaming data challenges
  • Dataflow windowing
  • Streaming into BigQuery and visualizing results
  • High-throughput streaming with Cloud Bigtable
  • Optimizing Cloud Bigtable performance
  • Analytic Window Functions.
  • Using With Clauses.
  • GIS Functions.
  • Performance Considerations.
  • What is AI?.
  • From Ad-hoc Data Analysis to Data Driven Decisions.
  • Options for ML models on Google Cloud
  • Unstructured Data is Hard.
  • ML APIs for Enriching Data.
  • Whats a Notebook.
  • BigQuery Magic and Ties to Pandas.
  • Ways to do ML on GCP.
  • Kubeflow.
  • AI Hub.
  • BigQuery ML for Quick Model Building.
  • Supported Models.
  • Why Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Auto ML Tables.