Obtenha experiência prática com o design e construção de sistemas de processamento de dados no Google Cloud. Este curso utiliza palestras, demonstrações e laboratórios práticos para mostrar como projetar sistemas de processamento de dados, construir pipelines de dados de ponta a ponta, analisar dados e implementar aprendizado de máquina. Este curso aborda dados estruturados, não estruturados e em streaming.
Objetivos
Neste curso, os participantes aprenderão as seguintes habilidades:
- Projetar e construir sistemas de processamento de dados no Google Cloud.
- Processar dados em lote e em streaming implementando pipelines de dados com escalonamento automático no Dataflow.
- Derivar insights de negócios a partir de conjuntos de dados extremamente grandes usando o BigQuery.
- Alavancar dados não estruturados usando o Spark e as APIs de ML no Dataproc.
- Possibilitar insights instantâneos a partir de dados em streaming.
- Entender as APIs de ML e o BigQuery ML, e aprender a usar o AutoML para criar modelos poderosos sem codificação.
Público-Alvo
Esta aula destina-se a desenvolvedores experientes responsáveis pelo gerenciamento de transformações de Big Data, incluindo:
- Extrair, carregar, transformar, limpar e validar dados;
- Projetar canais e arquiteturas para processamento de dados;
- Criar e manter modelos de machine learning e modelos estatísticos; consultar conjuntos de dados, visualizar resultados de consulta e criar relatórios.
Pré-requisitos
Para aproveitar ao máximo este curso, os participantes precisam atender aos seguintes critérios:
- Curso Google Cloud Fundamentals: Big Data & Machine Learning concluído ou experiência equivalente.
- Proficiência básica em linguagem de consulta comum, como SQL.
- Experiência com atividades de modelagem de dados, extração, transformação e carga.
- Desenvolvimento de aplicativos com linguagem de programação comum, como Python.
- Familiaridade com machine learning e/ou estatísticas.
Duração
4 dias
Investimento
Consulte o valor atualizado e datas das próximas turmas abertas em nossa página de inscrições.
Caso tenha interesse em uma turma fechada para sua empresa, entre em contato conosco.
Resumo do curso
O curso inclui apresentações, demonstrações e laboratórios práticos.
- Explore the role of a data engineer
- Analyze data engineering challenges
- Introduction to BigQuery
- Data lakes and data warehouses
- Transactional databases versus data warehouses
- Partner effectively with other data teams
- Manage data access and governance
- Build production-ready pipelines
- Review Google Cloud customer case study
- Introduction to data lakes
- Data storage and ETL options on Google Cloud
- Building a data lake using Cloud Storage
- Securing Cloud Storage
- Storing all sorts of data types
- Cloud SQL as a relational data lake
- The modern data warehouse
- Introduction to BigQuery
- Getting started with BigQuery
- Loading data
- Exploring schemas
- Schema design
- Nested and repeated fields
- Optimizing with partitioning and clustering
- EL, ELT, ETL
- Quality considerations
- How to carry out operations in BigQuery
- Shortcomings
- ETL to solve data quality issues
- The Hadoop ecosystem
- Run Hadoop on Dataproc
- Cloud Storage instead of HDFS
- Optimize Dataproc
- Introduction to Dataflow
- Why customers value Dataflow
- Dataflow pipelines
- Aggregating with GroupByKey and Combine
- Side inputs and windows
- Dataflow templates
- Dataflow SQL
- Building batch data pipelines visually with Cloud Data Fusion
- Components
- UI overview
- Building a pipeline
- Exploring data using Wrangler
- Orchestrating work between Google Cloud services with Cloud Composer
- Apache Airflow environment
- DAGs and operators
- Workflow scheduling
- Monitoring and logging
- Process Streaming Data
- Introduction to Pub/Sub
- Pub/Sub push versus pull
- Publishing with Pub/Sub code
- Process Streaming Data
- Steaming data challenges
- Dataflow windowing
- Streaming into BigQuery and visualizing results
- High-throughput streaming with Cloud Bigtable
- Optimizing Cloud Bigtable performance
- Analytic Window Functions.
- Using With Clauses.
- GIS Functions.
- Performance Considerations.
- What is AI?.
- From Ad-hoc Data Analysis to Data Driven Decisions.
- Options for ML models on Google Cloud
- Unstructured Data is Hard.
- ML APIs for Enriching Data.
- Whats a Notebook.
- BigQuery Magic and Ties to Pandas.
- Ways to do ML on GCP.
- Kubeflow.
- AI Hub.
- BigQuery ML for Quick Model Building.
- Supported Models.
- Why Auto ML?
- Auto ML Vision.
- Auto ML NLP.
- Auto ML Tables.