Neste curso de quatro dias com instrutor, os participantes terão uma introdução prática sobre como projetar e criar sistemas de processamento de dados no Google Cloud Platform. Por meio de uma combinação de apresentações, demonstrações e laboratórios práticos, os participantes aprenderão como projetar sistemas de processamento de dados, criar canais de dados completos, analisar dados e realizar machine learning. Neste curso, abordamos dados estruturados, não estruturados e de streaming.
Objetivos
Neste curso, os participantes aprenderão as seguintes habilidades:
- Projetar e criar sistemas de processamento de dados no Google Cloud Platform.
- Processar dados em lote e streaming, implementando canais de dados de escalonamento automático no Cloud Dataflow.
- Derivar insights de negócios a partir de conjuntos de dados extremamente grandes usando o Google BigQuery.
- Treinar, avaliar e prever com modelos de machine learning usando TensorFlow e Cloud ML.
- Aproveitar dados não estruturados com as APIs do Spark e de machine learning no Cloud Dataproc.
- Proporcionar insights instantâneos a partir de dados de streaming.
Público-Alvo
Esta aula destina-se a desenvolvedores experientes responsáveis pelo gerenciamento de transformações de Big Data, incluindo:
- extrair, carregar, transformar, limpar e validar dados;
- projetar canais e arquiteturas para processamento de dados;
- criar e manter modelos de machine learning e modelos estatísticos; consultar conjuntos de dados, visualizar resultados de consulta e criar relatórios.
Pré-requisitos
Para aproveitar ao máximo este curso, os participantes precisam atender aos seguintes critérios:
- Curso Google Cloud Fundamentals: Big Data & Machine Learning concluído OU experiência equivalente
- Proficiência básica em linguagem de consulta comum, como SQL
- Experiência com atividades de modelagem de dados, extração, transformação e carga
- Desenvolvimento de aplicativos com linguagem de programação comum, como Python
- Familiaridade com machine learning e/ou estatísticas
Duração
32 horas (4 dias)
Investimento
Consulte o valor atualizado e datas das próximas turmas abertas em nossa página de inscrições.
Caso tenha interesse em uma turma fechada para sua empresa, entre em contato conosco.
Resumo do curso
O curso inclui apresentações, demonstrações e laboratórios práticos.
- Explore the role of a data engineer.
- Analyze data engineering challenges.
- Intro to BigQuery.
- Data Lakes and Data Warehouses.
- Demo: Federated Queries with BigQuery.
- Transactional Databases vs Data Warehouses.
- Website Demo: Finding PII in your dataset with DLP API.
- Partner effectively with other data teams.
- Manage data access and governance.
- Build production-ready pipelines.
- Review GCP customer case study.
- Lab: Analyzing Data with BigQuery.
- Introduction to Data Lakes.
- Data Storage and ETL options on GCP.
- Building a Data Lake using Cloud Storage.
- Optional Demo: Optimizing cost with Google Cloud Storage classes and Cloud Functions.
- Securing Cloud Storage.
- Storing All Sorts of Data Types.
- Video Demo: Running federated queries on Parquet and ORC files in BigQuery.
- Cloud SQL as a relational Data Lake.
- Lab: Loading Taxi Data into Cloud SQL.
- The modern data warehouse.
- Intro to BigQuery.
- Demo: Query TB+ of data in seconds.
- Getting Started.
- Loading Data.
- Video Demo: Querying Cloud SQL from BigQuery.
- Lab: Loading Data into BigQuery.
- Exploring Schemas.
- Demo: Exploring BigQuery Public Datasets with SQL using INFORMATION_SCHEMA.
- Schema Design.
- Nested and Repeated Fields.
- Demo: Nested and repeated fields in BigQuery.
- Lab: Working with JSON and Array data in BigQuery.
- Optimizing with Partitioning and Clustering.
- Demo: Partitioned and Clustered Tables in BigQuery.
- Preview: Transforming Batch and Streaming Data.
- EL, ELT, ETL.
- Quality considerations.
- How to carry out operations in BigQuery.
- Demo: ELT to improve data quality in BigQuery.
- Shortcomings.
- ETL to solve data quality issues.
- The Hadoop ecosystem.
- Running Hadoop on Cloud Dataproc.
- GCS instead of HDFS.
- Optimizing Dataproc.
- Lab: Running Apache Spark jobs on Cloud Dataproc.
- Cloud Dataflow.
- Why customers value Dataflow.
- Dataflow Pipelines.
- Lab: A Simple Dataflow Pipeline (Python/Java).
- Lab: MapReduce in Dataflow (Python/Java).
- Lab: Side Inputs (Python/Java).
- Dataflow Templates.
- Dataflow SQL.
- Building Batch Data Pipelines visually with Cloud Data Fusion.
- Components.
- UI Overview.
- Building a Pipeline.
- Exploring Data using Wrangler.
- Lab: Building and executing a pipeline graph in Cloud Data Fusion.
- Orchestrating work between GCP services with Cloud Composer.
- Apache Airflow Environment.
- DAGs and Operators.
- Workflow Scheduling.
- Optional Long Demo: Event-triggered Loading of data with Cloud Composer, Cloud Functions, Cloud Storage, and BigQuery.
- Monitoring and Logging.
- Lab: An Introduction to Cloud Composer.
- Processing Streaming Data.
- Cloud Pub/Sub.
- Lab: Publish Streaming Data into Pub/Sub.
- Cloud Dataflow Streaming Features.
- Lab: Streaming Data Pipelines.
- BigQuery Streaming Features.
- Lab: Streaming Analytics and Dashboards.
- Cloud Bigtable.
- Lab: Streaming Data Pipelines into Bigtable.
- Analytic Window Functions.
- Using With Clauses.
- GIS Functions.
- Demo: Mapping Fastest Growing Zip Codes with BigQuery GeoViz.
- Performance Considerations.
- Lab: Optimizing your BigQuery Queries for Performance.
- Optional Lab: Creating Date-Partitioned Tables in BigQuery.
- What is AI?.
- From Ad-hoc Data Analysis to Data Driven Decisions.
- Options for ML models on GCP.
- Unstructured Data is Hard.
- ML APIs for Enriching Data.
- Lab: Using the Natural Language API to Classify Unstructured Text.
- Whats a Notebook.
- BigQuery Magic and Ties to Pandas.
- Lab: BigQuery in Jupyter Labs on AI Platform.
- Ways to do ML on GCP.
- Kubeflow.
- AI Hub.
- Lab: Running AI models on Kubeflow.
- BigQuery ML for Quick Model Building.
- Demo: Train a model with BigQuery ML to predict NYC taxi fares.
- Supported Models.
- Lab Option 1: Predict Bike Trip Duration with a Regression Model in BQML.
- Lab Option 2: Movie Recommendations in BigQuery ML.
- Why Auto ML?
- Auto ML Vision.
- Auto ML NLP.
- Auto ML Tables.