Data Engineering on Google Cloud

Obtén experiencia práctica en el diseño y construcción de sistemas de procesamiento de datos en Google Cloud. Este curso utiliza conferencias, demos y laboratorios prácticos para mostrarte cómo diseñar sistemas de procesamiento de datos, construir pipelines de datos de extremo a extremo, analizar datos e implementar aprendizaje automático. Este curso cubre datos estructurados, no estructurados y en streaming.

Objetivos

En este curso, los participantes aprenderán las siguientes habilidades:

  • Diseñar y construir sistemas de procesamiento de datos en Google Cloud.
  • Procesar datos por lotes y en tiempo real mediante la implementación de pipelines de datos con escalado automático en Dataflow.
  • Obtener insights comerciales a partir de conjuntos de datos extremadamente grandes utilizando BigQuery.
  • Aprovechar datos no estructurados utilizando Spark y API de aprendizaje automático en Dataproc.
  • Habilitar insights instantáneos a partir de datos en streaming.
  • Entender las API de aprendizaje automático y BigQuery ML, y aprender a utilizar AutoML para crear modelos potentes sin necesidad de codificación.
 

Público

Esta clase es para desarrolladores experimentados responsables de administrar las transformaciones de Big Data, que incluyen:

  • Extraer, cargar, transformar, limpiar y validar datos;
  • Diseñar canales y arquitecturas para el procesamiento de datos;
  • Crear y mantener modelos de aprendizaje automático y modelos estadísticos; consultar conjuntos de datos, ver resultados de consultas y crear informes.

Prerrequisitos

Para aprovechar al máximo este curso, los participantes deben cumplir con los siguientes criterios:

  • Curso de Google Cloud Fundamentals: Big Data y Machine Learning completado o experiencia equivalente.
  • Competencia básica en lenguaje de consulta común, como SQL.
  • Experiencia con actividades de modelado, extracción, transformación y carga de datos.
  • Desarrollo de aplicaciones con lenguaje de programación común, como Python.
  • Familiaridad con el aprendizaje automático y/o las estadísticas.

Duración

4 días

Inversión

Vea el valor actualizado y las próximas fechas para las clases abiertas en nuestra página de registro.
Si está interesado en una clase cerrada para su empresa, contáctenos.
Dependencias de otros cursos y certificaciones con el curso de Data Engineering on Google Cloud
Dependencias de otros cursos y certificaciones con el curso de Data Engineering on Google Cloud

Resumen del curso

El curso incluye presentaciones, demostraciones y laboratorios prácticos.
  • Explore the role of a data engineer
  • Analyze data engineering challenges
  • Introduction to BigQuery
  • Data lakes and data warehouses
  • Transactional databases versus data warehouses
  • Partner effectively with other data teams
  • Manage data access and governance
  • Build production-ready pipelines
  • Review Google Cloud customer case study
  • Introduction to data lakes
  • Data storage and ETL options on Google Cloud
  • Building a data lake using Cloud Storage
  • Securing Cloud Storage
  • Storing all sorts of data types
  • Cloud SQL as a relational data lake
  • The modern data warehouse
  • Introduction to BigQuery
  • Getting started with BigQuery
  • Loading data
  • Exploring schemas
  • Schema design
  • Nested and repeated fields
  • Optimizing with partitioning and clustering
  • EL, ELT, ETL
  • Quality considerations
  • How to carry out operations in BigQuery
  • Shortcomings
  • ETL to solve data quality issues
  •  The Hadoop ecosystem
  • Run Hadoop on Dataproc
  • Cloud Storage instead of HDFS
  • Optimize Dataproc
  • Introduction to Dataflow
  • Why customers value Dataflow
  • Dataflow pipelines
  • Aggregating with GroupByKey and Combine
  • Side inputs and windows
  • Dataflow templates
  • Dataflow SQL
  • Building batch data pipelines visually with Cloud Data Fusion
  • Components
  • UI overview
  • Building a pipeline
  • Exploring data using Wrangler
  • Orchestrating work between Google Cloud services with Cloud Composer
  • Apache Airflow environment
  • DAGs and operators
  • Workflow scheduling
  • Monitoring and logging
  • Introduction to Pub/Sub
  • Pub/Sub push versus pull
  • Publishing with Pub/Sub code
  • Process Streaming Data
  • Steaming data challenges
  • Dataflow windowing
  • Streaming into BigQuery and visualizing results
  • High-throughput streaming with Cloud Bigtable
  • Optimizing Cloud Bigtable performance
  • Analytic Window Functions.
  • Using With Clauses.
  • GIS Functions.
  • Performance Considerations.
  • What is AI?.
  • From Ad-hoc Data Analysis to Data Driven Decisions.
  • Options for ML models on Google Cloud
  • Unstructured Data is Hard.
  • ML APIs for Enriching Data.
  • Whats a Notebook.
  • BigQuery Magic and Ties to Pandas.
  • Ways to do ML on GCP.
  • Kubeflow.
  • AI Hub.
  • BigQuery ML for Quick Model Building.
  • Supported Models.
  • Why Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Auto ML Tables.