Data Engineering on Google Cloud

En este curso de cuatro días dirigido por un instructor, los participantes tendrán una introducción práctica sobre cómo diseñar y crear sistemas de procesamiento de datos en Google Cloud Platform. Mediante una combinación de presentaciones, demostraciones y laboratorios prácticos, los participantes aprenderán cómo diseñar sistemas de procesamiento de datos, crear canales de datos completos, analizar datos y realizar el aprendizaje automático. En este curso, cubrimos datos estructurados, no estructurados y de transmisión.

Objetivos

En este curso, los participantes aprenderán las siguientes habilidades:
  • Dibujar y crear sistemas de procesamiento de datos en Google Cloud Platform.
  • Procesamiento en Batch y Streaming de datos, implementando canales de datos de escala automática en Cloud Dataflow.
  • Obtener información comercial de conjuntos de datos extremadamente grandes con Google BigQuery.
  • Entrenar, evaluar y predecir con modelos de aprendizaje automático utilizando TensorFlow y Cloud ML.
  • Aprovechar los datos no estructurados con Spark y las API de aprendizaje automático en Cloud Dataproc.
  • Proporcionar información instantánea de la transmisión de datos.

Público

Esta clase es para desarrolladores experimentados responsables de administrar las transformaciones de Big Data, que incluyen:
  • extraer, cargar, transformar, limpiar y validar datos;
  • diseñar canales y arquitecturas para el procesamiento de datos;
  • crear y mantener modelos de aprendizaje automático y modelos estadísticos; consultar conjuntos de datos, ver resultados de consultas y crear informes.

Prerrequisitos

Para aprovechar al máximo este curso, los participantes deben cumplir con los siguientes criterios:

  • Curso de Google Cloud Fundamentals: Big Data y Machine Learning completado o experiencia equivalente
  • Competencia básica en lenguaje de consulta común, como SQL
  • Experiencia con actividades de modelado, extracción, transformación y carga de datos.
  • Desarrollo de aplicaciones con lenguaje de programación común, como Python
  • Familiaridad con el aprendizaje automático y / o las estadísticas.

Duración

32 horas (4 días)

Inversión

Vea el valor actualizado y las próximas fechas para las clases abiertas en nuestra página de registro.
Si está interesado en una clase cerrada para su empresa, contáctenos.
Dependencias de otros cursos y certificaciones con el curso de Data Engineering on Google Cloud
Dependencias de otros cursos y certificaciones con el curso de Data Engineering on Google Cloud

Resumen del curso

El curso incluye presentaciones, demostraciones y laboratorios prácticos.
  • Explore the role of a data engineer.
  • Analyze data engineering challenges.
  • Intro to BigQuery.
  • Data Lakes and Data Warehouses.
  • Demo: Federated Queries with BigQuery.
  • Transactional Databases vs Data Warehouses.
  • Website Demo: Finding PII in your dataset with DLP API.
  • Partner effectively with other data teams.
  • Manage data access and governance.
  • Build production-ready pipelines.
  • Review GCP customer case study.
  • Lab: Analyzing Data with BigQuery.
  • Introduction to Data Lakes.
  • Data Storage and ETL options on GCP.
  • Building a Data Lake using Cloud Storage.
  • Optional Demo: Optimizing cost with Google Cloud Storage classes and Cloud Functions.
  • Securing Cloud Storage.
  • Storing All Sorts of Data Types.
  • Video Demo: Running federated queries on Parquet and ORC files in BigQuery.
  • Cloud SQL as a relational Data Lake.
  • Lab: Loading Taxi Data into Cloud SQL.
  • The modern data warehouse.
  • Intro to BigQuery.
  • Demo: Query TB+ of data in seconds.
  • Getting Started.
  • Loading Data.
  • Video Demo: Querying Cloud SQL from BigQuery.
  • Lab: Loading Data into BigQuery.
  • Exploring Schemas.
  • Demo: Exploring BigQuery Public Datasets with SQL using INFORMATION_SCHEMA.
  • Schema Design.
  • Nested and Repeated Fields.
  • Demo: Nested and repeated fields in BigQuery.
  • Lab: Working with JSON and Array data in BigQuery.
  • Optimizing with Partitioning and Clustering.
  • Demo: Partitioned and Clustered Tables in BigQuery.
  • Preview: Transforming Batch and Streaming Data.
  • EL, ELT, ETL.
  • Quality considerations.
  • How to carry out operations in BigQuery.
  • Demo: ELT to improve data quality in BigQuery.
  • Shortcomings.
  • ETL to solve data quality issues.
  • The Hadoop ecosystem.
  • Running Hadoop on Cloud Dataproc.
  • GCS instead of HDFS.
  • Optimizing Dataproc.
  • Lab: Running Apache Spark jobs on Cloud Dataproc.
  • Cloud Dataflow.
  • Why customers value Dataflow.
  • Dataflow Pipelines.
  • Lab: A Simple Dataflow Pipeline (Python/Java).
  • Lab: MapReduce in Dataflow (Python/Java).
  • Lab: Side Inputs (Python/Java).
  • Dataflow Templates.
  • Dataflow SQL.
  • Building Batch Data Pipelines visually with Cloud Data Fusion.
  • Components.
  • UI Overview.
  • Building a Pipeline.
  • Exploring Data using Wrangler.
  • Lab: Building and executing a pipeline graph in Cloud Data Fusion.
  • Orchestrating work between GCP services with Cloud Composer.
  • Apache Airflow Environment.
  • DAGs and Operators.
  • Workflow Scheduling.
  • Optional Long Demo: Event-triggered Loading of data with Cloud Composer, Cloud Functions, Cloud Storage, and BigQuery.
  • Monitoring and Logging.
  • Lab: An Introduction to Cloud Composer.
  • Cloud Pub/Sub.
  • Lab: Publish Streaming Data into Pub/Sub.
  • Cloud Dataflow Streaming Features.
  • Lab: Streaming Data Pipelines.
  • BigQuery Streaming Features.
  • Lab: Streaming Analytics and Dashboards.
  • Cloud Bigtable.
  • Lab: Streaming Data Pipelines into Bigtable.
  • Analytic Window Functions.
  • Using With Clauses.
  • GIS Functions.
  • Demo: Mapping Fastest Growing Zip Codes with BigQuery GeoViz.
  • Performance Considerations.
  • Lab: Optimizing your BigQuery Queries for Performance.
  • Optional Lab: Creating Date-Partitioned Tables in BigQuery.
  • What is AI?.
  • From Ad-hoc Data Analysis to Data Driven Decisions.
  • Options for ML models on GCP.
  • Unstructured Data is Hard.
  • ML APIs for Enriching Data.
  • Lab: Using the Natural Language API to Classify Unstructured Text.
  • Whats a Notebook.
  • BigQuery Magic and Ties to Pandas.
  • Lab: BigQuery in Jupyter Labs on AI Platform.
  • Ways to do ML on GCP.
  • Kubeflow.
  • AI Hub.
  • Lab: Running AI models on Kubeflow.
  • BigQuery ML for Quick Model Building.
  • Demo: Train a model with BigQuery ML to predict NYC taxi fares.
  • Supported Models.
  • Lab Option 1: Predict Bike Trip Duration with a Regression Model in BQML.
  • Lab Option 2: Movie Recommendations in BigQuery ML.
  • Why Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Auto ML Tables.