Obtén experiencia práctica en el diseño y construcción de sistemas de procesamiento de datos en Google Cloud. Este curso utiliza conferencias, demos y laboratorios prácticos para mostrarte cómo diseñar sistemas de procesamiento de datos, construir pipelines de datos de extremo a extremo, analizar datos e implementar aprendizaje automático. Este curso cubre datos estructurados, no estructurados y en streaming.
Objetivos
En este curso, los participantes aprenderán las siguientes habilidades:
- Diseñar y construir sistemas de procesamiento de datos en Google Cloud.
- Procesar datos por lotes y en tiempo real mediante la implementación de pipelines de datos con escalado automático en Dataflow.
- Obtener insights comerciales a partir de conjuntos de datos extremadamente grandes utilizando BigQuery.
- Aprovechar datos no estructurados utilizando Spark y API de aprendizaje automático en Dataproc.
- Habilitar insights instantáneos a partir de datos en streaming.
- Entender las API de aprendizaje automático y BigQuery ML, y aprender a utilizar AutoML para crear modelos potentes sin necesidad de codificación.
Público
Esta clase es para desarrolladores experimentados responsables de administrar las transformaciones de Big Data, que incluyen:
- Extraer, cargar, transformar, limpiar y validar datos;
- Diseñar canales y arquitecturas para el procesamiento de datos;
- Crear y mantener modelos de aprendizaje automático y modelos estadísticos; consultar conjuntos de datos, ver resultados de consultas y crear informes.
Prerrequisitos
Para aprovechar al máximo este curso, los participantes deben cumplir con los siguientes criterios:
- Curso de Google Cloud Fundamentals: Big Data y Machine Learning completado o experiencia equivalente.
- Competencia básica en lenguaje de consulta común, como SQL.
- Experiencia con actividades de modelado, extracción, transformación y carga de datos.
- Desarrollo de aplicaciones con lenguaje de programación común, como Python.
- Familiaridad con el aprendizaje automático y/o las estadísticas.
Duración
4 días
Inversión
Vea el valor actualizado y las próximas fechas para las clases abiertas en nuestra página de registro.
Si está interesado en una clase cerrada para su empresa, contáctenos.
Resumen del curso
El curso incluye presentaciones, demostraciones y laboratorios prácticos.
- Explore the role of a data engineer
- Analyze data engineering challenges
- Introduction to BigQuery
- Data lakes and data warehouses
- Transactional databases versus data warehouses
- Partner effectively with other data teams
- Manage data access and governance
- Build production-ready pipelines
- Review Google Cloud customer case study
- Introduction to data lakes
- Data storage and ETL options on Google Cloud
- Building a data lake using Cloud Storage
- Securing Cloud Storage
- Storing all sorts of data types
- Cloud SQL as a relational data lake
- The modern data warehouse
- Introduction to BigQuery
- Getting started with BigQuery
- Loading data
- Exploring schemas
- Schema design
- Nested and repeated fields
- Optimizing with partitioning and clustering
- EL, ELT, ETL
- Quality considerations
- How to carry out operations in BigQuery
- Shortcomings
- ETL to solve data quality issues
- The Hadoop ecosystem
- Run Hadoop on Dataproc
- Cloud Storage instead of HDFS
- Optimize Dataproc
- Introduction to Dataflow
- Why customers value Dataflow
- Dataflow pipelines
- Aggregating with GroupByKey and Combine
- Side inputs and windows
- Dataflow templates
- Dataflow SQL
- Building batch data pipelines visually with Cloud Data Fusion
- Components
- UI overview
- Building a pipeline
- Exploring data using Wrangler
- Orchestrating work between Google Cloud services with Cloud Composer
- Apache Airflow environment
- DAGs and operators
- Workflow scheduling
- Monitoring and logging
- Process Streaming Data
- Introduction to Pub/Sub
- Pub/Sub push versus pull
- Publishing with Pub/Sub code
- Process Streaming Data
- Steaming data challenges
- Dataflow windowing
- Streaming into BigQuery and visualizing results
- High-throughput streaming with Cloud Bigtable
- Optimizing Cloud Bigtable performance
- Analytic Window Functions.
- Using With Clauses.
- GIS Functions.
- Performance Considerations.
- What is AI?.
- From Ad-hoc Data Analysis to Data Driven Decisions.
- Options for ML models on Google Cloud
- Unstructured Data is Hard.
- ML APIs for Enriching Data.
- Whats a Notebook.
- BigQuery Magic and Ties to Pandas.
- Ways to do ML on GCP.
- Kubeflow.
- AI Hub.
- BigQuery ML for Quick Model Building.
- Supported Models.
- Why Auto ML?
- Auto ML Vision.
- Auto ML NLP.
- Auto ML Tables.