使用 Azure Data Analytics 掌握数据工程

Master Data Engineering using Azure Data Analytics

学习用于数据湖的 Azure 存储、用于 ETL 的 ADF、用于数据仓库的 BigQuery、用于大数据管道的 Databricks 等

你会学到什么

  • 数据工程利用 Azure 数据分析下的服务,例如 Azure 存储、数据工厂、Azure SQL、Synapse、Databricks 等。
  • 在 Windows 上使用 Visual Studio Code 设置开发环境
  • 使用 Azure 存储构建数据湖(Blob 和 ADLS)
  • 使用 Azure Synapse 构建数据仓库
  • 使用 ADF 数据流将 Azure 存储作为源和目标来实施 ETL 逻辑
  • 深入介绍使用 ADF 管道进行编排
  • Azure SQL 和 Azure Synapse 无服务器和专用池功能概述
  • 使用 ADF 数据流实现 ETL 逻辑,以 Azure SQL 作为源,Azure Synapse 作为目标
  • 使用数据复制在不同源和目标之间复制数据
  • ADF 数据流和管道的性能调优场景
  • 使用 Azure Databricks 构建大数据解决方案
  • Spark SQL 和 Pyspark 数据框架 API 概述
  • 使用 Databricks 作业和工作流构建 ELT 管道
  • 使用 ADF 管道编排 Databricks 笔记本

要求

  • 至少 8 GB RAM 的计算机
  • 非常需要使用 Python 的编程经验,因为一些主题是使用 Python 演示的
  • 非常需要 SQL 经验,因为一些主题是使用 SQL 演示的
  • 很高兴有使用 Pandas 或 Pyspark 的数据工程经验
  • 本课程非常适合经验丰富的数据工程师将 GCP 分析服务作为关键技能添加到他们的个人资料中

描述

数据工程是关于构建数据管道以将数据从多个来源获取到数据湖或数据仓库,然后从数据湖或数据仓库到下游系统。作为本课程的一部分,我将带您了解如何使用 Azure Data Analytics Stack 构建数据工程管道。它包括Azure 存储(Blob 和 ADLS)、ADF 数据流、ADF 管道、Azure SQL、Azure Synapse、Azure Databricks等服务。

  • 作为本课程的一部分,首先,您将继续设置环境以学习在 Windows 和 Mac 上使用 VS Code。
  • 一旦环境准备就绪,您需要注册 Azure 门户。我们将提供注册 Azure 门户帐户的所有说明,包括查看账单以及获得有效期长达一个月的 200 美元信用额度。
  • 我们通常使用 Azure 存储作为数据湖。作为本课程的一部分,您将学习如何将 Azure 存储用作数据湖,以及如何使用 Azure 存储资源管理器等工具管理 Azure 存储中的文件
  • ADF用于 ETL 和编排。首先,您将了解如何使用ADF 数据流执行 ETL 。源和目标将是 Azure 存储帐户中的文件。作为此过程的一部分,您还将了解如何在 ADF 中设置链接服务数据集。
  • ADF 数据流准备就绪后,您将继续使用ADF Pipeline构建 Orchestration Pipeline 。您还将学习如何参数化以及如何处理基线负载。
  • 您还将了解使用ADF 管道的关键性能调优技术,例如控制分区数量、自定义集成运行时 (IR) 等。
  • Azure 为 Postgres、SQL Server 等提供 RDBMS 作为不同的服务。您将学习如何设置 Azure SQL一旦设置了 Azure SQL,您还将了解如何创建所需的表并针对它们运行查询。
  • ADF 提供ADF Data Copy来复制来自不同源和不同目标的数据。数据库表准备就绪后,您将使用 ADF 数据复制将数据复制到表中。
  • Azure为数据仓库提供Synapse Analytics 。您将大致了解无服务器池和专用池。您最终将使用 ADF 为 ETL 设置专用池。
  • 准备好Azure SQLAzure Synapse后,您将使用ADF 数据流构建 ETL 管道并使用ADF 管道进行编排。
  • Azure Databricks是使用 Spark 引擎进行大数据处理的服务。您将了解如何设置 Azure Databricks、与 ADLS 集成以及管理机密。
  • 您还将获得使用Azure Databricks 的Spark SQL 和 Pyspark Data Frame API 的概述。
  • 您还将使用Databricks 作业和工作流构建 ELT 管道,其中任务是基于 Pyspark 和 Spark SQL 定义的。
  • 您还将了解如何构建 ADF 管道来编排 Databricks 笔记本。

本课程适合谁:

  • 想要学习用于数据工程的关键 Azure 分析服务(例如 Azure 存储、ADF、Synapse、Databricks 等)的初级或中级数据工程师
  • 希望使用 Azure 分析服务进行数据工程(例如 Azure 存储、ADF、Synapse、Databricks 等)探索数据工程的中级应用程序工程师
  • 想要学习数据工程的数据和分析工程师
  • 希望学习关键技能以测试使用 Azure 数据工程分析服务构建的数据工程应用程序(例如 Azure 存储、ADF、Synapse、Databricks 等)的测试人员
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。