面向数据工程师的 Apache Hive(动手实践)和 2 个项目

Apache Hive for Data Engineers (Hands On) with 2 Projects

了解有关 Apache Hive (现代数据仓库)的所有信息。

 学习内容

  • 为什么 Hive 是 Data Engineer 的必要条件
  • 本课程的目标是帮助您熟悉 Apache Hive 位和字节
  • 学习 Apache HIVE 的 A 到 Z(从基础到高级)。
  • Apache Hive 的实践经验和实时用例

 要求

  • Hadoop 基础知识
  • SQL 和数据库的基础知识
  • 建议使用装有 Ubuntu 操作系统且至少 8 GB RAM 的台式机或笔记本电脑
  • 必须了解正则表达式

 描述

Apache Hive 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已存储的数据上。提供了命令行工具和 JDBC 驱动程序,用于将用户连接到 Hive。

最有价值的技术技能之一是分析大量数据集的能力,本课程专为让您快速了解完成此任务的最佳技术之一 Apache Hive 而设计!Google、Facebook、Netflix、Airbnb、Amazon、NASA 等顶级科技公司都在使用 Apache Hive

Hive 基于 Apache Hadoop 构建,提供以下功能:

  • 支持通过 SQL 轻松访问数据的工具,从而支持数据仓库任务,例如提取/转换/加载 (ETL)、报告和数据分析。

  • 一种对各种数据格式施加结构的机制

  • 访问直接存储在 Apache HDFS™ 或其他数据存储系统(如 Apache HBase™)中的文件

  • 通过 Apache Tez、Apache Spark 或 MapReduce 执行查询

  • 使用 HPL-SQL 的过程语言

  • 通过 Hive LLAP、Apache YARN 和 Apache Slider 进行亚秒级查询检索。

Hive 提供标准的 SQL 功能,包括许多后来的 SQL:2003、SQL:2011 和 SQL:2016 分析功能。
Hive 的 SQL 还可以通过用户定义的函数 (UDF)、用户定义的聚合 (UDAF) 和用户定义的表函数 (UDTF) 使用用户代码进行扩展。

没有一种必须存储数据的单一 “Hive 格式”。Hive 附带用于逗号和制表符分隔值 (CSV/TSV) 文本文件、Apache Parquet、Apache ORC 和其他格式的内置连接器。用户可以使用其他格式的连接器扩展 Hive。有关详细信息,请参阅开发人员指南中的文件格式和 Hive SerDe。

Hive 不是为联机事务处理 (OLTP) 工作负载而设计的。它最适合用于传统的数据仓库任务。

Hive 旨在最大限度地提高可扩展性(通过向 Hadoop 集群动态添加更多计算机进行扩展)、性能、可扩展性、容错能力以及与输入格式的松散耦合。

 我们将学习

 1) Apache Hive 概述

2) Apache Hive 架构

3) 安装和配置

4) Hive 查询如何在系统中流动。

5) Hive 功能、限制和数据模型

6) 数据类型、数据定义语言和数据操作语言

7) Hive 视图、分区和分桶

8) 内置函数和运算符

9) 加入 Apache Hive

10) 经常面试的问题和答案

 11) 2 个实时项目

我的目标是为您提供对您未来有益的实用工具。在这样做的同时,有一个真正的使用机会。

我真的很高兴你在这里,我希望你能一直跟随到课程的结束。这门课程相当直接,相当容易学习,我将逐步向你展示每一行代码,然后我会解释它的作用以及我们为什么要这样做。因此,我邀请您跟进它以完成所有讲座。好的,我们很快就会在课程中见到你。

这门课程的适用对象:

  • 软件工程师、软件开发人员、大数据工程师、数据工程师、数据分析师、数据科学家、机器学习工程师
  • 如果您想完全从头开始学习 Apache Hive,您应该参加这门课程
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。