使用 Python 和 PySpark 进行数据分析,视频版
Data Analysis with Python and PySpark, Video Edition
视频说明
在 Video Editions 中,叙述者阅读书籍,同时内容、图形、代码列表、图表和文本显示在屏幕上。就像有声读物一样,您也可以作为视频观看。
从大处考虑您的数据!PySpark 将强大的 Spark 大数据处理引擎引入 Python 生态系统,让您可以无缝扩展数据任务并创建快如闪电的管道。
在使用 Python 和 PySpark 进行数据分析中,您将学习如何:
- 在数据跨多台计算机扩展时对其进行管理
- 满怀信心地扩展您的数据计划
- 从各种来源和格式读取和写入数据
- 使用 PySpark 的数据操作功能处理杂乱的数据
- 发现新数据集并执行探索性数据分析
- 构建自动化数据管道,用于转换、汇总数据并从中获取见解
- 排查常见的 PySpark 错误
- 创建可靠的长时间运行作业
使用 Python 和 PySpark 进行数据分析是您成功交付 Python 驱动型数据项目的指南。这本实用的书包含相关示例和基本技术,教您为报告、机器学习和其他以数据为中心的任务构建管道。每章中的快速练习可帮助您练习所学知识,并快速开始在数据系统中实施 PySpark。不需要事先具备 Spark 知识。
关于技术
Spark 数据处理引擎是一个了不起的分析工厂:原始数据传入,见解产生。PySpark 使用基于 Python 的 API 包装 Spark 的核心引擎。它有助于简化 Spark 的陡峭学习曲线,并使在 Python 数据生态系统中工作的任何人都可以使用这个强大的工具。
关于本书
使用 Python 和 PySpark 进行数据分析可帮助您使用 PySpark 解决数据科学的日常挑战。您将学习如何在多台计算机上扩展处理能力,同时从任何来源(无论是 Hadoop 集群、云数据存储还是本地数据文件)摄取数据。了解基础知识后,您将通过构建机器学习管道以及混合 Python、pandas 和 PySpark 代码来探索 PySpark 的全部多功能性。
里面有什么
- 组织 PySpark 代码
- 管理您的数据,无论大小如何
- 满怀信心地扩展您的数据计划
- 排查常见的 Data Pipeline 问题
- 创建可靠的长时间运行作业
关于读者
专为熟悉 Python 的数据科学家和数据工程师编写。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)