使用 Python 掌握大型数据集,视频版
Mastering Large Datasets with Python, Video Edition
概述
在视频版中,叙述者阅读书籍,同时内容、数字、代码列表、图表和文本出现在屏幕上。就像一本有声读物,您也可以作为视频观看。
现代数据科学解决方案需要干净、易于阅读且可扩展。在《 使用 Python 掌握大型数据集》 一书中,作者 J.T. Wolohan 教你如何使用受功能影响的 Python 编码方法来扩展一个小型项目。您将探索有助于提高清晰度和可扩展性的方法和内置 Python 工具,例如高性能并行方法,以及允许高数据吞吐量的分布式技术。本实用教程中丰富的动手练习将锁定任何大型数据科学项目的这些基本技能。
关于技术
在笔记本电脑大小的数据上运行良好的编程技术在应用于海量文件或分布式数据集时可能会变慢或完全失败。通过掌握强大的映射和缩减范式,以及支持它的基于 Python 的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效扩展,而无需随着需求的变化而重写代码库。
关于这本书
使用 Python 掌握大型数据集教您编写可以处理任何大小数据集的代码。您将从笔记本电脑大小的数据集开始,这些数据集教您通过将大型任务分解为可以同时运行的较小任务来并行化数据分析。 然后,您将把这些相同的程序扩展到云服务器集群上的工业规模数据集。有了地图和减少范式的牢固到位,您将探索 Hadoop 和 PySpark 等工具,以高效处理海量分布式数据集,通过机器学习加快决策速度,并使用 AWS S3 简化数据存储。
里面有什么
- 地图和减少范式简介
- 使用多处理模块和 pathos 框架并行化
- 用于分布式计算的 Hadoop 和 Spark
- 运行 AWS 作业以处理大型数据集
关于读者
适用于需要更快地处理更多数据的 Python 程序员。
关于作者
J. T. Wolohan 是 Booz Allen Hamilton 的首席数据科学家,也是印第安纳大学布卢明顿分校的博士研究员。
引号
为各个级别的开发人员提供一条清晰有效的掌握地图和减少范式的途径。
– 贾斯汀·菲斯特,语法机器人
对于任何希望将并行处理和映射/减少模式添加到他们的工具包中的人来说,这是一本了不起的书。
– 加里·贝克,Radius 支付解决方案
学习 MapReduce 的基础知识和其他核心概念,并在昂贵的硬件上节省资金!
– 阿尔·克林克,美国专利商标局
高效 Python 数据处理基础知识的综合指南。
– Craig Pfeifer,MITRE 公司


评论(0)