使用 Python 进行 Web 抓取,第 3 版

Web Scraping with Python, 3rd Edition

 书籍描述

如果编程是魔术,那么网络抓取肯定是一种魔术。通过编写一个简单的自动化程序,您可以查询 Web 服务器、请求数据并对其进行解析以提取所需的信息。这个全面更新的第三版不仅向您介绍了网络抓取,而且还提供了从现代网络中抓取几乎所有类型的数据的综合指南。

第一部分重点介绍网络抓取机制:使用 Python 从 Web 服务器请求信息,对服务器的响应执行基本处理,以及以自动化方式与网站交互。第二部分探讨了各种更具体的工具和应用程序,以适应您可能遇到的任何网络抓取场景。

  • 解析复杂的 HTML 页面
  • 使用 Scrapy 框架开发爬虫
  • 了解存储抓取数据的方法
  • 从文档中读取和提取数据
  • 清理和规范化格式不正确的数据
  • 读写自然语言
  • 爬网表单和登录名
  • 抓取 JavaScript 并抓取 API
  • 使用和编写图像转文本软件
  • 避免抓取陷阱和机器人拦截器
  • 使用抓取工具测试您的网站

 发布者资源

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。