使用 Python 进行 Web 抓取,第 3 版
Web Scraping with Python, 3rd Edition
书籍描述
如果编程是魔术,那么网络抓取肯定是一种魔术。通过编写一个简单的自动化程序,您可以查询 Web 服务器、请求数据并对其进行解析以提取所需的信息。这个全面更新的第三版不仅向您介绍了网络抓取,而且还提供了从现代网络中抓取几乎所有类型的数据的综合指南。
第一部分重点介绍网络抓取机制:使用 Python 从 Web 服务器请求信息,对服务器的响应执行基本处理,以及以自动化方式与网站交互。第二部分探讨了各种更具体的工具和应用程序,以适应您可能遇到的任何网络抓取场景。
- 解析复杂的 HTML 页面
- 使用 Scrapy 框架开发爬虫
- 了解存储抓取数据的方法
- 从文档中读取和提取数据
- 清理和规范化格式不正确的数据
- 读写自然语言
- 爬网表单和登录名
- 抓取 JavaScript 并抓取 API
- 使用和编写图像转文本软件
- 避免抓取陷阱和机器人拦截器
- 使用抓取工具测试您的网站
发布者资源
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)