Scrapy 大师班:使用 Scrapy Framework 学习网页抓取

Scrapy Masterclass: Learn Web Scraping With Scrapy Framework

使用 Scrapy Python 框架和这个针对初学者的分步和深入的 Web 抓取指南掌握 Web 抓取

 学习内容

  • 定义 Web 抓取和创建 Web 爬虫所涉及的步骤
  • 在 Windows、Mac OS、Ubuntu (Linux) 和 Anaconda 环境中安装和设置 Scrapy
  • 向 URL 发送请求以使用 Scrapy Spider 抓取网站
  • 从 URL 获取 HTML 响应并将其解析以进行 Web 抓取
  • 使用 Scrapy 选择器、CSS 选择器和 XPath 从网站中选择所需的数据
  • Scrapy Crawl Spiders 从网站获取数据并将其提取为 JSON、CSV、XLSX ( Excel ) 和 XML 文件
  • 使用 Scrapy Shell 命令来测试和验证 CSS 选择器或 XPath
  • 使用 scrapy item pipelines 将抓取的数据导出并保存到 MonogoDB 等在线数据库
  • 定义 Scrapy 项目以组织抓取的数据并使用带有输入和输出处理器的 Scrapy Itemloaders 加载项目
  • 使用 scrapy 分页从多个网页抓取数据并从 HTML 表格中提取数据
  • 使用 Scrapy FormRequest 和 CSRF 令牌登录网站
  • 使用 scrapy-playwright 抓取动态/JavaScript 渲染的网站,并与 Web 元素交互,截取网站屏幕截图或另存为 PDF
  • 识别来自网站的 API 调用并使用 scrapy 请求从 API 中抓取数据

 要求

  •  Python 编程
  •  HTML 基础 (+point)

 描述

网页抓取是抓取网站并从中提取所需数据的过程,在本课程中,您将通过循序渐进的深入指南学习和掌握使用 python 和 scrapy 框架进行网络抓取。

 分步指南

假设您对网页抓取、网页抓取、抓取框架、网页抓取甚至网页抓取一无所知,我们将从完整的基础知识开始。在第一部分中,您将逐步了解网络抓取过程(使用信息图表 – 无代码),如何从网站抓取数据以及如何使用scrapy来实现相同的效果(即scrapy的含义)。

在弄清楚了基础知识并了解了网络抓取的工作原理之后,我们将开始使用 python 和 scrapy 框架进行网络抓取!同样,我们将一步一步地进行,并通过一口大小的课程执行在基础知识中学到的每一步。我们将慢慢来,以便您更容易理解从网站抓取和提取数据所涉及的每个步骤。

网页抓取和抓取要点

构建了一个实际的网络抓取工具后,您将直接了解网络抓取的工作原理。现在,涵盖网络抓取和抓取的基本概念至关重要,我们接下来将进行这些概念。

  • 用于选择 Web 元素的 CSS 选择器

  • XPath 选择 Web 元素。

  • Scrapy Shell 来测试和验证选择器。

  • 用于组织提取的数据的项目

  • 使用具有输入和输出处理器的 ItemLoader 加载项目

  • 将数据导出为 JSON、CSV、XLSX (Excel) 和 XML 文件格式

  • 使用 ItemPipelines 将提取的数据保存到 MongoDB 等在线数据库。

掌握网页抓取深度

学习如何抓取网站和基本要素已经使您成为一个完整的网络抓取器,但我们将更进一步,学习先进的网络抓取技术以成为专家

  • 点击网页中的链接到另一个页面。

  • 抓取多个页面并提取数据,即分页。

  • 使用正则表达式 (RegEx) 抓取数据

  • 从 HTML 表中提取数据

  • 登录使用 Scrapy FormRequest 进入网站

  • 绕过受 CSRF 保护的登录表单。

  • 使用 Scrapy Playwright 抓取动态或 JavaScript 渲染的网站

    • 与填写表单、点击按钮等 Web 元素进行交互

    • 处理 Infinite Scroll 网站。

    • 当内容/数据需要一些时间来加载时,等待元素

    • 取网站的屏幕截图

    • 将网站另存为 PDF。

  • 识别来自网站的 API 调用并从 API中抓取数据

  • 在破旧的项目中使用中间件。

  • 在 scrapy 项目中配置设置

  • 使用和轮换用户代理代理

  • 网页抓取最佳实践

 真实世界的项目

在掌握了网页抓取和网页爬虫之后,我们需要开始做项目!因此,您还将执行三个项目:

  • 欧冠积分榜 [ ESPN ]

  • 产品追踪器 [ 亚马逊 ]

  • Scraper 应用程序 [ 图形用户界面 ]

加入我们的深入课程,您将从头开始学习网络抓取,并逐步掌握从网站中提取数据的过程。查看预览课程,了解网页抓取的工作原理!到时候再见~

本课程适合谁:

  • 想要掌握网页抓取的初学者 Python 开发人员
  • 自由职业者网络爬虫希望提高他们的技能
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。