Nodejs 和 JavaScript 中的网页抓取

Web Scraping in Nodejs & JavaScript

通过真实网站的示例项目学习 Nodejs 和 JavaScript 中的网页抓取!Craiglist、iMDB、AirBnB 等等!

你将学到什么

  • 能够从 Craigslist 的页面上抓取工作
  • 了解如何使用请求
  • 了解如何使用 NightmareJS
  • 了解如何使用 Puppeteer
  • 了解如何在没有任何可识别类或 ID 的情况下抓取元素
  • 了解如何将抓取数据保存到 CSV
  • 了解如何将抓取数据保存到 MongoDb
  • 了解如何仅使用 Request 来抓取 Facebook!
  • 了解如何对网站进行逆向工程并找到隐藏的 API!
  • 了解用于抓取的不同技术以及何时最好使用它们
  • 了解如何使用身份验证来抓取网站
  • 了解如何使用 Request/Cheerio 抓取 HTML 表格

要求

  • 基本 HTML
  • 基本的 jQuery
  • 基础 Nodejs

描述

在本课程中,您将学习如何抓取网站,并使用 JavaScript Nodejs RequestCheerioNightmareJsPuppeteer在真实网站上进行实际示例。您将使用带有 async/await 的最新 JavaScript ES7 语法

您将学习如何使用 Nodejs Request 和 Cheerio 抓取 Craigslist 网站上的软件工程工作。您将使用带有 async/await 的最新 JavaScript ES7 语法。

然后,您将学习如何使用NighmareJsPuppeteer抓取需要 JavaScript 的更高级网站,例如iMDBAirBnB

我还将向您展示一个实用的现实网站,您甚至可以通过逆向工程网站并找到其隐藏的 API ,从而避免浪费时间来创建网络抓取工具

了解如何在开发抓取工具时避免被网站阻止,方法是使用模拟 html 以测试驱动的方式构建抓取工具,而不是在调试和开发时每次都访问网站。您还将了解如果您被阻止,您可以做什么,以及无论如何让您的抓取工具启动并运行的替代方案

您还将学习如何在连接不良的服务器上进行抓取,或者即使您的连接不良。

您甚至将学习如何将结果保存到 CSV 文件和 MongoDB

如何构建一个每 1 小时(或其他间隔)抓取一次的抓取工具,并将其部署到 Heroku 或 Google Cloud 等云主机上?让我告诉你,快速又简单!

如何抓取需要密码的网站?我也将通过一个真实的网站(Craigslist)向您展示这一点!

如何使用Nodejs Express 在 REST API 中提供抓取结果?我们如何构建一个显示结果的React 前端?您也将以尽可能最快、最简单的方式了解这一点!

此外,课程中还包含一个介绍如何制作基本 GraphQL API 的部分。

作为最后的樱桃,我有一个包含秘密后门的部分,向您展示如何仅使用 Request 来抓取 Facebook

如果您对自己尝试抓取的网站有疑问完全可以向我寻求帮助。我很乐意为您指出正确的方向!无论我的学生面临什么问题,我都会用它来扩展我的课程!

本课程适合谁:

  • 任何想要学习如何使用 Nodejs 抓取网站的人!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。