Nodejs 和 JavaScript 中的网页抓取
Web Scraping in Nodejs & JavaScript
通过真实网站的示例项目学习 Nodejs 和 JavaScript 中的网页抓取!Craiglist、iMDB、AirBnB 等等!
你将学到什么
-
能够从 Craigslist 的页面上抓取工作
-
了解如何使用请求
-
了解如何使用 NightmareJS
-
了解如何使用 Puppeteer
-
了解如何在没有任何可识别类或 ID 的情况下抓取元素
-
了解如何将抓取数据保存到 CSV
-
了解如何将抓取数据保存到 MongoDb
-
了解如何仅使用 Request 来抓取 Facebook!
-
了解如何对网站进行逆向工程并找到隐藏的 API!
-
了解用于抓取的不同技术以及何时最好使用它们
-
了解如何使用身份验证来抓取网站
-
了解如何使用 Request/Cheerio 抓取 HTML 表格
要求
-
基本 HTML
-
基本的 jQuery
-
基础 Nodejs
描述
在本课程中,您将学习如何抓取网站,并使用 JavaScript Nodejs Request、Cheerio、NightmareJs和Puppeteer在真实网站上进行实际示例。您将使用带有 async/await 的最新 JavaScript ES7 语法。
您将学习如何使用 Nodejs Request 和 Cheerio 抓取 Craigslist 网站上的软件工程工作。您将使用带有 async/await 的最新 JavaScript ES7 语法。
然后,您将学习如何使用NighmareJs和Puppeteer抓取需要 JavaScript 的更高级网站,例如iMDB和AirBnB。
我还将向您展示一个实用的现实网站,您甚至可以通过逆向工程网站并找到其隐藏的 API ,从而避免浪费时间来创建网络抓取工具!
了解如何在开发抓取工具时避免被网站阻止,方法是使用模拟 html 以测试驱动的方式构建抓取工具,而不是在调试和开发时每次都访问网站。您还将了解如果您被阻止,您可以做什么,以及无论如何让您的抓取工具启动并运行的替代方案!
您还将学习如何在连接不良的服务器上进行抓取,或者即使您的连接不良。
您甚至将学习如何将结果保存到 CSV 文件和 MongoDB!
如何构建一个每 1 小时(或其他间隔)抓取一次的抓取工具,并将其部署到 Heroku 或 Google Cloud 等云主机上?让我告诉你,快速又简单!
如何抓取需要密码的网站?我也将通过一个真实的网站(Craigslist)向您展示这一点!
如何使用Nodejs Express 在 REST API 中提供抓取结果?我们如何构建一个显示结果的React 前端?您也将以尽可能最快、最简单的方式了解这一点!
此外,课程中还包含一个介绍如何制作基本 GraphQL API 的部分。
作为最后的樱桃,我有一个包含秘密后门的部分,向您展示如何仅使用 Request 来抓取 Facebook!
如果您对自己尝试抓取的网站有疑问,完全可以向我寻求帮助。我很乐意为您指出正确的方向!无论我的学生面临什么问题,我都会用它来扩展我的课程!
本课程适合谁:
- 任何想要学习如何使用 Nodejs 抓取网站的人!
评论(0)