数据工程:Python、机器学习、ETL、网络爬虫

Data Engineering : Python,Machine Learning,ETL,Web Scraping

学习使用 Python、数据操作、机器学习、ETL、SSIS、Web 抓取进行数据工程的基础知识。

  学习内容

  • 了解数据工程的作用:在更广泛的数据生态系统中掌握数据工程的重要性和责任。
  • 学习关键数据工程概念:熟悉数据工程中的基本术语和概念。
  • 设置 Python 环境:在 Windows 和 macOS 上成功安装 Python 并创建虚拟环境。
  • 利用 Jupyter Notebook:安装、设置和导航 Jupyter Notebook 以进行交互式数据分析和可视化。
  • 培养 Python 编程技能:理解并应用 Python 编程基础知识,包括表达式、语句和数据类型。
  • 在 Python 中操作数据结构:高效使用 Python 列表、元组和字典。
  • 使用 Pandas 执行数据操作:使用 Pandas 创建、操作和分析 Series 和 DataFrames 中的数据。
  • 加载和检查数据集:将数据集导入到 Pandas DataFrames 中并执行初始数据检查。
  • 清理和转换数据:应用数据清理和转换技术来准备数据以供分析。
  • 使用 Python 可视化数据:创建各种类型的可视化效果以探索和呈现数据见解。
  • 了解机器学习基础知识:对机器学习概念和工作流程有基本的了解。
  • 预处理数据以进行机器学习:执行数据预处理任务,包括处理缺失值、编码分类变量和特征工程
  • 训练和评估机器学习模型:训练机器学习模型,进行预测,并使用适当的指标评估其性能。
  • 使用 Logistic 回归模型:训练、评估和解释 Logistic 回归模型。
  • 可视化模型评估指标:创建可视化图表以解释混淆矩阵和其他评估指标。
  • 保存和加载机器学习模型:保存经过训练的模型并加载它们以供将来使用和部署。
  • 构建决策树和随机森林:了解并实施决策树和随机森林算法。
  • 使用 SSIS 创建和运行 ETL 包:了解如何使用 SQL Server Integration Services (SSIS) 创建和执行 ETL 包。
  • 使用 Web Scraping 提取数据:使用 BeautifulSoup 和 Scrapy 从网站中提取数据。
  • 开发 Web 抓取脚本: 编写和测试脚本以自动执行 Web 抓取任务。
  • 构建全面的数据工程解决方案:整合技能和知识以构建强大的数据工程管道,包括数据收集、处理

  要求

  • 基本计算机知识:熟悉基本的计算机操作,例如安装软件、浏览文件系统和使用 Web 浏览器。
  • 对数据工程的兴趣: 对数据工程、数据分析和机器学习有浓厚的兴趣。
  • 计算机:可以访问互联网的笔记本电脑或台式机。

  描述

欢迎来到这门课程。它旨在为您提供在快速发展的数据工程领域中脱颖而出所需的基本技能和知识。无论您是初学者还是经验丰富的专业人士,都希望拓宽自己的技能范围,本课程都提供了一种详细的实践方法来掌握数据工程。

  课程概述:

数据工程是现代数据科学和分析的支柱,为收集、处理和分析大型数据集提供了基础。本课程从基础知识开始,逐渐发展到更复杂的主题,确保在继续下一个概念之前对每个概念都有扎实的理解。

第 1 部分:数据工程概述我们从数据工程的介绍开始,介绍其在数据生态系统中的作用。您将了解关键概念、术语和数据工程师的典型工作流程,从数据收集到分析。本节为接下来的更多技术方面奠定了基础。

第 2 部分:Python 环境设置Python 是数据工程师的基本工具。在本节中,您将学习如何在 Windows 和 macOS 上设置 Python 环境,包括创建和激活虚拟环境。我们还将介绍 Jupyter Notebook 和流行的文本编辑器等基本工具,为您高效的 Python 编程和数据操作做好准备。

第 3 部分:Python 编程基础设置好您的环境后,我们将深入研究 Python 编程。从基本表达式和语句开始,您将逐步学习更复杂的主题,例如数据类型、变量、列表、元组、字典、控制流语句和函数。本部分可确保您拥有坚实的 Python 基础,这对于数据工程任务至关重要。

第 4 部分:使用 Python 进行数据操作和可视化了解如何利用 Pandas 的强大功能进行数据操作。您将探索如何创建和管理 Series 和 DataFrame、加载和检查数据集、清理和转换数据以及使用各种技术可视化数据。在本节结束时,您将熟练地准备和分析数据以获得见解。

第 5 部分:机器学习基础知识本节向您介绍机器学习的基础知识。您将学习数据预处理、处理缺失值、编码分类变量和特征工程。我们将指导您训练和评估机器学习模型、进行预测和可视化结果。您还将学习如何保存和加载模型以备将来使用。

第 6 部分:使用 SSIS 和 SQL Server 创建和运行 ETL 包探索使用 SQL Server Integration Services (SSIS) 的提取、转换、加载 (ETL) 流程的世界。您将学习如何创建和管理 ETL 包、处理来自各种来源的数据以及自动化数据工作流。本节提供管理大规模数据集成任务的实用技能。

第 7 节:使用 Web Scraping 提取数据最后,我们介绍了使用 BeautifulSoup 和 Scrapy 的网页抓取技术。您将学习从网站提取数据,编写和测试 Web 抓取脚本,并保存抓取的数据以供分析。本部分为您提供从 Web 收集数据的技能,这对任何数据工程师来说都是宝贵的资产。

  目标学习者:

本课程非常适合有抱负的数据工程师、数据分析师、软件开发人员、学生、技术爱好者和过渡到数据工程角色的专业人士。不需要任何经验,使初学者可以上手。

  为什么要注册?

通过注册本课程,您将获得数据工程师使用的工具和技术的实践经验。您将学习构建强大的数据管道、操作和分析数据,以及创建和部署机器学习模型。我们的循序渐进的方法确保您可以自信地在真实场景中应用这些技能,使您成为数据驱动型行业的宝贵资产。

加入我们的旅程,掌握数据工程并解锁数据的力量!

本课程适合谁:

  •   有抱负的数据工程师
  • 数据分析师和科学家
  •   软件开发人员
  • 学生和应届毕业生
  • 技术爱好者和业余爱好者
  • 专业人士 转变职业
  • 企业家和商业分析师
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。