DuckDB – 终极指南

DuckDB – The Ultimate Guide

掌握 DuckDB:未来的分析数据库。7个实践项目+理论,使DuckDB Python,Streamlit,CLI和Docker成为王牌

 学习内容

  • 构建和实施使用 DuckDB 作为数据库的分析解决方案
  • 您将学习使 DuckDB 在任何机器上如此快速的基本原理(理论)
  • 您将学习从 Python 环境使用 DuckDB(练习)
  • 您将学习从 CLI(命令行)环境(实践)使用 DuckDB
  • 使用 DuckDB 作为 Streamlit Python 分析应用的后端数据库(实践)
  • 将 DuckDB 与 dbt(数据构建工具)相结合,以简化 Analytics 数据仓库开发(实践)
  • 您将学习在 MotherDuck: a Cloud-native environment (SaaS) for DuckDB (Practice) 中工作
  • 您将了解 DuckDB 与其他数据库的不同之处:分析(Clickhouse、Redshift、Cassandra)和 OLTP(PostgreSQL、SQLITE)

 要求

  • 基本 SQL 很有帮助,但不是必需的(我们将使用提供的指南)
  •  基本 Python
  •  笔记本电脑或个人电脑

 描述

我为什么要学习 DuckDB?

  1. + 过去 2 年中 1200% 的搜索量

    它的受欢迎程度正在迅速增长!

  2. 数据湖和庞大的大数据基础设施(如Apache Hadoop和Spark)并不是解决所有数据问题的最佳解决方案

    DuckDB 是一个很棒的解决方案,用于运行与 PostgreSQL 非常相似的数据库,但具有巨大的分析功能,无需大惊小怪

  3. 100%免费,支持数十种不同的集成

    duckdb Python、duckdb dbt、duckdb Streamlit、duckdb s3 & wasm & Docker + 更多:你几乎可以用它做任何事情。此外,您可以轻松导出数据:duckdb csv、duckdb parquet、duckdb json 都是立即共享分析结果的方法!Python 集成就像做“pip install duckdb”一样简单,你就可以开始了!我们将在其中一个案例中深入探讨 duckdb Python 集成。

  4.  易用性

    与其为团队中的每个开发人员设置一个 PostgreSQL/Mariadb,不如设置配置以生成 DuckDB 的内存实例。如果你需要从互联网上获取数据,那也没问题:Duckdb Httpfs 是我们也会研究的一个包。

  5. 大数据的局部分析

    如果你想在相当大的数据上本地运行一个列式数据库,那么没有其他类似的东西了。你可以在本地运行PySpark,但这会更令人头疼。Duckdb Pivot 甚至可以帮助您创建类似电子表格的表格。

  6. SQLite后易于学习

    这是从SQLite向分析领域迈出的一步。DuckDB 在有限的列上运行聚合查询时表现良好,而 SQLite 在使用过滤器获取一行或多行时表现良好。在本课程中,我们将比较和对比 duckdb 与 Sqlite 以及 duckdb 与 Clickhouse。

  7.  比 Pandas 快 300%+

    Pandas 将所有数据加载到内存中并在单个线程上运行。因此,它不能在比内存数据集更大的数据集上运行,也不能使用所有 CPU 内核。而 DuckDB 可以在大于内存的数据集上运行。此外,它可以在所有 CPU 内核之间分配负载。默认情况下,所有这些都使用 SQL 语言!

本课程不仅仅是一个duckdb教程:它是一个打包的解决方案,可以掌握这种新的和快速增长的技术。

 预期成果

 完成本课程:

  • 您将学习如何构建和实施使用鸭子数据库作为数据库的分析解决方案

  • 您将学习使 DuckDB 在任何机器上如此快速的基本原理(理论)

  • 您将了解 DuckDB 与其他数据库的不同之处:分析(Clickhouse、Redshift、Cassandra)和 OLTP(PostgreSQL、SQLite)

  • 您将学习从 Python 环境使用 DuckDB(练习)

  • 您将学习从 CLI(命令行)环境(实践)使用 DuckDB

  • 使用 DuckDB 作为 Streamlit Python 分析应用的后端数据库(实践)

  • 使用 DuckDB dbt(数据构建工具)组合来简化 Analytics 数据仓库开发(实践)

  • 您将学习在 MotherDuck 中工作:用于 duck db 的云原生环境 (SaaS)(实践)。你可以把它看作是 DuckDB GUI,你可能会在 CLI 中错过它

  • 学习在 Docker 环境中与 DuckDB 交互

  • 了解 DuckDB 如何融入分析服务的微服务架构

  • 使用 Rill:一个由 DuckDB 提供支持的 BI-as-Code“最后一英里 ETL”平台,实现超快的仪表板

 里面有什么

  • 视频讲座(带交互式注释)

  • 带有实践案例大纲的 PDF

  •  演示资源

  • 用于实践项目的完整打包代码库

  • 具有所有未来更新的完全终身访问权限

  • 课程结业证书

  • 30天退款保证

课程不是一成不变的!我收集学生的反馈并努力改进它

 [课程更新]:

01.2024: + 奖励部分: 让我们构建一个由 DuckDB 提供支持的 Recommender 微服务

02.2024: + “Rill Data” 部分:DuckDB 支持的 BI-as-Code “最后一英里 ETL” 平台

 使用的数字资产:

-图片来自 freepik,来自 freepik dot com 的免费许可“自由矢量渐变动态蓝线背景”

本课程适合谁:

  • 希望了解现代本地数据仓库和更快地开发分析解决方案的开发人员和数据工程师
  • 想要提高技能并学习如何使用嵌入式分析数据库的数据分析师和数据科学家
  • 想要提升数据库和数据建模技能的数据专业人士和爱好者
  • 想成为数据科学家、BI分析师、数据工程师或数据分析师的人
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。