数据超级流:构建数据管道和连接

Data Superstream: Building Data Pipelines and Connectivity

数据管道是数据分析成功的基础,因此了解它们的工作原理至关重要。参加我们由专家主持的四小时会议,让您深入了解如何移动、处理和转换数据以支持分析和报告需求。您还将了解如何解决常见挑战,例如监控和管理损坏的管道,探索选择和连接开源框架、商业产品和本土解决方案等的注意事项。

关于数据超级流系列:这个由三部分组成的超级流系列旨在帮助您的组织最大限度地发挥数据的业务影响。每天涵盖不同的主题,独特的会议持续不超过四个小时。它们充满了主要创新者的见解以及最新的工具和技术,可帮助您保持领先地位。

您将学到什么以及如何应用它

  • 了解如何使用 Airflow 构建、部署和运行功能齐全的 ETL 管道
  • 了解如何大规模构建强大的数据管道
  • 了解管理和监控数十万条管道的挑战,并获取有关自动化管道的技巧
  • 探索历史数据预处理和数据生命周期管理的方法

这个现场活动适合您,因为……

  • 您是一名数据或软件工程师或解决方案架构师,有兴趣了解移动、处理和转换数据的最新趋势。
  • 您希望了解如何应对常见挑战并提高管道的可扩展性和稳定性。
  • 您希望更好地了解已使用的系统并了解如何充分利用其功能。

先决条件

  • 带着你的问题来
  • 准备好笔和纸来记录笔记、见解和灵感

建议跟进:

  • 阅读数据管道袖珍参考(书)
  • 阅读AWS 上的数据科学(书籍)
  • 阅读数据质量基础知识(早期发行的书籍)
  • 阅读什么是数据可观察性?(报告)
  • 探索构建强大的数据管道(由四部分组成的交互式场景集)

日程

时间范围只是估计值,可能会根据课程进展情况而有所不同。

阿利斯泰尔·克罗尔:简介(5 分钟)- 太平洋时间上午 8:00 | 东部时间上午 11:00 | 下午 3:00 世界标准时间/格林尼治标准时间

  • 阿利斯泰尔·克罗尔欢迎您来到数据超级流。

Afua Bruce:主题演讲 — 最大限度地发挥数据科学家的影响力(10 分钟)- 太平洋时间上午 8:05 | 美国东部时间上午 11:05 | 下午 3:05(世界标准时间/格林威治标准时间)

  • 随着对数据技能的需求不断增加,数据成功科学家的特质也在不断发展。世界需要数据科学家,他们不仅拥有技术和业务技能,而且还能够在其许多影响范围内识别和实施负责任和包容性的数据实践。《The Tech That Comes Next》一书的作者 Afua Bruce 在她的主题演讲中,根据她在 New America、DataKind 和 FBI 的经验,探讨了我们构建的数据系统的影响。
  • 阿富阿·布鲁斯 (Afua Bruce) 是一位领先的公共利益技术专家,她的职业生涯一直致力于技术、政策和社会的交叉领域。她曾在白宫、联邦调查局、IBM 和一些非营利组织担任高级科学和技术职位。她目前是哈佛大学肯尼迪学院的技术和公共目的研究员。作为“If/Then”大使,Afua 致力于激励女孩考虑 STEM 职业;她曾与 GoldieBlox 合作,出现在哥伦比亚广播公司 (CBS) 的《势不可挡》节目中,并且是史密森尼博物馆 (Smithsonian) 展出的 If/Then 展览中 120 座 STEM 女性雕像之一。她的最新著作《未来的技术:变革者、技术专家和慈善家如何构建公平的世界》描述了技术如何促进公平。

Roksolana Diachuk:AdTech 中的现代数据管道 — 战壕中的生活(30 分钟)- 太平洋时间上午 8:15 | 美国东部时间上午 11:15 | 下午 3:15(世界标准时间/格林尼治标准时间)

  • 现代数据管道方法帮助我们解决不同领域的许多挑战,包括广告。加入 Roksolana Diachuk,通过研究 AdTech 中历史数据重新处理的案例研究,了解如何使用现代数据管道进行报告和分析。您将探索问题本身、实施、挑战和未来的改进。您还将深入研究历史数据预处理和数据生命周期管理的方法,这对于业务规则更改或过去数据错误等情况特别有用,在这种情况下您需要重新处理历史数据(这需要大量时间、精度、和计算资源)。
  • Roksolana Diachuk 是 Captify 的一名大数据工程师,对大数据、Scala 和 Kubernetes 充满热情。Roksolana 在欧洲和美国的技术会议和聚会上发表演讲,并且是 Women Who Code Kyiv 的领导者之一。她的爱好包括围绕童话故事构建技术主题和发现新城市。

Michael Galarnyk:利用 MLOps 弥合数据管道和机器学习之间的差距(由英特尔赞助)(30 分钟)- 太平洋时间上午 8:45 | 美国东部时间上午 11:45 | 下午 3:45(世界标准时间/格林威治标准时间)

  • 即使您的数据管道没有损坏,监控它们仍然很重要。如果您想利用数据进行机器学习,则尤其如此。但是,要使数据管道适合机器学习用例,需要的不仅仅是额外的数据监控。传统上,将机器学习引入生产需要大量的手动设置和配置,即使对于玩具机器学习管道也是如此。不幸的是,这些手动方法不可重复,不能自动缩放,需要大量的技术专业知识,并且容易出错。与 Michael Galarnyk 一起深入探讨机器学习用例中的数据管道挑战。您将探索用于监控和管理生产中的 ML 管道的开源和商业产品;概述 MLOps 以及如何实施它来简化端到端机器学习工作流程;并了解如何通过即用型管道和低代码解决方案实现 AI 模型生命周期的自动化。此外,您还将获得示例 ML 用例,您可以立即使用它来获得更好的结果并从数据中提取更多见解。
  • Michael Galarnyk 在 cnvrg.io 从事低代码 AI 蓝图工作。在业余时间,他通过斯坦福继续学习和 LinkedIn 学习教授基于 Python 的机器学习课程。您可以在 Twitter、Medium 和 GitHub 上找到他。
  • 本次会议之后将在分组讨论室进行 30 分钟的问答。如果您还有其他问题要问迈克尔,请过来。
  • 休息(5 分钟)

Vinoo Ganesh:从零到管道(30 分钟)- 太平洋时间上午 9:20 | 东部时间中午 12:20 | 下午 4:20(世界标准时间/格林尼治标准时间)

  • 对于数据从业者来说,没有什么比部署第一个数据管道更令人畏惧的了。数据管道生态系统的灵活性、自由度和开发速度允许无限的调整、定制和配置。。.但让入门变得势不可挡且困难。在本次实时编码会议中,Vinoo Ganesh 将带您在短短 30 分钟内完成在 Airflow 中确定范围、构建、部署和运行功能齐全的 ETL 管道的过程,所有这些都在本地开发人员环境中进行。您还将了解如何将 ETL 流程的每个步骤简化为作业执行 DAG 中的任务。加入以获得工具和知识,以便在家中建立自己的管道开发人员环境。
  • Vinoo Ganesh 领导 Bluesky Data 的部署工程团队,这是一家构建下一代云数据基础设施的初创公司。此前,他曾担任 Citadel Investment Group 旗下业务 Ashler Capital 的业务工程主管,负责监督关键数据管道和投资平台;曾担任 Veraset 的首席技术官,这是一家地理空间情报数据即服务初创公司(处理超过 2 TB 的地理空间数据);并领导 Palantir 的软件工程和前沿部署工程团队。他是一位经验丰富的初创公司顾问,曾指导 Databand.ai 开发工具来解决整个堆栈中的数据可观测性问题,并为 Horangi 提供其一流网络安全产品 Warden 的建议。

Holly Smith:数据工程师在构建管道时犯的 5 个错误(30 分钟)- 太平洋时间上午 9:50 | 东部时间中午 12:50 | 下午 4:50(世界标准时间/格林尼治标准时间)

  • Holly Smith 在 Databricks 致力于解决客户面临的最棘手的数据问题。在过去的几年里,她看到了看似很小的错误或被忽视的配置如何变异成可怕的怪物,需要大量的数据工程师来拔除它们影响深远、令人作呕的触手。不要成为让这些怪物成长的个人或团队。与 Holly 一起深入了解行业提供的最糟糕的示例,探索数据工程师在构建管道时犯下的五个主要错误。无论您是从业者还是决策者,如果您的日常工作是数据,那么本课程就适合您。
  • Holly Smith 是一位屡获殊荣的数据和人工智能专家,拥有十多年以各种身份与数据和人工智能团队合作的经验,从个人贡献者一直到领导力。过去三年,她在 Databricks 与跨国公司合作,帮助他们踏上数据前沿的旅程。她还为 DataKind UK 和 Tech Talent Charter 提供数据战略方面的建议,并将数据技能引入非营利组织。
  • 休息(5 分钟)

Karen Li:迈向实时数据管道(英特尔赞助)(30 分钟)- 太平洋时间上午 10:25 | 东部时间下午 1:25 | 下午 5:25(世界标准时间/格林威治标准时间)

  • 数据一产生就最具价值。数据驱动的组织认识到这一点,并越来越多地在面向用户和运营分析中使用流数据。典型的实时用例包括风险操作、安全分析、物流跟踪和实时个性化。但随着实时分析的发展,需要能够向各种应用程序提供实时数据的管道。Karen Li 分享了构建实时数据管道的原则和最佳实践。加入进来,了解为什么灵活的架构、对复杂查询的支持以及处理流量突发和无序事件的能力在实时分析中比在传统批量分析中更为重要。
  • Karen Li 是 Rockset 系统团队的软件工程师,负责公司的分布式 SQL 查询引擎。在 Rockset 期间,她实现了基于 SQL 的汇总、优化了分布式聚合并调试了棘手的生产问题。她从 UCLA 毕业并获得计算机科学学士学位后加入了 Rockset。
  • 本次会议之后将在分组讨论室进行 30 分钟的问答。如果您还有其他问题想问凯伦,请过来。

何俊:大规模构建强大的数据管道(30 分钟)- 太平洋时间上午 10:55 | 东部时间下午 1:55 | 下午 5:55(世界标准时间/格林威治标准时间)

  • 数据/机器学习管道已成为企业的核心资产。随着大数据和机器学习的影响力越来越大,生态系统的可扩展性和稳定性对于数据科学家和整个公司来说变得更加重要。现在,支持超越建议、预测和数据转换的用例管道至关重要。何俊分享了他构建和运营工作流平台以大规模构建强大数据管道的经验。您将了解他在管理和监控数十万条管道时面临的挑战以及他在实现系统自动化时学到的经验教训。您还将获得工作流生命周期管理和设计理念的最佳实践。
  • Jun He 是 Netflix 大数据编排团队的高级软件工程师,负责构建大数据工作流调度程序,用于管理和自动化公司的机器学习和数据管道。他职业生涯的大部分时间都在分布式系统和基础设施领域工作。此前,他花了几年时间在 Airbnb 构建分布式服务和搜索基础设施,是其消息总线和搜索管道的主要贡献者。

阿利斯泰尔·克罗尔 (Alistair Croll):闭幕致辞(5 分钟)- 太平洋时间上午 11:25 | 东部时间下午 2:25 | 下午 6:25(世界标准时间/格林威治标准时间)

  • 阿利斯泰尔·克罗尔 (Alistair Croll) 为今天的活动画上了圆满的句号。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。