站点可靠性工程要点
Site Reliability Engineering Essentials
了解有效运行生产系统的 SRE 原则和实践
- 定义和描述站点可靠性工程师在现实世界中的角色
- 使用实际示例解释 Site Reliability Engineering 的原则
- 了解如何在组织中培养 Site Reliability Engineering 文化
站点可靠性工程 (SRE) 是一门有效运行生产系统的学科。它将软件工程集成到传统上称为 Systems Administration 的领域中。站点可靠性工程师负责服务的可用性、性能和最终用户体验。他们处理事件管理并确保满足服务级别目标。他们还设置了监控和警报,以便在最终用户受到影响之前主动发现问题。随着现代微服务架构、分布式系统和云架构的出现,SRE 已成为每个组织的关键部分。
在本课程中,您将根据实际示例学习 SRE 的基础知识、如何区分 DevOps 和 SRE,以及 SRE 如何实施 DevOps 原则。您将学习如何使用监控工具和服务水平指标 (SLI) 设置监控和警报,进行无指责的事后分析,了解事件指挥中心中使用的各种角色,并学习用于有效事后分析的工具和模板。您将检查辛劳(手动和重复性工作)并学习如何在 SRE 组织中减少辛苦。最后,您将学习强调可靠性的系统设计的行业最佳实践。
您将学到什么以及如何应用它
在实时在线课程结束时,您将了解:
- SRE 和 DevOps 之间的区别
- 服务水平指标 (SLI)、服务水平目标 (SLO) 和服务水平协议 (SLA) 的基础知识
- 如何采用自动化来减少平凡、单调的手动工作
- 监控生产应用程序并创建有意义的警报(页面与电子邮件)的方法
- 如何查看无指责事后分析报告的剖析和用于编写事后分析的行业标准模板
您将能够:
- 制定有意义的 SLO 和 SLI 并准确测量它们
- 实施有效的监控和警报解决方案
- 创建事件事后分析并进行无指责的审查
- 在系统架构中实施最佳实践以提高可靠性
- 制定待命轮换和设置流程以避免倦怠
此现场活动适合您,因为…
- 您是一名 DevOps 工程师,负责构建、部署和运行生产应用程序
- 您是软件开发人员或担任 SRE 角色的架构师
- 您是一位经验丰富的 SRE,有兴趣复习基础知识
先决条件
- 软件开发、DevOps 或系统管理(Windows 或 Unix)的初级经验
课程设置
- 无需设置。
建议的准备工作
- 阅读: 站点可靠性工程 ,作者:Betsy Beyer、Chris Jones、Niall Richard Murphy、Jennifer Petoff
建议的随访
- 阅读:Betsy Beyer、Niall Richard Murphy、David K. Rensin、Kent Kawahara、Stephen Thorne 编写的 《站点可靠性工作簿 》
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)