SRE实战手册

SRE（Site Reliability Engineering），网站稳定性工程，最早是由 Google 设置的一类工程师岗位，专职负责其超大规模分布式产品（如搜索、Gmail、Docs 等）的稳定性。而后，SRE 慢慢发展成了一系列面向稳定性的，包括技术、管理、流程、组织架构，以及文化建设的最佳实践，并最终被提炼成一套方法论，广泛流传。

在国内，SRE 的这套方法论，也被很多企业的 IT 团队作为技术能力提升和组织转型，特别是运维转型的参考标准。但是，在实际落地这套方法论时，大家有很多疑惑，比如：

SRE 如果不是运维的升级版，那它到底是什么？
SRE 涉及范围如此之大，到底应该从哪里入手建设呢？
在稳定性方面，有些公司已经做了很多工作，特别是在技术体系搭建上，为什么还是故障频发？难道单纯的技术保障还不够吗？
引入了 SRE，团队的能力应该怎么提升？组织架构应该怎么匹配呢？

因此，我们邀请赵成老师开设了《SRE 实战手册》这个课程。他将结合自己的实践经验，从基础理论和实践操作两方面入手，一次性解决你心中的困惑，帮助你正确认识 SRE，掌握可落地的实践方法。

这个课程分为基础篇和实践篇两大模块。

基础篇：带你从实践的角度理解 SRE 是什么，并以 SRE 的基本概念 SLO 和 SLI 作为切入点，教你一步步建立起 SRE 稳定性标准。最后结合具体的电商案例，分享在实际场景中设定稳定性目标应该考虑的因素。
实践篇：围绕“故障”这个影响稳定性的核心事件，分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时，着眼落地 SRE 时绕不开的组织架构问题，分享真实的组织架构设置实践和高效的跨团队协作经验。

开篇词｜SRE是解决系统稳定性问题的灵丹妙药吗？
01｜SRE迷思：无所不能的角色？还是运维的升级？
02 | 系统可用性：没有故障，系统就一定是稳定的吗？
03 | SRE切入点：选择SLI，设定SLO
04 | 错误预算：达成稳定性目标的共识机制
05 | 案例：落地SLO时还需要考虑哪些因素？
06 | 故障发现：如何建设On-Call机制？
07｜故障处理：一切以恢复业务为最高优先级
08｜故障复盘：黄金三问与判定三原则
09｜案例：互联网典型的SRE组织架构是怎样的？
10 | 经验：都有哪些高效的SRE组织协作机制？
结束语｜聊聊我的SRE落地心路历程
答疑｜没什么能阻挡你拓展边界的渴望

阅读全文

资源下载

下载价格20 元

立即购买

虚拟资源，一经购买，概不退款，如有问题联系客服QQ：904745566！

常见问题

是否支持单个资源购买？

答：点击“立即购买”，即是单个资源购买。

开通VIP会员后，是否支持全部资源下载，如何开通VIP会员？

答：点击“升级VIP”按钮，支付完成后即可开通VIP会员，VIP会员支持全站课程免费下载。

链接失效怎么办？

答：联系客服QQ：904745566，获取最新下载链接。

原文链接：http://xpozhan.com/other/1616/，转载请注明出处。

评论0

在线客服

升级VIP

全屏浏览

夜间模式

返回顶部