My_Study_SRE
latest
SRE
SRE运维解密
1. 概述篇
2. 指导思想篇
3. 具体实践篇
3.1. 基于时间序列数据进行有效报警
3.2. on-call轮值
3.3. 有效的故障排查手段
3.4. 紧急事件响应
3.5. 紧急事故管理
3.6. 事后总结
3.7. 跟踪故障
3.8. 测试可靠性
3.9. SRE部门中的软件工程实践
3.10. 前端服务器的负载均衡
3.11. 数据中心内部的负载均衡系统
3.12. 应对过载
3.13. 处理连锁故障
3.14. 管理关键状态
3.15. 分布式周期性任务系统
3.16. 数据处理流水线
3.17. 数据完整性
3.18. 可靠地进行产品的大规模发布
4. 管理篇
SRE工作手册
My_Study_SRE
»
SRE运维解密
»
3.
具体实践篇
Edit on GitHub
3.
具体实践篇
具体实践篇
3.1. 基于时间序列数据进行有效报警
3.1.1. demo
3.2. on-call轮值
3.2.1. demo
3.3. 有效的故障排查手段
3.3.1. 理论
3.3.2. 实践
3.3.2.1. 故障报告
3.3.2.2. 定位
3.3.2.3. 检查
3.3.2.4. 诊断
3.3.2.5. 测试和修复
3.3.3. 神奇的负面结果
3.3.3.1. 治愈
3.3.4. 案例分析
3.3.5. 使故障简单
3.3.6. 小结
3.4. 紧急事件响应
3.4.1. 当系统出现问题怎么办
3.4.2. 测试导致的紧急事故
3.4.3. 变更部署带来的紧急事故
3.4.4. 流程导致的严重事故
3.4.5. 所有问题都有解决方案
3.4.6. 向过去学习
3.5. 紧急事故管理
3.5.1. 紧急事故流程管理要素
3.5.1.1. 职责分离
3.5.1.2. 控制中心
3.5.1.3. 实时事故状态文档
3.5.1.4. 明确公开的职责交接
3.5.2. 一次流程管理良好的事故
3.5.3. 什么时候对外宣布事故
3.5.4. 最佳实践
3.6. 事后总结
3.6.1. google的事后总结哲学
3.6.2. 协作和知识共享
3.6.3. 建立事后总结文化
3.7. 跟踪故障
3.7.1. demo
3.8. 测试可靠性
3.8.1. demo
3.9. SRE部门中的软件工程实践
3.9.1. demo
3.10. 前端服务器的负载均衡
3.10.1. 使用DNS进行负载均衡
3.11. 数据中心内部的负载均衡系统
3.11.1. demo
3.12. 应对过载
3.12.1. demo
3.13. 处理连锁故障
3.13.1. demo
3.14. 管理关键状态
3.14.1. demo
3.15. 分布式周期性任务系统
3.15.1. demo
3.16. 数据处理流水线
3.16.1. demo
3.17. 数据完整性
3.17.1. demo
3.18. 可靠地进行产品的大规模发布
3.18.1. demo
Read the Docs
v: latest
Versions
latest
Downloads
On Read the Docs
Project Home
Builds