My_Study_Books
latest
books
金字塔原理1
金字塔原理2
非暴力沟通
男人来自火星女人来自金星1
SRE运维解密
1. 概述篇
2. 指导思想篇
3. 具体实践篇
4. 管理篇
SRE工作手册
My_Study_Books
»
SRE运维解密
Edit on GitHub
SRE运维解密
SRE运维解密
1. 概述篇
1.1. 介绍
1.1.1. demo
2. 指导思想篇
2.1. 拥抱风险
2.1.1. 管理风险
2.1.2. 度量服务风险
2.1.3. 服务的风险容忍度
2.1.3.1. 辨别消费者服务的风险容忍度
2.1.3.1.1. 可用性目标
2.1.3.1.2. 故障类型
2.1.3.1.3. 成本
2.1.3.2. 基础设施服务的风险容忍度
2.1.3.2.1. 可用性目标
2.1.3.2.2. 故障类型
2.1.3.2.3. 成本
2.1.4. 使用错误预算的目的
2.1.4.1. 错误预算的构建过程
2.1.4.2. 好处
2.2. 服务质量目标
2.2.1. 服务质量术语
2.2.2. 指标在实践中应用
2.2.2.1. 运维人员和最终用户各自关心什么
2.2.2.2. 指标的收集
2.2.2.3. 汇总
2.2.2.4. 指标标准化
2.2.3. 目标在实践中应用
2.2.3.1. 目标的定义
2.2.3.2. 目标的选择
2.2.3.3. 控制手段
2.2.3.4. slo可以建立用户预期
2.2.4. 协议在实践中应用
2.3. 减少琐事
2.3.1. 琐事的定义
2.3.2. 为什么琐事越少越好
2.3.3. 什么算工程工作
2.3.4. 琐事繁多是不是一定不好
2.3.5. 小结
2.4. 分布式系统的监控
2.4.1. 术语描述
2.4.2. 为什么要监控
2.4.3. 对监控系统设置合理预期
2.4.4. 现象与原因
2.4.5. 黑盒监控与白盒监控
2.4.6. 4个黄金指标
2.4.7. 关于长尾问题
2.4.8. 度量指标采用合适的精度
2.4.9. 简化到不能在简化
2.4.10. 将上述理念整合起来
2.4.11. 监控系统的长期维护
2.4.12. 小结
3. 具体实践篇
3.1. 基于时间序列数据进行有效报警
3.1.1. demo
4. 管理篇
4.1. 迅速培养SRE加入on-call
4.1.1. demo