• 目标
    • 安全性
      • 账号管理
      • 漏洞修复
      • 安全审计
    • 可用性
      • 服务监控
      • 架构优化
      • 冗余备份
      • 预案演练
      • 故障响应
    • 运维成本
      • 成本核算
      • 服务选型
      • 成本优化
    • 运维效率
      • 研发工作流支持
      • 服务支持平台建设
      • 运维自动化平台建设
  • 工作方式
    • 邮件申请开通 LDAP, VPN, 测试, 线上
  • 系统
    • ITIL(IT Infrastructure Library)
    • ITSM(IT System Management)
  • 故障分类
    • 代码bug
      • 遇特殊情况代码逻辑问题
    • 操作不当
      • 线上配置或资源配置错误,操作不当
      • 如启动顺序不合理,初始化脚本不对,语法生产数据混用
    • 系统级别bug
      • OS,第三方类库
    • 突发流量
      • 热点或突发事件
    • 资源使用不均
      • 整体产品线利用率不达标,有些业务冗余度不足
    • 容量预估不足
      • 个别业务核心池预估不足
    • 网络类
      • 公网拥堵、丢包,专线、网络设备故障
      • IP被攻击,DNS被攻击,IP被封,域名被封
      • 网络软件bug,未及时扩容
    • 安全类
      • 被攻击,漏洞被利用
    • 局方故障
      • ISP,根域名服务,电力,空调,光缆等
    • 硬件故障
    • 第二方合作公司或接口故障
  • 事故级别
    • 线上故障等级
      • P0 致命问题
      • P1 严重问题
      • P2 一般问题
      • P3 轻微问题
    • 线上故障分类
      • 外部依赖类
      • 运营质量类
      • 需求质量类
      • 系统质量类
  • 故障流程
    • 故障报告
    • 故障响应处理机制
    • 常见处理流程
      • 回滚版本
      • 日志搜索定位问题
      • 添加log,创建修补程序版本
      • 提交测试
      • 部署预发,获取详细日志,验证问题
      • 发布上线