1. 故障管理在运维中的重要性及处理流程 2. 标准化和自动化的运维规划:BCM、BCP和DRP的应用
运维管理:
ITIL:
人:服务请求一线服务台,二线架构,三线应用
变更管理,通知与checklist
配置管理
事件管理
故障管理:
BCM-BCP-DRP-运维管理之故障管理——故障的分类与处理流程
问题管理
落地实施:
运维规划之标准化与自动化
DEVOPS
cicd,代码开发
SRE
目标:
支撑业务
高可用
可扩展
降本增效
高性能
人,事,关系,结构,流程,管控,验收,节点
事:
1,cmdb资产配置管理
2,LDAP内网服务系统统一登陆,SSO,openldap
3,邮箱
4,内网,VPN,跳板机,堡垒机
5,DNS
6,桌面,打印机,投影仪,会议室,office,window,桌面软件
7,wiki
8,jira 项目管理,bug管理
9,服务树
10,统一监控报警平台,统一日志平台
11,工单平台
12,OA平台
13,备份恢复
14,机器设备采购
15,代码托管
16,防火墙
17,中间件,ng,redis,数据库,lb
18,发布平台,devops,ci,cd
19,云平台,iaas,paas,saas,容器,k8s
可用性: 几个9
在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。
-
3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
-
4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
-
5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。
那么X个9里的X只代表数字3~5,为什么没有1~2,也没有大于6的呢?我们接着往下计算:
-
1个9:(1-90%)*365=36.5天
-
2个9:(1-99%)*365=3.65天
-
6个9:(1-99.9999%)*365*24*60*60=31秒
可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词;而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。
可用度A |
9的个数 |
年停机时间(分钟) |
适用产品 |
0.999 |
三个9 |
500 |
电脑或服务器 |
0.9999 |
四个9 |
50 |
企业级设备 |
0.99999 |
五个9 |
5 |
一般电信级设备 |
0.999999 |
六个9 |
0.5 |
更高要求电信级设备 |
项目摸底
在接手系统后,先要确保能日常维护,对整套系统做一个摸底,一般包括以下几项:
- 项目简介
- 账号密码表
- 项目资源管理配置清单
- 各种结构流程图
- 部署维护文档
- 项目监控策略汇总表
- 项目应急操作手册
-
项目简介
我们可以从当前项目的业务范围,即项目的功能是什么?以及项目负责人及相关人员是谁,方便我们后面更好的项目对接。 -
账号密码表
账号密码表中应详细记载各服务器、平台、系统的登录用户名及密码,另外还应该有权限记录表,记录给谁开过权限,登录账号又是什么,以上种种,此处仅是距离,需要记录的东西很多,切记一定要准确清晰。 -
项目资源管理配置清单
这里面我觉得至少包含但不限于4个sheet表:服务器清单,项目域名信息,项目服务信息,第三方服务资源清单,每种信息都应该列出项目所有环境的信息,例如正式和测试环境等。 -
各种结构项目流程图
例如此项目的网络拓扑图,系统架构图,从这个拓扑图中我们可以看到此架构使用了多少台服务器,整个逻辑流程是怎样的。例如我们可以从域名开始摸,域名对应的Ddos防护,下面是负载均衡,再下面是每个模块的服务。每个服务需要连接哪个库,又需要和哪个服务进行交互。 -
部署维护文档
此文档可包含详细的安装步骤,配置文件中的数据库等地址指向都要写清楚,那么如何检验此文档的实用性呢?将此文档交接给另外的同事,可以达到迁移恢复,复制项目的目的。 -
项目监控策略汇总表
主要包含目前的监控策略,可分为基础监控和业务监控。基础监控为CPU、内存、网络带宽等服务器基础资源监控;业务监控则是针对服务本身的监控,此监控可暴露出当前的项目问题。此表可方便与项目负责人对接项目监控问题,或方便以后查询监控是否有遗漏等。 -
项目应急操作手册
项目已知的问题,经常发生的问题的处理方法,解决方案等。
可能很多小伙伴认为上面部分内容是业务上的东西了,觉得运维没必要去学,开发让扩展部署几个服务,部署就是了,反正这块是开发要负责的,出了业务问题开发排查即可。
标准化:
标准与流程
做好图后,开始到系统里去整理,做标准化、流程化。建立好以下几个标准:
- 服务名称命名:可根据项目环境或用途进行命令
- 端口规范:可根据项目环境或用途进行划分
- IP地址规划:可根据项目环境及区域进行划分
- 服务部署目录
- 日志输出目录
- 备份存放目录
- 工具包存放目录
- 数据存放目录
- 脚本存放目录等其它常用目录固定位置
流程:
- 各服务资源预算制作流程
- 服务器购买交付流程
- 服务部署/上线/维护流程
- 账号&权限添加流程
- 备份定期恢复验证演练流程
- 定期检查项目资源使用流程
- 故障报告管理流程
其实凡是资源都做规范了,凡是要多次重复做的都流程化,防止遗忘。这两样也是为了后面自动化打基础,将重复操作自动执行。
开发人员写代码的时候,都会探讨一下怎么写,出一个方案,画一个流程图,用什么技术。新临时增加的需求也是如此,起码接到的个人会先想好思路。
但到运维这里好像就随意起来了,加安全组直接通知下就添加了,备注随意写写,当对方不用的时候也忘记了删除。“规矩”也是要建立的,这样才能让人信服
1, 人:例如完善岗位职责与职业发展、提高团队技术水平、完善技能分享与培训、
完善团队绩效考核、规范工作行为规范等。目的是要建成一支工作高效、技术水平高、团结稳定、有职业素养的运维团队。
2, 事:例如做好日常基础运维工作,保障好生产业务运行。不断探索新的运维理念与技术,探索优化系统架构。具体可以分为:
运维流程管理、资源架构规划、应急与故障处理、监控与优化、安全与防护、项目及日常工作等。目的是要运维明白什么是正确的事,
怎么正确地做事,做事有章法,稳定高效能。
3, 物:主要是如何管理好系统运维所涉及的各种资源。例如机房环境、办公设备、服务器、网络设备、操作系统、应用软件、工具
等各种软、硬件资源。目的是要使各类资源配置管理妥当、清楚资源属性、知道从哪来、现在在哪、要去哪。使得物尽其用、物有所值、安置妥当。
4, 流程标准:运用流程标准将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行。例如资源规划与采购,各种标准规范,
项目规范,软、硬件配置部署规范,安全制度,工作交接等。
运维的一些能力要求:
- 运维规范的落地 :以ITIL、ISO20000、ITSS.1等方法论,结合外部监管及内部规范的落地;
- 监管机构的要求落地 :理解、快速响应、落地监管机构的管理要求;(等保)
- 基本保障 :配置、监控、应用发布、资源扩容、事件、问题等;
- 基础能力 :网络、服务器、操作系统、数据库、中间件、JVM、应用等基本使用与调优;
- 业务服务能力 :SLA,服务台、业务咨询、维护、经验库、等支持能力;
- 可用性管理能力 :巡检、业务系统连续性、可用性,基础架构及应用系统的高可用、备件冗余资源;
- 风险、安全管理能力 :操作、审计、监管风险,漏洞、攻击管控;
- 故障管理能力 :事件、问题管理水平与能力;
- 持续交付能力 :应用变更、基础资源、办公服务交付能力;
- 主动优化能力 :架构优化、性能响应效率、客户体验等
- 应急演练 :架构高可用、突发事件、业务故障的架构、方案、文档、人员熟练程度等
- 业务支撑 :数据维护、数据提取、参数维护等;
- 运行分析能力 :容量、性能、可用性分析等;
- 运营能力 :促进业务痛点的发现与解决、客户及业务业务体验等;
- 成本控制 :更好的评估人力、硬件、带宽、软件,节省成本;
- 运维开发 :运维自动化工具的建设,运维开发能力的培养;
-
其它
上一篇: 全面的运维解决方案和系统整合
下一篇: 数据中心运营与维护策略