运维工作规范制定的主要目的在于指导运维方业务系统的日常运行,规范运维人员的日常行为,合理安排资源,降低系统在运维过程中存在的风险,最大程度地保障业务系统的正常运行,提升客户满意度。
1.1.运维工作规范主要内容
运维工作规范着重于规范运行活动的日常行为,提前发现系统运行过程中存在的问题与隐患,以便更好地支持业务系统的运行。其主要内容如下:
❑软件系统运行
软件系统运行部分主要包括:相关软件许可是否有效、应用系统相关进程是否正常、数据库运行是否正常等部分。
❑硬件系统运行
硬件运行部分主要包括:服务器有无硬件故障、有无硬件报警、网络设备是否运行正常、存储设备是否运行正常等等。
❑性能管理
性能管理主要针对多用户、高负载的应用系统。性能管理确保应用系统能及时有效地响应用户请求,在出现性能问题时,分析和解决相关技术问题。
❑故障与告警管理
故障与告警管理主要通过查看操作系统日志和应用系统日志,查看和统计软、硬件系统在运行过程中出现的报警信息,分析其中存在的隐患,提前加以排除。
2.系统总体框架图
包括应用系统的整体软、硬件部署图,其中包括服务器部署、网络部署、存储部署、应用部署等。
3.软、硬件系统要求
3.1.软件部分组成
主要填写软件部分组成,包括操作系统、中间件等平台与版本信息等;
描述如下:
序号 | 组成部分 | 具体配置 | 备注说明 |
1 | 操作系统版本与补丁集要求 | ||
2 | 中间件版本要求 | ||
3 | 数据库版本与补丁集要求 | ||
4 | 其他应用软件版本要求 | ||
- - - - -- - - | - - - - - - - - - |
主要涉及硬件系统组成及其相关配置信息;
描述如下:
序号 | 组成部分 | 具体配置 | 备注说明 |
1 | 服务器 | ||
2 | 网络状况 | ||
3 | 存储设备 | ||
4 | 其他IT设备 | ||
- - - | - - - - - - - - | - - - - - - - - - - - | - - - - - - - -- - |
日常巡检是指操作人员根据规定的标准,以感官为主借助相关的软件工具,每日对设备和系统的运行情况进行检查和监视,了解设备和系统的运行状态是否正常,并对设备进行维护和调整,同时将检查结果进行记录。
日常巡检的主要内容包括:
a.硬件设备状态
b.软件设备状态
c.应用运行状态
4.1.硬件部分
4.1.1.服务器状态
主要检查服务器硬件的状态,包括cpu、内存、电源等硬件。
序号 | 检查内容 | 目前状态 | 是否正常 | 采取的措施 |
1 | 电源状态 | |||
2 | 风扇状态 | |||
3 | ||||
4 |
主要检查存储设备的运行情况,包括存储空间、电源、控制器状态等。
序号 | 检查内容 | 目前状态 | 是否正常 | 采取的措施 |
1 | 电源 | |||
2 | 控制器 | |||
3 | - - - - |
主要检查与应用系统相关的网络设备状态,
序号 | 检查内容 | 目前状态 | 是否正常 | 采取的措施 |
1 | ||||
2 | ||||
3 | ||||
4 | ||||
5 | ||||
主要检查OS与软件部分的运行状态,包括OS、数据库、中间件、应用软件等。
序号 | 检查内容 | 目前状态 | 是否正常 | 采取的措施 |
1 | ||||
2 | ||||
3 | ||||
4 | ||||
5 | ||||
- - | - - - - - - | - - - - - - - - |
主要检查备份系统的软、硬件状态,包括磁带库状态、备份作业运行状态等。
序号 | 检查内容 | 目前状态 | 是否正常 | 采取的措施 |
1 | 备份软件运行 | |||
2 | 备份设备 | |||
3 | ||||
4 | ||||
5 | ||||
- - | - - - - - - | - - - - - - - - |
主要从系统全局角度查看,系统出现的故障、告警信息及其解决办法,为以后的该应用系统的运维增加管理经验。
时间 | 故障或告警描述 | 故障分析 | 最终解决办法 |
序号 | 检查内容 | 支持操作 | 检查方法 |
1 | 备份软件运行 | ||
2 | 备份设备 | ||
3 | - - - - |
日常维护是指运维人员对设备、应用软件等利用相关工具,对其运行状态进行检查,对潜在的故障点进行检查。
5.1.服务器维护
主要检查服务器运行状态,包括cpu利用率、内存利用率、是否有系统死锁进程等等。
序号 | 维护项 | 执行操作 | 检查方法 |
1 | CPU利用率 | ||
2 | 内存利用率 | ||
3 | 系统进程 | ||
- | - - - - - - - - - - |
主要检查与应用系统挂接的存储空间的状态,包括存储挂接点的状态、存储空间的状态等。
序号 | 检查内容 | 支持操作 | 检查方法 |
1 | 存储挂接点状态 | ||
2 | 存储空间 状态 | ||
3 | - - - - |
主要检查网络设备中网络流量等网络设备状态。
序号 | 检查内容 | 支持操作 | 检查方法 |
1 | |||
2 | |||
3 | - - - - |
主要检查OS与软件部分的运行状态,包括OS、数据库、中间件、应用软件等。
序号 | 检查内容 | 支持操作 | 检查方法 |
1 | |||
2 | |||
3 | - - - - |
备份系统包括磁带库、存储设备等硬件的运行状态,此外还有备份软件的运行情况等。
应用系统 | 备份软件 | 备份策略 | 全备份周期(周或月) | 增量或差异备份周期(天) |
- - - - |