视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
日常运维管理制度
2025-09-29 17:05:06 责编:小OO
文档
日常运维管理制度

1.运维保障机制

(1)建立硬件、网络、系统、应用及业务软件日常维护流程机制;

(2)建立故障应急处理流程机制;

(3)建立备份恢复保障机制;

(4)建立安全保障管理机制;

(5)建立版本管理机制,管理平台生产环境运行的软件版本;

以上机制应形成文档,作为日常遵循规范,按要求执行。

2.硬件维护能力

需对硬件设备具备7*24小时不间断的支持、响应能力,原则上每日对硬件设备至少健康检查一次并记录;定期对网络环境进行检查。我公司服务器部署在移动云上定期通过命令进行硬件检测,内存、硬盘、I/O的使用情进行查询并进行登记,每台服务器运行的软件对硬件性能使用情况检测,对于服务器我们进行系统备份、软件,每日对网络使用情况进行观察,针对突发异常流量进行分析。

3. 故障处理响应及要求

设备(系统)出现故障时,根据不同的故障级别提供相应的服务响应,响应方式及要求如下:

故障级别故障内容响应时间及效果其他
I 一般故障出现系统故障,不影响系统运行,不影响业务正常运作工程师即时响应处理,24小时内解决。对于硬件故障(含机房环境故障),要求不论在何时确诊需要进行备件更换,发出备件更换指令起3小时内备件到达故障现场,并恢复系统正常运行。
II 次要故障出现系统故障,影响系统运行或影响非关键业务运作,不影响核心业务运作工程师即时响应处理,8小时内解决。
III 重大故障出现系统故障,系统崩溃或其他状况,影响核心业务的正常运行工程师即时响应处理,2小时内解决。
4.具备应急预案

针对部署国家平台节点服务器我们实施系统备份、软件重要数据实时备份,主机备份是提供的保留某个时间点上的主机系统数据状态的服务。基于主机备份可以随时生成或删除备份,并基于已备份进行主机的恢复,实现已有应用和主机数据的快速复用,如系统出现事故无法使用将进行系统恢复并把最近一次备份的数据进行恢复。对于突发情况建立应急服务流程,主要是针对可能发生的各种意外情况设计应急的方案,以控制和规避突发事件带来的集中性风险,从而降低设备集中性风险所造成的损失,制定以下流程图:

为保证服务实施的质量能够稳定并不断有所提升,保障客户需求能够得到有效满足,保障服务实施团队为客户提供统一、标准化的服务支持,并为客户设立专门的技术服务专员,对进行全程跟踪,提升服务实施专业性,制定服务流程:

5.数据库维护能力

每日对数据库进行日常巡检,内容包括对xx、会话数、表空间、磁盘空间等主要数据库参数进行检查(需要配置监控软件);对数据库进行数据备份、归档xx整理、表空间维护、权限分配、异常问题处理;对数据库相关JOB进行维护;定期对数据库进行重启,以释放资源;制定数据备份方案及数据恢复演练方案,定期进行数据恢复演练。

6.中间件维护能力

对中间件进行运行状况检查;每日对核心中间件和应用xx进行检查。定期对中间件性能进行检测,必要时进行优化处理。

7.安全要求

需要按照信息系统等级保护二级的要求对系统进行维护,包括但不仅限于:

(1)定期对系统进行风险评估工作,包括对网站及应用接口进行渗透测试、对内部主机进行漏洞扫描,并完成加固工作;

(2)对网站进行安全7*24小时安全监测,发现问题及时记录并处理;

(3)需每周至少一日信息系统进行安全巡检。包括对网络安全设备的巡检、配置优化,对信息系统内的各类状态进行判断,定期升级规则库和系统版本。

8.运维服务方式

为了保证项目所有软硬件设备的正常运行,我方提供了灵活的服务方式,可以充分满足项目的需求,服务方式有以下几种:

服务台—提供技术咨询、服务请求受理、任务分派、意见受理客户服务专员快速通道、服务查询等服务。

远程支持服务―为终端用户提供远程技术维护服务。

现场服务―为远程未能解决的问题提供技术支持、现场维护服务。

9.运维人员管理:

(1) 人员储备

建立与运行维护服务相关的人员储备计划和机制,确保有足够的人员,以满足与需方约定的当前和未来的运行维护服务需求。

(2)人员培训

建立与运行维护服务相关的培训体系或机制,在制定培训计划时识别培训要求,并提供及时和有效的培训。

(3)绩效考核

建立与运行维护服务相关的绩效考核体系或机制,并能够有效组织实施。

10. 岗位结构 :

有专职团队负责运行维护服务的工作,对运行维护服务中的不同角色有明确分工和职责定义,为了保障运行维护服务交付的顺利实施,需方也应提供必要的接口。  一个完整的运行维护服务团队应包括管理、技术支持、操作等主要岗位:

a) 管理岗职责:

1) 在运行维护服务中负责管理运行维护服务;

2) 与需方建立顺畅的沟通渠道,准确地将需方的需求传递到运行维护服务团队;

3) 规划、检查运行维护服务的各个过程,对运行维护服务能力的策划、实施、检查、改进的范围、过程、信息安全和成果负责。

b) 技术支持岗职责:

1) 在运行维护服务中负责技术支持,包括网络、操作系统、数据库、中间件、应用开发、硬件、集成、信息安全等;

2) 对运行维护服务过程中的请求、事件和问题做出响应,保障信息安全并对处理结果负责。

c)  操作岗职责:

1) 在运行维护服务中负责日常操作的实施;

2) 根据规范和手册,执行运行维护服务各过程,并对其执行结果负责。

11.整理知识库

具备运行维护服务活动相关的知识积累,以保证在整个组织内收集、共享、重复使用所积累的知识和信息,包括:

a)针对常见问题的描述、分析和解决方法建立知识库;

b)确保整个组织内的知识是可用的、可共享的;

c)选择一种合适的知识管理策略;

d) 知识库具备知识的添加、更新和查询功能;

e) 针对知识管理要求制定相关管理制度,并进行知识生命周期管理。下载本文

显示全文
专题