运 维 管 理 制 度
xxxxx公司
2021年4月
运 维 管 理 制 度
总 则
第一条 为保障信息系统软硬件的安全、稳定、高效运行,及时发现解决IT故障,缩短运维服务响应时间,同时变被动服务为主动预防,提高运维管理工作的有效性、有序性及科技运维水平,使运维管理工作规范化、业务开展标准化,运维水平精益化,让工作有据可循,结合都市xxxxx公司的实际情况,制订本制度。
第二条 本制度适用于本办法适用于xxxxx公司综合管理门户运行。
第三条 运维管理的对象是xxxxx公司部署的各类信息系统软硬件。信息系统软硬件包括IT基础设施和应用系统两大类。
1. IT基础设施包含终端设备、外场设备、机房动力环境、网络设施、安全设施、主机设备、存储/备份系统、操作系统、数据库、中间件等。
2. 应用系统是指除IT基础设施之外的各类业务系统平台。
第四条 运维管理的目标是立足根本促发展,开拓运维新局面,全面提高人员运维水平,保证信息系统软硬件健康水平及运行可靠性,降低设备故障率,提升运维管理效率。
第五条 运维管理的模式分为自运维、完全外包运维、混合运维3类。根据xxxxx公司的实际特点,结合未来交通信息化的整体发展要求,xxxxx公司采用混合运维管理模式,由中心设立专门的运维管理人员和信息系统软硬件供应商、专业的信息科技运维服务商等共同提供运维服务。
相关部门与职责
第六条 运维管理工作涉及的相关部门和人员及职责。
1. 运维管理领导:运维管理第一责任人。负责贯彻国家、行业及监管部门关于信息系统技术、设备及质量管理等方面的方针、和规定,组织制订切实可行的科技运维管理战略、规程、办法,牵头组织运维实施工作,负责解决运维管理中涉及的关键决策问题。
2. 运维管理人员:运维管理主要责任人。负责结合科技运维管理战略要求,制订相应的运维策略、流程及应急预案,落实运维实施工作;负责参与各类信息系统软硬件的安装、调试、验收、使用培训和维修保养;负责协调解决各类信息系统软硬件的故障问题,保障其安全、稳定和高效运行;负责信息系统软硬件保密口令的设置和保存;负责运维管理相关资产统计、故障统计、报表输出等;负责保持与运维管理领导、信息系统软硬件供应商、专业的信息科技运维服务供应商等部门和人员的联系;负责提供信息系统软硬件的日常技术支持。
3. 信息系统软硬件供应商:负责按照项目合同中的相关约束,提供技术支持及各类故障问题的解决。
4. 专业的信息科技运维服务商:负责按照合同中的相关约束,提供运维管理服务。
运维内容
第七条 运维管理的主要内容涉及以下10个方面。
1. 信息系统软硬件的资产统计包括但不限于:
1)硬件设备型号、数量、版本、供应商等信息统计;
2)软件系统型号、版本、补丁、上线运行时间、供应商等信息统计;
3)网络结构、网络路由、网络IP地址等信息统计;
4)综合布线、系统结构图的绘制等;
5)其它各类设备与系统的信息统计。
2. 参与各类信息系统软硬件的安装、调试和验收、使用培训和维修保养;
3. 信息系统软硬件保密口令的设置和保存。保密口令设定后任何人不得随意更改,保密口令应每半年更新一次。
4. 网络设施、安全设施的运维服务是指网络连通性、网络性能、网络监控管理等。其内容包括但不限于:
1)设备基础性能检测:CPU、内存使用情况监测;
2)设备日志查看;
3)设备snmp状态;
4)测试PING、TRACERT等工具的连通性;
5)网络安全策略应用是否正常;
6)网络带宽流量的实时监测;
7)网络拓扑链路状态监测;
8)异常网络数据包流量;
9)Dos、DDoS等网络攻击情况监测;
10)网络线路的误码率、丢包率监测等。
5. 主机、存储/备份系统的运维服务是指主机、存储/备份系统的日常运行状态监控、故障处理、操作系统维护、补丁升级等。其内容包括但不限于:
1)主机CPU运行状态及性能管理;
2)主机内存运行状态及使用情况管理;
3)主机硬盘运行状态及使用情况管理;
4)主机系统进程管理;
5)主机性能管理;
6)主机电源、风扇的使用情况及机箱内部温度等;
7)主机网卡、阵列卡等硬件状态管理;
8)主机文件系统管理;
9)交换机设备运行状态、端口状态、传输速度等;
10)备份服务进程、备份情况(是否成功、起止时间、出错告警)等;
11)磁盘阵列、磁带库等存储硬件故障提示和告警;
12)存储的性能(如高速缓存、光纤通道)等监控管理;
13)操作系统维护、补丁升级等。
6. 数据库运维服务内容包括但不限于:
1)数据库文件系统、碎片、死锁、CPU占有率较大或较长的SQL语句等监测;
2)数据表、表空间等使用信息监测;
3)数据库文件I/O的读写情况;
4)Session连接数量监测;
5)数据库监听状态监测;
6)报警日志监测;
7)数据库后台进程监测;
8)数据库对象的空间扩展情况监测;
9)数据库系统维护、补丁升级。
7. 中间件运维服务内容包括但不限于:
1)中间件日志是否有报错异常;
2)中间件配置执行进行的状态是否正常;
3)中间件集群配置是否正常
4)中间件系统维护、补丁升级等。
8. 终端设备及外场设备运维服务内容包括对终端PC、笔记本、工作站、打印机及各类外场设备的操作系统、应用软件和硬件的维护,解决使用人员在应用过程中遇到的问题。
9. 机房动力环境运维服务是指解决机房的供电参数、配电开关、温湿度监测、漏水监测、门禁管理、视频管理、消防管理、报警管理等过程中遇到的各类问题。
10. 应用系统运维服务是指解决操作人员在应用系统使用过程中遇到的各类问题。
运维流程
第 运维管理服务流程涉及服务台、事件管理、工单管理、问题管理、配置管理、变更管理、知识库管理等。(运维管理服务流程图参见附件1)。
1. 服务台:服务台为接收各类运维服务的请求、相关信息答复或反馈的联系节点。
2. 事件管理:事件是指可能引起或已经引起信息系统软硬件无法安全、可靠和稳定运行的事件,事件的产生会导致信息系统服务中断或者是服务质量降低。事件的产生包括服务台受理的各类运维请求或第三方运维监控系统检测到的故障报警等内容。事件发生后可由运维管理人员派发工单给信息系统软硬件供应商或专业的信息科技运维服务供应商等给予事件解决。
3.工单管理:运维项目依据所接收工单进行运维工作。信息系统软硬件供应商或专业的信息科技运维服务供应商依据收到的用户方工单对事件进行处理,并及时更新事件状态。
4.问题管理:问题是指导致事件产生的原因,多个事件往往是由同一个问题引起的。问题的来源主要有以下几种:
1)已经处理的事件,经过回顾分析后,可能形成问题;
2)重大事件,虽然经过紧急处理恢复服务,但未找到根本原因,可能形成问题;
3)对于趋势性事件经过分析形成问题。
问题管理的目的是找出并消除引起事件的根本原因,从而避免事件再次发生。问题确认后,可对信息系统软硬件采取变更处理。
5.配置管理:负责有效完整的记录和维护信息系统软硬件中所有相关配置信息,确保配置库能够准确地反映现存信息系统软硬件的型号、版本、位置、状态、有效期等。配置管理还应对所有设备和系统之间的物理和逻辑关系进行跟踪管理。配置管理的目的在于准确记录配置项信息, 为其他流程提供准确的信息支撑,使流程更有效地运行,确保信息系统环境的完整性和稳定性。
6.变更管理:旨在有效管理所有信息系统软硬件的变更过程,应力求对系统运行最小干扰前提下实现有益的变更。
5.知识库管理: 知识库是提供给运维管理人员重要的技术资料内容,记录运维管理工作中遇到的典型案例所总结的知识要点和全面实用的资料手册。
应急响应
第九条 针对各类运维管理中遇到的突发事件,制订相应的预防及解决措施,建立完整的应急事件处理流程,形成运维管理应急预案。
运维成本
第十条 按照运维工作发生的内容,运维成本投入分为运行维护成本、设备检修成本、故障处置成本、状态监控成本和物资储备成本等。
运维规范
第十一条 运维服务响应时间。
1. 紧急事件(Ⅰ级):系统崩溃导致业务停止、数据丢失等紧急问题,运维管理人员应在10分钟内对其进行响应,30分钟内提交故障处理方案,3个小时内解决故障,特殊情况除外。
2. 严重事件(Ⅱ级):部分部件失效、系统性能下降但仍能运行,运维管理人员应在10分钟内对其进行响应,30分钟内提交故障处理方案,8小时内解决故障,特殊情况除外。
3. 较严重事件(Ⅲ级):出现系统报错或警告,但信息系统仍能运行,不影响正常业务操作等较严重问题,运维管理人员应在10分钟内对其进行响应,30分钟内提交故障处理方案,12小时内解决故障,特殊情况除外。
4.一般事件(Ⅳ级):系统技术功能、安装或配置咨询或其他不影响正常业务的预约操作,运维管理人员应在10分钟内对其进行响应,2小时内提交故障处理方案,24小时内解决故障,特殊情况除外。
第十二条 运维行为规范。
1. 管理人员应密切配合值班人员,做好技术支持工作。
2. 出现疑难技术、业务问题和重大紧急情况时,及时向运维管理领导汇报。
3. 严格遵守保密规则,对信息系统软硬件的密码负有保密责任,不得随意复制和传播。
4. 及时联系信息系统软硬件供应商或专业的信息科技运维服务供应商,并督促其尽快解决问题。
监督考核
第十三条 加强运维管理人员的培训、指导和监督管理,把运维管理工作纳入日常考核和年度绩效考核。
第十四条 运维管理工作实行领导负责制和责任追究制。对运维管理工作中做出突出贡献的先进集体和个人要及时地给予宣传、表彰和奖励;对运维管理工作中有失职、渎职行为的,依法对有关责任人给予行政处分。构成犯罪的,依法追究刑事责任。
附则
第十五条 本制度自颁布之日起执行。
第十六条 本制度由xxxxx公司负责解释。
附件1:运维管理服务流程图下载本文