视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
吉林省政务云运维服务方案
2025-09-24 10:57:13 责编:小OO
文档
 

吉林省政务云运维服务方案

编制单位:联通(吉林)产业互联网创新基地

编制人员:

审核人员:

编制日期:2019年9月

1 适用范围

本方案适用于中国联通吉林省政务云服务相关的运营管理工作。

2 编写方法

本办法以吉林省政务云技术规范为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,体现了对运维服务全过程的体系化管理。

3 运维服务管理体系

3.1  运维服务管理对象

吉林省政务云涉及的云主机、云存储、网络、安全等方面的运营与服务;

3.2  运营角色

3.2.1  IaaS系统管理员

(1).负责IaaS系统角色及应用项目经理角色的权限管理;

(2).负责IaaS系统基础参数、模板的配置管理。

3.2.2  运营管理员

(1).负责整体运营指导;

(2).负责日常经营活动的监管;

(3).负责组织运营;

(4).负责与相关方的组织配合。

3.2.3  运营技术员

(1).负责模版制作与调整;

(2).负责配合IAAS管理平台建设方对新进机型进行可用性测试;

(3).其他技术支持。

1.

3.3  运维角色

3.3.1  运维管理员

负责资源运维管理。

3.3.2  运维专业技术员

负责日常运维工作,如巡检、故障处理、问题处理等

3.4  应用系统角色

3.4.1  项目经理

负责应用系统总体管理。

3.4.2  应用维护/开发人员

负责应用系统整体维护开发。

3.5  建设角色

3.5.1  云平台建设项目经理

负责资源池持续建设项目总体管理。

4 运维服务流程

4.1  资源申请准入流程

资源申请准入流程图

4.2  资源申请流程

资源申请流程图

✓《XXXX系统能力目录》

系统介绍:系统简介及系统架构;

系统与其他平台关系:包括但不限于对外接口、对外提供页面、调用其他平台能力、调用第三方平台能力;

系统应用部署全景:设备清单、APP、网络、数据库、存储;

(适用于新建系统)系统/平台业务承载量评估:包括系统容量评估、应用服务器空间估算、存储扩容计划、数据库服务器能力估算、应用日志存储空间估算;

(适用于扩容系统)系统/平台业务量评估(XXXX年):当前业务量、业务量评估、扩容量估算;

总结:概括说明系统新建或扩容所需设备或空间容量等。

✓《吉林省政务云资源开通申请表》

4.3  资源分配流程

应用建设方资源需求审批通过后,由运营管理方根据需求,通过IAAS管理平台完成资源分配;

资源分配操作指导意见:

1.时限要求:运营管理员接到资源分配工单后,虚拟机2个工作日内,物理机7个工作日内,按照工单需求完成资源分配,并通知应用建设方资源到位情况及权限账号。

2.资源分配成功后,运营管理方应将应用相关申请资料及资源情况与运维管理员共享,以保障整个管理过程的透明一致性。

资源分配流程图

4.4  资源变更流程

资源配置变更流程图

4.5  资源回收流程

4.5.1  虚拟/物理服务器回收标准:

应用系统中存在长期闲置资源,经应用方确认可释放后,应进行闲置资源回收;

应用系统中存在服务器长期性能指标(CPU、内存)过低,造成资源浪费的,经运营管理方评估系统性能分析报告后,仍确认为系统存在配置过高,造成资源浪费的,应进行资源替换;

应用系统集群整体性能指标存在长期过低的情况,造成资源浪费的,应根据系统实际需求,缩减集群规模,释放闲置资源;

存储回收标准:

应用系统中申请的存储资源如果处于长期闲置,经应用方确认可释放后,应进行闲置资源回收;

4.5.2  虚拟/物理服务器回收流程:

虚拟/物理服务器资源评估回收管理流程图

性能分析报告应包含内容:

系统负载较低服务器CPU及内存,网络IO,存储IO,系统链接数等性能数据,以性能数据中峰值为准

性能分析结果:(需要阐明目前资源配置与实际负载差异原因,并给出建议处理结果)

4.5.3  资源回收流程

存储资源评估及回收管理流程图

存储性能分析报告应包含内容:

存储空间利用率历史性能数据

性能分析结果:(需要阐明目前资源配置与实际负载差异过大原因,并给出建议处理结果)

4.6  业务迁移配合流程

业务迁移配合流程

5 运维服务内容

5.1  服务目标

运维项目组(运维角色、运营角色、应用系统角色、建设角色四个角色共同组成项目组)提供的运行维护服务包括,云平台相关的主机设备、操作系统、存储设备的运行维护服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。

政务云的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、业务应用软件等。

服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标:

运行状态、故障情况

配置信息

可用性情况及健康状况性能指标

5.2  网络、安全系统运维服务

从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。

虚拟机之间、虚拟机与云平台之外进行网络通信

根据业务需求可以实现虚拟机内部组网和虚拟网络中心等网络功能

设备基础性能检测:cpu、内存使用情况监测;

设备日志查看;

网络安全策略应用是否正常;

网络带宽流量的实时监测;

Dos、ddos等网络攻击情况监测;

5.3  主机、存储系统运维服务

提供的主机、存储系统的运维服务包括:云主机、云存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护等内容。

进行监控管理的内容包括:

物理服务器和虚拟机的CPU 性能管理;

物理服务器和虚拟机内存使用情况管理;

物理服务器和虚拟机硬盘利用情况管理;

物理服务器和虚拟机性能管理;

实时监控物理服务器电源、风扇的使用情况及主机机箱内部温度;

监控物理服务器硬盘运行状态;

监控物理服务器网卡、阵列卡等硬件状态;

监控记录物理服务器磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;

据云租户安全级别的不同设定相应的安全增值服务,保证云租户系统/应用的安全;

5.4  日常巡检

1.运维专业技术员每天进行不少于3次机房现场的巡检作业,巡检内容包括所有硬件设备的外观告警灯、空调、电力、消防、门禁系统、网络状态灯等进行巡检,并生成巡检报告。

2.运维管理员每天进行1次云平台系统状态的巡检,巡检内容包括云平台管理系统软件的状态,操作系统CPU、内存利用率、文件系统利用率状态的巡检,并生成巡检报告。

3.运营管理员每天进行2次云平台租户业务的检测,并生成巡检报告。

5.5  系统分析优化

1.每个季度由运维管理员梳理政务云整体运行情况和运维质量,输出系统评估报告;

2.如果有运维流程需要改进或者云平台需要优化则输出优化方案,并召集评审;

3.跟踪优化方案落地实施情况,并及时做出调整;

5.6  服务总结汇报

1.运维项目组采取周例会制度,例会人员包括运维项目组中四个角色相关人员;

2.各方角色在会议上向省电子政务办运维经理汇报上周的重大运维事件,安排下周的运维计划;

3.会议后由运营管理员输出会议纪要存档。

5.7  月度汇报

1.每月5号前,由云运营管理员牵头,运维管理员、运维技术员、项目经理、云平台建设经理组配合编写月度总结报告;

2.每月8号前在内部四个角色内审核通过确定内容完全正确后,10号跟省电子政务办运维经理,省电子政务办领导汇报月度运维报告。

5.8  应急预案

●重大故障和严重故障立即报业务主管领导。

●凡系统发生紧急故障时,值班人员必须立即组织抢修,不得拖延。

●7*24值班人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

●7*24值班人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。

5.9  平台培训

5.9.1  培训目标

为了满足委办局正常使用云平台,政务云运营服务部将每年组织四次云平台使用的培训,通过培训,确保每一位云平台使用人员能够、熟练地完成操作,保证最终用户能够进行简单的云平台操作。

5.9.2  培训内容及日程 

1.云操作系统运维管理平台虚拟机的日常使用和维护;

2.云操作系统运维管理平台网络部分(防火墙、负载均衡)的日常使用和维护;

3.吉林省政务云平台申请/变更资源流程;

4.吉林省政务云平台报障流程。

课程名称提供的资料培训时间

培训对象培训地点培训费用
吉林省政务云云平台使用吉林省政务云操作手册

1天

最终用户系统管理员省电子政务办会议室
5.10  服务管理制度规范

5.10.1  服务时间

(1)在5*8 小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。

(2)在非工作时间设置有专人7*24 小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24 小时机房监控人员的机房突发情况汇报。

(3)服务响应时间:

故障级别响应时间故障解决时间
I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。

10分钟,30分钟内提交故障处理方案3小时以内
II级:属于严重问题;其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。

10分钟,30分钟内提交故障处理方案6小时以内
III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。

10分钟,30分钟内提交故障处理方案12小时以内
IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。

10分钟,2小时内提交故障处理方案24小时以内
6 应急预案

6.1  应急服务响应措施

●重大故障和严重故障立即报业务主管领导。

●凡系统发生紧急故障时,值班人员必须立即组织抢修,不得拖延。

●7*24值班人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

●7*24值班人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

●对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。

7 运维服务SLA

7.1  服务可用性

(一)指标定义

(1)计划内停机时间

乙方提前通知且经甲方认定的,为系统正常升级、更新、维护导致的服务停机。

(2)服务中断时间

乙方提供的机房、网络、安全、虚拟机、物理机、存储、运维等方面出现的问题引起应用系统失效时间,经甲方认定由非乙方原因引起的系统失效不包含在内。

(3)正常服务运行时间

当年总运行时间(按365天计算)减去服务中断时间。

(4)服务可用性

正常服务运行时间除以该年总运行时间,即:

服务可用性=(365×24×60×60秒-单个应用失效时间之和(秒))/(365×24×60×60秒)。

(二)指标要求及测量方法

(1)指标要求

政务云平台的服务能力须保证各个应用系统可用性不低于99.9%。即全年单个政务应用失效时间之和不超过365×24×60×0.001=525.6分钟。

(2)测量方法

表1服务可用性指标测量方法表

序号指标名称测量方法
1正常服务运行时间向甲方及第三方提供测量结果查看接口,并确认检查结果
2服务中断时间向甲方及第三方提供测量结果查看接口,并确认检查结果

下载本文
显示全文
专题