一.重大故障处理方法
1.重大故障实时告警列表
| 告警类别 | 告警设备 | 表述描述 | 可能的原因及影响 |
| 华为 | ENODEB | 网管批量网元断链或小区不可用 | 基站断电,或大批量双模站点TD测GPS故障 |
| 传输设备 | 网管批量网元断链 | 基站断电,或传输原因中断 |
●【批量基站断站或小区不可用】
●原因分析
基站批量断点或或批量双模站点TD测GPS出现故障及传输设备故障
●关注重点
批量基站断站或小区不可用
●常见处理方法
| 序号 | 处理方法 | “是” | “否” |
| 1 | 联系传输人员,看是否为传输设备故障 | 4 | 2 |
| 2 | 联系代维人员确定基站是否断电 | 5 | 3 |
| 3 | 联系代维人员确定基站是否为双模基站并确定TD测GPS完好 | 5 | |
| 4 | 通知传输人员处理 | 6 | |
| 5 | 通知代维人员处理 | 6 | |
| 6 | 结束 |
1.实时告警分类总表
| 告警等级 | 告警号 | 告警名称 | |
| 本机网管 | 紧急 | 网元连接中断 | |
| ENODEB | 重要 | 29243 | 小区服务能力下降告警 |
| 重要 | 19240 | 小区不可用告警 | |
| 重要 | 26205 | BBU单板维护链路异常告警 | |
| 重要 | 29207 | 基站控制面传输中断告警 | |
| 重要 | 25621 | 直流输出异常告警 | |
| 重要 | 26276 | 制式间站点配置冲突告警 | |
| 重要 | 26238 | RRU组网拓扑类型与配置不一致告警 | |
| 重要 | BBP心跳检测失败告警 | ||
| 重要 | 26529 | 射频单元驻波告警 | |
| 重要 | 26322 | BBU测收发光异常 | |
| 重要 | 26503 | RRU测收发光异常 | |
| 重要 | 26233 | BBU IR光接口性能恶化告警 | |
| 重要 | 29201 | S1接口故障告警 | |
| 重要 | 25888 | SCTP链路故障告警 | |
| 重要 | 26235 | 射频单元维护链路异常告警 | |
| 重要 | 26506 | RRU测光口性能恶化 | |
| 重要 | 26260 | 系统时钟不可用告警 |
1) 【网元链接中断】
●告警解释:
网元与OMC网管之间的链接中断,一般来讲,为断电或传输问题
● 对系统的影响
对该网元无法控制
● 告警处理
| 序号 | 处理方法 | “是” | “否” |
| 1 | 检查同一环路下基站是否全部中断(基站侧检查光路和电源是否OK.) | 3 | |
| 2 | 通知传输中心处理 | 4 | 3 |
| 3 | 通知机房巡检处理故障(基站侧更换传输光模块/光纤) | 4 | |
| 4 | 结束 |
2) 【29243:小区服务能力下降】
●告警解释
当基站射频资源或基带资源不能满足当前小区的配置规格时,产生此告警
●对系统的影响
告警小区提供给客户可用的无线空口资源会减少。
●告警处理
| 序号 | 处理方法 | “是” | “否“ |
| 1 | DSP BRDMFRINFO查看当前RRU型号(基站侧直接查看RRU型号) | 2 | |
| 2 | LST RRU查询RRU配置信息是否与当前RRU相符(基站侧可以直接登录基站侧查看命令相同) | 4 | |
| 3 | LST ALMAF查询当前的告警信息,看可用通是否相符(基站侧可以直接登录或网管确认) | 4 | 5 |
| 4 | MOD RRU 把通道数该为当前RRU通道数,看告警是否恢复(基站侧请联系数据修改组修改数据) | 9 | |
| 5 | DSP VSWR查看告警小区RRU是否有驻波(基站侧联系网管确认) | 8 | 6 |
| 6 | DSP SFP查看光模块型号是否满足LTE需求(基站侧可直接查看)光模块大于6.144G。 | 8 | |
| 7 | 考虑可能基带板资源不足,需增加基带板LBBP。看是否恢复 | 9 | |
| 8 | 通知基站代维人员上站处理RRU通道/驻波/光模块 | 9 | |
| 9 | 结束 |
查询RRU配置通道:
查询基站当前告警信息:
查询驻波:
查询光模块型号,速率:
3)【19240:小区不可用告警】
●告警解释
当基站检测到小区不能提供业务时,产生此告警。
●对系统的影响
告警小区不能提供业务。
●告警处理
| 序号 | 处理方法 | “是“ | “否“ |
| 1 | 在网管上查看基站是否断开(基站侧联系网管确认) | 8 | |
| 2 | DSP CELL,发现小区为不可用状态(基站侧可直接登录基站查询或联系网管) | 11 | |
| 3 | LST ALMAF查看是否有RRU告警,如硬件,温度,掉电等告警(基站侧可直接检查或登录基站查询) | 9 | 4 |
| 4 | DSP BRD ,看是否有RRU故障(基站侧可直接查看RRU是否掉电) | 9 | 5 |
| 5 | DSP SFP查询不可用RRU对应的光路是否OK(基站侧可看指示灯是否正常) | 9 | 6 |
| 6 | DSP CLKSRC 查看当前使用的时钟,如是GPS ,DSP GPS查看当前收星情况(基站侧直接查看GPS是否开路或登录基站查看) | 9 | |
| 7 | 查看是否有系统无License运行告警、 配置数据超出License告警 | ||
| 8 | 通知传输人员处理故障 | 11 | |
| 9 | 通知代维人员处理故障 | 11 | |
| 10 | 联系华为申请 | ||
| 11 | 结束 |
查看RRU是否有告警:
查询光路是否OK:
查询GPS是否可用:
查看是否有License告警:
4) 【29207: 基站控制面传输中断告警】(注:由于网元断链,网管无法对基站控制)
● 告警解释
当基站所有SCTP链路状态都异常时,产生此告警。
●对系统的影响
基站所有承载S1Interface、X2Interface的SCTP链路(链路个数不少于2条)状态都异常,导致基站所有S1接口、X2接口无法建立成功,小区无法激活,用户无法入网。
●告警处理
| 序号 | 处理方法 | “是“ | “否“ |
| 1 | 在网管中心的告警台上,检查是否存在根源告警: SCTP链路故障告警,S1接口故障告警 | 2 | 4 |
| 2 | 检查并处理SCTP链路闭塞情况并处理,看是否恢复 | 4 | |
| 3 | 联系传输网络维护人员处理故障 | ||
| 4 | 结束 |
●告警解释
当BBU的IR端口上的光模块的接收或发送性能恶化时,产生此告警。
●对系统影响
1、光模块的收发性能严重恶化,可能导致IR链路承载的业务质量严重下降,或导致下级射频单元业务中断。
2、光模块的收发性能轻微恶化,可能导致射频单元该IR链路承载的业务质量出现轻微恶化。
●告警处理
| 序号 | 处理方法 | “是“ | “否“ |
| 1 | 在网管中心的告警台上,检查是否存在告警(基站侧可登陆基站或联系网管) | 5 | |
| 2 | 光模块的型号与射频单元测是否匹配,并用DSP SFP命令查询收发光是否过低或过高(基站侧可直接检查BBU到RRU光模块型号是否相同或登陆基站查询)。 | ||
| 3 | 联系代维到BBU近端,重新插拔故障IR端口上的光模块和光纤接头并用酒精擦拭以清洁光纤接头,看是否恢复 | ||
| 4 | 通知代维人员上站更换光模块 | ||
| 5 | 结束 |
查询RRU收发光:
6)【26260:系统时钟不可用告警】
●告警解释
当基站使用本地晶振的时间超过其可保持的时限时,产生此告警。
●对系统影响
基站业务处理会出现各种异常,如切换失败、掉话等,严重时基站不能提供业务。
●告警处理
| 序号 | 处理方法 | “是” | “否” |
| 1 | 网管中心告警台上,检查系统是否存在相关告警。(基站侧可直接检查GPS是否开路或登陆基站检查) | 5 | |
| 2 | 在网管室查询TD测(LTE取得时钟为对端及TD测)是否配置时钟参考源和时钟参考源是否存在异常。(基站侧联系网管或登陆基站查询) | 3 | 5 |
| 3 | 查询单板是否故障 | 4 | 5 |
| 4 | 通知代维处理 | ||
| 5 | 结束 |
查询GPS情况:
查询GPS问题是否是有单板故障问题引起:
●提示
eNodeB大部分取得时钟为对端(及TD测),现网大部分为GPS,当前时钟状态为不可用时,可判断GPS问题,需上站检查GPS。
●关于License的下发遵守的规则:
TD:
LTE:
典型案例
1、光模块速率问题导致小区服务能力下降告警
现象描述:
某局站点开通后出现小区服务能力下降告警,查询基站CELL ,VSWR 等均正常,也无任何告警。现场RRU类型3152-e,基带板LBBPd,且3152-e开单流 1*20M小区。
可能原因:
1、射频单元发射通道故障,比如驻波,现场所接RRU物理通道和数据配置不一致。
2、单板硬件故障,软件运行异常等。
3、小区CPRI 带宽资源不足,光模块速率不匹配。
处理过程:
1.网管查询 CELL 建立成功,VSWR 均为1.2左右,低于门限值,没有驻波。RRU开单流 物理通道和数据配置一致。,排除原因1.
2.远程下点复位告警单板,单板运行正常后告警仍然不消除,近端插拔单板也不行,且没有单板硬件故障告警和单板软件运行异常告警,排除原因2.
3.通过命令DSP CPRILBR 查询每个RRUCHAIN 的协商速率均为2.5G,重新协商STR CPRILBRNEG 后 仍为2.5G,之后通过 DSP SFP 查询发现 BBU侧和RRU侧光模块均为2.5G,到底问题基本定位,联系室分厂家全部更换6.14G 光模块后重新协商CPRI速率,均为最大能力4.9G,告警也随之消除。
总结建议
3152-e 开1*20M 小区所需CPRI速率为4.9G,而2.5G 满足不了此要求,进而就上报了小区服务能力下降告警。
2、数据配置问题导致小区服务能力下降
现象描述
TDS/L双模站点“xxxx”,TDL侧3个小区上报“小区服务能力下降告警”,但是查询RRU驻波、收发光功率都正常,无其它相关告警,需要排查产生该告警的原因。
ENODEB版本:DBS3900V100R005C00SPC310
NODEB版本 :DNB6200V400R007C00SPC500
告警信息
小区服务能力下降告警,告警ID= 29243,定位信息:本地小区标识=1, 小区当前使用发射通道数=1, 小区当前使用接收通道数=1, 具体问题=小区射频资源, 小区名称=盛平村FE1
原因分析
通常小区服务能力下降告警都是由于站点硬件故障导致的,例如RRU驻波告警、RRU到BBU之间收发光异常、光模块速率过低等,但是查询该站点并不存在上述情况,怀疑跟数据配置有关。
处理过程
1 查询RRU驻波、收发光功率、光模块速率都正常,也不存在其它异常告警,初步排除硬件故障原因;
2 怀疑跟数据配置有关,查询RRU和扇区配置发现该站点为8T8R的宏站配置,而且RRU的8个PATH也都正确关联进去,如下所示(详见附件)——
LST RRU: 查询RRU/RFU配置信息
-------------------
柜号 框号 槽号 管理状态 RRU拓扑位置 RRU链/环编号 RRU在链中的插入位置 RRU类型 RRU工作制式 接收通道个数 发射通道个数
0 60 0 解闭塞 主链环 1 0 MRRU TDS_TDL 8 8
LST SECTOR: 查询扇区配置信息
----------------
扇区号 扇区名称 地理坐标数据格式 秒格式天线经度(秒) 秒格式天线纬度(秒) 经度(1e-6度) 纬度(1e-6度) 天线模式
1 sector_1 度格式 NULL NULL 11425002 2273022 八发八收
3 怀疑RRU硬件可能是RRU3152-fa,不支持上述8T8R的配置,查询RRU硬件信息发现确实如此(见下),将相关配置数据修改为RRU3152-fa支持的场景后,告警恢复。
//查询单板制造信息
DSP BRDMFRINFO:CN=0,SRN=60,SN=0;
----------------
单板类型 = WD1MTRU4FADH
条码 = 210231935610C6000572
描述 = TD-TECH RRU3152-FA DC,WD1MTRU4FADH,TD-SCDMA 1880-1910MHz&2010-2025MHz 2 path
思考与总结
1、本案例中RRU配置为8发8收,实际物理硬件为RRU3152-fa,只支持2发2收,但没有上报“单板类型和配置不匹配告警”,而是从检测RRU的实际能力出发,上报“小区服务能力不足告警”,这一点需要注意。此外,告警信息中提示“小区当前使用发射通道数=1, 小区当前使用接收通道数=1”,而不是2个通道数 , 应该与小区实际生效时检测到只有1个可用通道有关。
问题回溯后发现,现场负责硬件安装的督导与后台负责数据制作的督导之间没有及时有效沟通,后台想当然地根据宏站LTE站点8发8收的模板制作数据,后续项目组在开站流程上予以梳理规避,特别是对于RRU3152使用在宏站、室分的场景,要求必须核实。
3、双模站点因TDS载波扩容后超过产品规格导致LTE小区服务能力下降的问题处理
现象描述
多个双模站点LTE侧上报小区服务能力下降告警,无其它相关告警,需要排查产生该告警的原因。
ENODEB版本:DBS3900V100R005C00SPC372
NODEB版本 :DNB6200V400R007C00SPC700
RRU类型 :3168-fa
告警信息
LTE站点只有小区服务能力下降告警
TDS侧无任何异常告警
原因分析
1.驻波告警,光模块速率问题
2.LTE数据配置问题
3.产品规格问题
处理过程
1、DSP VSWR 查询驻波值均不超过1.3,通过扫频测试驻波值也正常,DSP SFP 查询光模块速率均为 9.8G,由于当前软件版本不支持 9.8G光速率,所以数据配置仍为 6.1G,目前局点该场景很多,并无问题,排除原因1。
2、仔细检查数据配置的各种关键参数(扇区模式、天线收发模式、RRU链环配置等)均无发现问题,对比其它类似场景站点的数据配置,也未发现问题,且都是一个CME模板做出来的,排除LTE数据配置问题。
该站点TDS属于新建站点,LTE在TDS基础上升级,之前开通时并无问题,对比之前的TDS数据配置,发现TDS侧多配置载频,之前载频配置为S2/2/2,当前载频配置为S4/5/8,LTE侧第三小区上报小区服务能力下降告警,且该小区TDS侧载频配置较多,怀疑是TDS侧载波扩容导致的告警;通过查看相关资料知道,双模组网场景下,3168的规格如下:
问题浮出水面,解决问题的两个方法:1.修改光口速率为9.8G;2.RRU使用双光纤组网。
鉴于当前版本不支持9.8G的实际情况,安排施工单位上站增加一条光纤后,告警消除,问题解决。
思考与总结
该双模站点之前已经开通过且并无问题,后来TDS载波扩容的时候增加载频数量超过了硬件的支持能力,此时TDS并不会上报告警,且载频均能正常建立,从检测RRU的实际能力出发,LTE上报小区服务能力下降告警。
4、双模站点GPS共用设置问题处理建议
现象描述:
某LTE站点开通,LTE与TDS共用GPS,现场TDS站点可用,LTE站点提示时钟资源不可用告警
告警信息:
小区时钟资源不可用
原因分析:
1、LTE时钟资源设置问题。
2、TDS侧GPS链路为激活。
处理过程:
1.在TDS侧DSP GPS查看GPS是否可用。查看小区状态可用且跟踪GPS卫星数目符合搜星要求。
2.在LTE端LST GPS查询是否配置GPS。因为双模站点规定GPS最后放置在7槽位主控板上,LTE原则上不用配置GPS。
3.发现LTE 基站侧已配置GPS数据,将其删除。添加PeerClk时钟编号
4.设置参考时钟源工作模式为手动;制定参考源为对端时钟
建议与总结:
细心检查数据,查看是不是有什么别的脚本添加错误
5、LTE双模基站改造时由于TDS的WMPT主控版本与LTE不匹配导致TDS网元连接中断问题
现象描述:
TDS-LTE双模基站改造完成后,加电,发现TDS基站OMC网管上报“网元连接中断”告警,eNodeB脱管,OMC无法进行管理,无论复位、插拔、更换WMPT单板后TDS均无法恢复正常。
告警信息:
TDS基站OMC网管上报“网元连接中断”告警。
原因分析:
对基站进行双模改造,新增UMPT、LBBP,更换UEPUc、FANc,并通过分路传输进行通信。在加电后,发现TDS站点图标一直退服,可能原因:
1、TDS分路传输故障。
2、电源故障,BBU加电失败。
3、WMPT主控板故障或者配置数据丢失。
4、TDS-LTE双模版本不匹配。
5、BBU框电路或者插针故障。
处理过程:
1、协调传输专业确认传输数据及光缆状态正常,排查传输原因导致的TD断站。
2、安排督导到达现场确认电源状态,BBU加电正常,单板运行正常,但告警灯闪烁,排除电源故障。
3、现场插拔WMPT主控板,复位基站,TDS业务无法恢复,网管图标无法恢复。
4、近端登陆核查数据,与改造前的TDS基站数据核对无误。
5、登陆LTE主控板,确认LTE单板版本和运行状态,无问题,并发现LTE侧上报“板件链路异常告警”。
6、最后又登陆TDS基站上,发现TDS版本回退到了6.0,并非与LTE配套的7.0版本。此时认为与复位或者升级失败有关,后来在机房再次确认基站站号时,发现此机房有2台BBU,现场督导改造时BBU弄反,将没有升级到7.0的站点进行改造。
7、尝试拔出LTE主控板、LBBP板,复位基站,TDS基站正常启动。远程进行TDS7.0升级后,再插入LTE主控、LBBP。站点重新上电后,并加载改造数据后,TDS单板、业务恢复。
建议与总结:
当TDS基站的主控单板WMPT单板的版本为V400R006C00SPC500时,如果的LTE主控单板UMPT、LBBPd单板如果已经安装完成并加电,会导致TDS的WMPT异常,网元连接无法正常建立。
后续注意:
1、TDS-LTE双模基站改造前,一定要确保TDS基站的版本已经升级至V400R007C00SPC700之后的版本,否则无法正常改造。
2、后续维护TDS-LTE双模基站时,如果TDS的WMPT单板故障更换后,新换的WMPT单板版本为V400R006时,也会触发该问题。需要对LTE进行单板掉电,重新对TDS升级后,才能使用。下载本文