视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
ESS快速维护手册
2025-09-22 17:43:47 责编:小OO
文档
IBM ESS

快速维护手册v3.3

IBM全球服务(中国)有限公司

目录

目录    2

一、如何观察ESS控制面板的指示灯?    3

二、控制面板开关的使用    3

三、ESS的开关机步骤    4

四、通过ESS 串口连接,进入控制台菜单查看运行状态    4

五、如何登陆ESS的Service Terminal    5

六、如何查看ESS的错误日志(Problem Log)    5

七、如何全面检查ESS的工作状态是否正常    6

八、如何生成ESS的PE Password?    6

九、如何获取ESS的PE Package    6

十、如何获取ESS的Statesave文件    8

十一、如何将PE package和StateSave软盘恢复成IMG格式文件    9

十二、如何将ESS 用软盘做成的IMG格式文件转换为Testcase服务器支持的格式文件    10

十三、ESS的上传文件命名规则    11

十四、Testcase ESS日志文件服务器    12

十五、如何远程拨号登陆ESS    12

十六、如何开PMH让做Health check    17

十七、在ESS发生影响客户应用的严重故障时,必须要在PMH里面用“FA 1661“输入表格1661,来说明实际的影响。    18

十八、PMH Queue    19

十九、快速换鲨鱼硬盘步骤简单介绍v1.2.1    19

一、如何观察ESS控制面板的指示灯?

正常状态应该是:

Cluster 1/Line Cord1        Cluster 2/Line Cord2

Ready                绿灯常亮 ON                    绿灯常亮 ON

Power complete        绿灯常亮 ON                    绿灯常亮 ON

Message                黄灯 灭  OFF                黄灯 灭  OFF

若与上面正常状态不符,应立即处理。(对应下图)

Power Complete 绿色显示灯   显示 Line Cord 1 和 Line Cord 2 的情况:

Power Complete 绿色显示灯   长亮表示 ESS 启动结束并且没有出错

Power Complete 绿色显示灯   慢闪表示电源有问题

Power Complete 绿色显示灯   快闪表示正在启动或关机

Power Complete 绿色显示灯   熄灭表示已关机

Messages 黄色显示灯    显示 Cluster 1 和 Cluster 2 的情况:

Messages 黄色显示灯    长亮表示 licensed internal code (LIC) 或 cluster 检测

                       到错误,需要干预

Messages 黄色显示灯    快闪表示cluster正在启动

二、控制面板开关的使用

Local Power 白色开关,控制ESS里直流电的开关,在ESS加电正常后按此键开始加电。在异常情况下,当某个cluster power off后不能由另一个cluster power on时,可以尝试用此键power on cluster。

Unit Emergency 红色紧急开关,只有在紧急情况下才使用(如:天花板漏水),正常启动和关机不应使用此开关。

三、ESS的开关机步骤

●ESS下电步骤:

1.确认在该ESS上运行的应用与操作系统已下完毕。

2.按ESS面板上的白色开关的下端。大约3到5分钟后Power Complete 绿色显示灯熄灭。上图中用蓝色表示的风扇仍然保持几分钟转动,以利于散热保护机器。

    如果Power Complete绿色显示灯不熄灭,请通知Next Level Support。

3.等到面板上所有指示灯关闭。(约10分钟)

4.如需断电,先把红色紧急开关(Unit Emergency Only)置于OFF位置,然后将两个主电源(Bulk Power Assembly)开关置于OFF位置。

●ESS上电步骤:

    注意:紧急开关必须在开的位置

1.将两个主电源(Bulk Power Assembly)开关置于ON位置。等待约3分钟,电源模块上电结束。

2.按ESS面板上的白色开关的上端。

3.按下开关后,可以观察到Line Cord 1 和 Line Cord 2 的 Power Complete 绿色显示灯来回闪大约3 – 10秒。如果Power Complete 绿色显示灯慢闪,请检查电源并通知Next Level Support;如果Power Complete 绿色显示灯快闪表示机器正在启动。

4.等到面板上两个CLUSTER的READY灯都亮起来(约25分钟),如果任意一个Cluster Ready显示灯不亮,请通知Next Level Support。

5.将硬盘交系统操作员恢复使用。

四、通过ESS 串口连接,进入控制台菜单查看运行状态

五、如何登陆ESS的Service Terminal

1.通过ThinkPad或旧式的ESSNet主控台(Windows NT 4.0的PC,默认的Adminstrator密码是password)

1)用ESS标配或连接RS/6000的9对9串口线连接Cluster1或Cluster2的串2口S2

 (注意,一定要连在S2,千万不能连错)

2)打开NetTerm,选择"IBM 2105 ESS (Direct connect, IBM3151 emulation)"

3)用户名为"service",密码会在所连接的Cluster的LCD面板上显示

2.通过新式的Master Console主控台(RedHat Linux的PC,默认的service密码是service)

1)用鼠标双击"ESS Terminal Selector"

2)根据序列号选择相应的Cluster

3)用户名为"service",密码会在相应Cluster的LCD面板上显示

六、如何查看ESS的错误日志(Problem Log)

1.ESS在有Problem发生时,控制面板上的Message灯会亮起,这时需要登陆进Service Terminal进行查看,登陆后Message灯会自动熄灭,如果Problem没有Close或Cancel,Message灯会在结束登陆后一天重新亮起:

1)在主菜单里选择"Repair Menu"

2)选择"Show / Repair Problems Needing Repair"

3)选择相应的Problem进行查看细节信息

2.如果问题发生后7天不登陆进Service Terminal进行查看,Problem状态会转为Expire,Repair Menu里就看不到了。这时需要在Utility菜单里查看:

1)在主菜单里选择"Utility"

2)选择"Problem Log Menu"

3)选择"List Problems"

4)继续按回车,查看有没有处于"OPEN","PENDING","EXPIRE"状态的Problem

5)选择相应的Problem进行查看细节信息

七、如何全面检查ESS的工作状态是否正常

1.在主菜单里选择"Repair Menu"

2.选择"End of Call Status"

判断标准如下:

1)"The following problems are still OPEN or PENDING"一栏是"None"

2)"The following resources are still quiesced"一栏是"None"

3)"The following resources are still fenced"一栏是"None"

4)"Pinned Data"一栏是"None"

5)"DDM , Array or Rank Status"一栏是"Normal"

6)"Cluster dual hard drives status"一栏是"Normal"(ESS800才有)

如果任何一项状态不正常,则按"d"查看细节信息,否则按"q"退出

八、如何生成ESS的PE Password?

PE用户供日本的L2/L3支持专家远程拨号访问ESS时使用,它的密码需要在现场随机生成。

(注意PE Password 大小写敏感,有效期7天*24=168 小时,过期失效)

1.通过ESS NET Console或Master Console的图形界面生成PE Password:

1)打开ESS NET Console 或Master Console 中的游览器

2)连接到ESS Specialist

3)点击 Communication 按键

4)点击"Reset PE password"按键

5)在出现警告信息时选"yes"

2.通过Service Terminal生成PE Password:

1)在主菜单里选择"Configuration Options Menu"

2)选择"Configure Communications Resources Menu"

3)选择"Call Home / Remote Services Menu"

4)选择"Enable Product Engineering Access"

九、如何获取ESS的PE Package

PE package是ESS的日志和配置信息集合,相当于RS/6000的snap文件,是L2/L3支持专家分析ESS故障的基本条件。每次ESS的维护都必须收集2个cluster 的PE Package。除非有一个cluster不能启动到AIX基本操作系统。

A:软盘方式

1.在主菜单里选择"Utility"

2.选择"Trace/State Save Menu"

3.选择"Build PE Package and Off-load to Diskettes"

4.在"PE data"一栏选择"yes",在"PE Copy Services data"一栏,只有要分析CopyService的相关问题时才选"yes",否则选默认值"no"

5.回车后按"y"确认软盘数量,并按"a"选择生成AIX格式的软盘,然后按屏幕操作即可,一般只需要1张软盘(切记要选“AIX”格式)

6.每个cluster都要收集PE package

注意:多带几张软盘,因为在恢复的过程中对软盘的质量要求比较高

B:FTP方式,这种方式不需要使用软盘和软驱,强烈推荐使用

在service terminal中设置如下:

1.Configuration Options Menu->Configuration Communications Resources Menu->Call home/Remote Services Menu->Change /Show Call home via Master Console or via Modem Expander选master console选项

2. Configuration Options Menu->Configuration Communications Resources Menu->Change/show Call home /Remote Services->Enable incoming Remote Support?和Enable outgoing Call home选项都要改成YES。

1.将ThinkPad连入ESS的内网,配一个和Master Console相同网段的IP地址,例如172.31.1.88

注意:千万不要和ESS的2个cluster的IP冲突。

可以通过以下菜单查看2个cluster的IP地址:Machine Test MenuExternal Connections MenuCluster-Cluster Communication Test

2.在ThinkPad上启动一个FTP server,例如Netterm自带的NetFtpd

3. 以NetFtpd为例,在Options菜单的Define FTP Server Access里面,选择Accept anyone who calls和Allow anonymous access 。关闭Windows的防火墙软件。(如果使用Serv-U做FTP server,必须disable security)

4.在Master Console的Console Launcher里面更改Call Home Setting

5.在“Dumps and Traces”一栏,选择Use the IBM FTP Data Repository Server

注意:“Select Call Home Interface”一栏应该选择“Modem”,图示不对。

6.不要选择”Use Passive Transfers”

7.在Destination server Host Name一栏填入ThinkPad的IP地址

8.User ID/passwd/Port维持不变anonymous/******/21,Destination Server directory填入”/”

9.用support或PE用户登陆鲨鱼,选择Initiate PE Package or Trace/Dump Retrieval(Service用户登陆没有这项菜单)

10.根据实际需要选择是否需要Local/Alternate cluster的PE data,Phone Number的地方随意填一个数字。

11.回车后系统会自动开始在相应cluster上收集PE Package并发给Master Console,完成后会回到步骤8的界面

12.Master Console一般会在步骤9完成后5分钟之内收到文件。在Console Launcher的Query Management里面可以看到处于Pending Transfer状态的call home记录。

13.点击Query Management里面的Call home记录,选择Increase Priority可以加快文件发送

14.打开Console Launcher的Console Status的Display message file,可以查看Master Console的全日志。可以看到文件是否成功发送到ThinkPad。当然,查看FTP 软件的窗口也能判断。

15.ThinkPad接受到的文件将自动放在c:\下面。

注意:不要更改通过FTP方式接收到的PE package的文件名,可以直接上传Testcase 服务器

十、如何获取ESS的Statesave文件

Statesave文件是ESS内存的关于应用程序的snapshot文件,相当于RS/6000的coredump文件。只有L2/L3的专家要求下,才需要获取。

A:软盘方式

1.在主菜单里选择"Utility"

2.选择"Trace/State Save Menu"

3.选择"Off-load - Statesave/Trace/Dump Files to Diskettes"

4.选择"Off-load Statesave Files to Diskettes"

5.根据支持专家在PMH里的指导选择相应的Statesave文件(往往可能会存在很多个,支持专家会在PMH里说明需要哪一个文件)

6.根据屏幕的提示操作即可,一般文件大小为4~7M,需要4~6张软盘

7.登陆到另一个Cluster重复上述步骤

注意:不要更改通过FTP方式接收到的Statesave的文件名,可以直接上传Testcase 服务器

B:FTP方式

与收集PE package的方法相同。只是在鲨鱼的Initiate PE Package or Trace/Dump Retrieval菜单里不选择收集PE data,而是在Local/Alternate cluster dump/trace files to retrieve的地方选择相应的Statesave文件。

十一、如何将PE package和StateSave软盘恢复成IMG格式文件

(FTP方式不需要这一步)

方法一:利用工具软件“EMT4WIN”,最快捷的方式是跳过前面的start wizard,进入入下图的主界面,点击“I”快捷图标――’build image from A:’,选择放置路径并命名好image的名字,保存。

方法二:利用P-Series机器的软驱,这种方法不需要使用ThinkPad的软驱

将软盘插入P-Series机器的软驱,运行:

dd  if=/dev/rfd0  of=/tmp/xxxxxx.img

建议以及技巧:

1.选用新的软盘做image,以免失败以及影响软驱

2.如果刚开始做image就报软盘读写错,未必会是软盘问题,可以重复尝试,超过十次以上就可以确认是软盘问题,则另外更换软盘重做PE package或StateSave。

十二、如何将ESS 用软盘做成的IMG格式文件转换为Testcase服务器支持的格式文件

(FTP方式不需要这一步) 特点:必须要依赖P-Series机器

1.请工程师将生成好的IMG格式文件下载到本地,再上传至客户现场或者公司内部可用的P-Series机器上

上传目录如:/tmp/PE

在此目录下请使用restore  -xvf  xxxx.IMG命令恢复IMG文件: 

恢复PE package:

上传文件为: PE_CLL_1.IMG 和 PE_CLL_2.IMG (一个PE Package包含多张软盘的情况)

1)cd /tmp/PE

2)restore -xvf PE_CLL_1.IMG  

(系统提示:Please mount volume 1 on PE_CL1_1.IMG. Press the Enter key to continue)

3)回车后,因为有第二张盘,系统还会继续提示上面同样的内容,因此我们需要将PE_CL1_2.IMG改名为PE_CL1_1.IMG(如果一个PE Package只包含一张软盘,那么就结束了,直接跳到第5)步)

4)打开第二个telent窗口后

cd /tmp/PE 

mv PE_CLL_2.IMG PE_CLL_1.IMG  (将PE_CLL_2.IMG改名为PE_CLL_1.IMG)

回到第一个telnet窗口,因为我们已经将第二张盘改名了,继续回车即可。

5)恢复成功后,由于ESS的微码不同,可能会展开两种类型的文件:

    A:header 和 PE.tar.zip

    B:PE.tar

    对于A:直接将这两个文件tar成一个文件即可:

tar -cvf 2105XXXSNcx.PExxxxxx header PE.tar.zip

    对于B: 因为该文件中包含A中的两个文件,且目录为绝对路径,PFE使用的DFS server不允许展开到别的目录中,因此我们需要在P-Series机器上重新封装,如下:

tar -xvf PE.tar  文件将被释放到/var/adm/searas

cd /var/adm/searas

tar -cvf 2105XXSNcx.PE0uydqc header PE.tar.zip

至此,PE package 处理完毕,可以上传到testcase上。

恢复statesave:

上传文件为: CL1_dump2_1.IMG,CL1_dump2_1.IMG(一个Statesave文件肯定会包含多张软盘)

可参照恢复PE pkg的步骤1)2)3)4)

5)恢复成功后,可以看到两个文件:DumpTrace.tar,header(目前,我只看到这一种格式,可能也有类似于PE pkg的另外一种绝对路径的格式,如果是,请参照上面的方法重新封装即可)

验证DumpTrace.tar是否为tar格式相对路径:

tar -tvf DumpTrace.tar

drwxrwx---   0 0        0 May 14 10:55:33 2006 DumpTrace/  

“DumpTrace/”为相对路径,绝对路径应该是“/DumpTrace/”

-rw-rw-rw-   7 0       43 May 14 10:55:33 2006 DumpTrace/DumpTrace.package_errata

-rw-rw-rw-   7 0        0 May 14 10:55:33 2006 DumpTrace/DumpTrace.package

-rw-rw-rw-   7 0      222 May 14 10:55:33 2006 DumpTrace/DumpTrace.rsProduct

-rw-rw-rw-   7 0       90 May 14 10:55:33 2006 DumpTrace/DumpTrace.rsLocalClusterName

-rw-rw-rw-   7 0       69 May 14 10:55:33 2006 DumpTrace/cpssdump03.02.level_cpss

-rwxrwxrw-   7 0       18 May 14 10:55:33 2006 DumpTrace/level_dump

drwxrwxrw-   7 0        0 May 14 10:55:33 2006 DumpTrace/var_adm_searas/

-rw-rw-rw-   7 0  15809 May 14 10:55:34 2006 DumpTrace/var_adm_searas/cpssdump03.02.0.zip    

格式正确,打包即可:

tar -cvf 2105xxxSNc1.DTxxxxxx DumpTrace.tar,header

                

(机器的序列MTMS可以参见header文件)。

十三、ESS的上传文件命名规则

如果是通过FTP方式收集到的日志文件,请保持原文件名,直接上传即可。

如果使用软盘方式收集到的日志文件,请参照上面第十一章和第十二章介绍的方法转换为所要求的格式,再按照下面的规则重命名,然后上传。

命名规则说明如下

MTMScluster.typeextension

MTMS:4 char machine type. 3 char machine model. Full 7 char serial number.

cluster:    cl0 or cl1

type:            PE mean PE package

                dt mean statesave/dump

extension:    6 random characters  随机的字符,可以是字母或数字

    for example:

    21058001328615c0.PEFPlgac <= PE pkg from cluster0

    2105F2013196c1.PE0uydqc <= PE pkg from cluster1

    21058007525876c1.DTxggbqc <= statesave/dump from cluster1

    21058007526606c0.HBPMksib <= HBA card dump

十四、Testcase ESS日志文件服务器

(日本的esfsc4 服务器已经停止使用):

地址:

ftp://testcase.software.ibm.com/ssd/toibm/sharkdumps/

用匿名用户登陆

十五、如何远程拨号登陆ESS

在设置好modem后,可以远程拨号登陆ESS,进行测试,以及进行一些基本的诊断。

Tips:如果没有人在现场生成PE Password,可以尝试用“support”用户登陆,默认的密码是“supp0rt ”或“support”。

Support用户是一个只能查看ESS状态,而不能做任何更改操作的用户。通过Support用户,可以查看Problem Log,可以查看处于Fenced和Quiesced状态的Resource,可以查看硬盘DDM的状态,可以收集和发送PE package或Statesave文件(FTP方式)。因此,如果工程师不在客户现场,使用Support用户远程登陆ESS,进行第一手的初步故障诊断,可以大大提高问题解决的速度。

例如客户反映ESS黄灯亮,如果有连电话线,可以在远程使用Support用户登陆,进行初步诊断,如果是DDM或者HBA损坏的简单故障,就可以直接先订备件,然后再到场,这样就可以少跑一趟。

1.使用老式主控台ESS Net和Modem Expender的ESS(主要是E20/F20)

以超级终端为例,串口设置为9600,8,N,1,如下图:

运行“超级终端”,在“连接时使用”中选上Thinkpad上的modem设备名,然后填入电话号码。注意如果长途需要在电话号码前加上区号。在确定后开始拨号,当超级终端窗口左下方显示连接成功后,按“Ctrl+E”(同时按下Ctrl和大写的E,可以按下Caps Lock后按e或者同时按下Ctrl+Shift+e)。如果超级终端显示登陆界面或者出现“APS >”,则输入“/C 1”或者“/C 2”连接ESS的cluster1或cluster2。如果能出现service terminal的登陆画面,则表明远程拨号成功。

2.使用新式主控台Master Console和MSA的ESS(晚期的F20和800)

以Netterm为例,如下图:

Netterm的串口设置为9600,8,N,1

拨号登上后,首先需要输入modem的密码,

Deskport 类型的modem: dsq2m

Multitech类型的modem: dsq2mkl-

然后登录上Redhat Linux。

User : remote

Password : rem2enc

登录上后,将会出现以下界面:

正常情况下选择(1)。

将出现以下界面:

根据序列号选择相应的ESS,以及相应的Cluster进行登陆

十六、如何开PMH让做Health check

open一个普通的ESS的PMH,然后在平时addtxt的时候,输入“FI 0000”(FI是form insert的意思,用来插入一张新表的,FA是用来更新已经有的表,如果没有FA会自动生成一张新表)

请对照上下两个截图,填入需要做Health Check的ESS的相关信息。

注解:

Line1:填入ESS型号、序列号、当前微码版本、有否扩展柜

Line2:电源指示灯状态

Line3、4、5:控制面板以及Cluster1、2液晶面板的显示状态

Line6:硬盘灯状态

Line7:有否上传PE package、上传目录

Line8:PE password,拨号电话号码

Line9:有否copy service

Line10:使用ESS的主机操作系统以及补丁版本

Line12、13:4个host bay上4条插槽的adapter

把相应的信息(微码版本、指示灯状态、拨入电话号码、PE 密码、上传PE Package文件的目录等)填好提交给支持专家。

十七、在ESS发生影响客户应用的严重故障时,必须要在PMH里面用“FA 1661“输入表格1661,说明实际的影响。

在单格的绿线前面用“x”表示选上该项,选择好“Subsystem Impact”和连接ESS的主机类型,再填上光纤交换机的型号,微码版本、影响的开始日期、影响的时间,最后F11 submit上去。

注:最好尽量详细的填好每个字段,但是包括红线部分,就算不填写同样可以F11提交上去。

十八、PMH Queue

L2: STGTSG,80K

L3: 2105PE,80K

ESS Call Home Query   CMOSCN,80K

注:在任何情况下,所有ESS的PMH都应该先Query到STGTSG,80K,让值班的TSG来review。

十九、快速换鲨鱼硬盘步骤简单介绍v1.2.1

                                                 

传统的换鲨鱼硬盘是在repair menu  Show / Repair Problems Needing Repair 里面选取相关选项一直进行,CE在操作的时候要等到全部硬盘在前台格式化完毕才能完成服务。如果有多个硬盘进行更换的话,就要挨个格式化完才能进行更换下一个,效率非常低。

在微码G5 +2 (1.5.2.x以上),有一种方法可以快速的更换硬盘,该种方法的好处是:

1.更换完硬盘之后可以在后台格式化硬盘,CE不必在现场守侯等待格式化完成,一般在20分钟内可以完成硬盘更换。旧方法我个人最高记录是等格式化等了2.5小时(本来以为7点多可以撤退吃饭的,一直等到10点才完成,中途还不知道多久能完,饿到肚子都呱呱叫了)

2.新方法可以一次更换多个硬盘,(但是每个环路最多同时更换一个)之后再在后台格式化所有硬盘,更能节省大量时间。(目前的最高记录是同时坏了4个硬盘,新方法可以节省几个小时的CE onsite时间。)

特别要指出一点:全过程AIX上不需做任何操作,理论上来说不会中断主机的IO访问。

从任意一个cluster登录都可以修复所有硬盘。

大致分为以下步骤:

1.进入Repair Menu,确定错误(用时5分钟)

2.Repair/VerifyDDM物理更换硬盘(用时10分钟)

  停止硬盘使用(Make resources not available for customer use.)

  物理更换硬盘

3.Format/Resume DDM后台格式化硬盘(工程师前台操作用时4分钟)

以下步骤仅仅是一个例子,在不同的Model/Machine Type里面可能有不同的显示,耗费的时间可能也根据鲨鱼的型号,微码,还有硬盘的FRU,批次不同而有一定的差别。

1.进入Repair Menu,确定错误(用时5分钟):

                               Main Service Menu

Move cursor to desired item and press Enter.

  Repair Menu (选取该项)

  Install/Remove Menu

  Configuration Options Menu

  Licensed Internal Code Maintenance Menu

  Machine Test Menu

  Utility Menu

                                  Repair Menu

Move cursor to desired item and press Enter.

  Show / Repair Problems Needing Repair (选取该项)

  Replace a FRU

  Repair / Verify DDM(s)

  Format / Resume DDM(s)

  Show Result of DDM Format / Resume Operation

  Alternate Cluster Repair Menu

  Close a Previously Repaired Problem

  End of Call Status

分别查看cluster 1和cluster2的错误信息,将会看到类似如下的显示:

                                  Repair Menu

Move cursor to desired item and press Enter.

                     Select a Problem to View or Repair

                                                                           

  Move cursor to desired item and press Enter. Use arrow keys to scroll.

                                                                           

    # Note: See MAP 1200: "Prioritizing Symptoms and Problems"

    #       in the isolation chapter of the service guide if

    #       more than one problem log is listed below.

    # 

    # CLUSTER BAY 1 PROBLEMS:

    # ID   ESC  SRN      Date       Time     Problem   Description

    #                    mm-dd-yyyy hh:mm:ss Status

    # 

    38   E100 49501    03-24-2005 00:17:21 PENDING   FRU FAILURE(点击选取该项)        

    # CLUSTER BAY 2 PROBLEMS:                                              

    # No problems were found on cluster 2                                 

选取以上项目之后将会看到类似如下的显示:

               Select a FRU to replace then begin the Repair               

                                                                           

  Move cursor to desired item and press Enter. Use arrow keys to scroll.   

                                                                           

  [TOP]                                                                    

    # Problem ID ............. = 38                                        

    # ESC .................... = E100                                      

    # SRN .................... = 49501                                     

    # Problem Status ......... = PENDING                                   

    # Description ............ = FRU FAILURE                               

    # First Occurrence ....... = Wed Mar 23 08:29:07 2005                  

    # Last Occurrence ........ = Thu Mar 24 00:17:21 2005                  

    # Reporting Unit ......... = 2105-800       75-28268                   

    #                                                                      

    # Possible FRUs to replace:                                            

    # Engineering       FRU                   Likely  FRU Location and/or  

    # FRU Name          Name                  to fix  FRU Error Code       

    #--------------------------------------------------------------------- 

      rsDDM0906         72.8GB 15K DDM         100%   R1-U2-W4-D6            

    #                                                                      

    # ESC E100: The description for this ESC varies depending on other     

    # factors. Consult the Service Guide for details                       

    #                                                                      

  # Action: Repair this problem by replacing one or more FRUs in the     

    # above list.                                                          

    #                                                                      

    # There is no MAP specified for this problem.                          

    #                                                                      

    #--------------------------------------------------------------------- 

    # Additional Information for the FRUs listed above:                    

    #                                                                      

    # Engineering FRU Name ... = rsDDM0906                                 

    #   Part Number .......... = 18P5441                                   

从任意一个cluster登录都可以查看所有错误和修复所有硬盘。只在任意一个cluster上登录,就可以查看cluster 1和cluster2的错误信息。

鲨鱼硬盘坏的故障,repair menu可能会有以下显示:

1.只有单个cluster有一个硬盘报错。

2.两个cluster都报硬盘错,但指向同一个硬盘。

3.单个cluster报硬盘错,另外一个cluster报ssa subsystem错误。

4.其它错误显示。

这些报错的简要信息列举如下:

硬盘报错:

E100 49501    02-04-2005 17:17:49 PENDING   FRU FAILURE

EB00 31000   02-04-2005 17:17:49  PENDING   SSA subsystem detec 

(EB00表面Description 是SSA subsystem错,里面的详细信息会指明是硬盘错,不过本人见过可能性不是100%,而是50%的case,结果证明还是硬盘坏。)

SSA报错:

E291 49501    02-03-2005 18:13:13 PENDING   SSA subsystem detec

从硬盘报错里面可以看到 rsDDM0906 72.8G 15K DDM 100% R1-U2-W4-D6,记下location 号,去查看硬盘的灯是否变黄。硬盘灯变黄,硬盘就肯定坏了,但硬盘灯不变黄,硬盘也应该是坏的,一切以鲨鱼的显示为准。(忘记location code的话,可以参考鲨鱼SSA线上面的location code.)

注意报错中显示的Part Number .......... = 18P5441不是真正的FRU,真正的FRU请参考以下鲨鱼硬盘型号列表:

FRU P/N  TYPE    SPEED 

18P6143  18.2 GB 10K RPM 

18P5162  18.2 GB 15K RPM      Model 800 only

                         

18P6144  36.4 GB 10K RPM 

18P51  36.4 GB 15K RPM      Model 800 only

                         

18P6145  72.8 GB 10K RPM 

17P6311  72.8 GB 15K RPM      Model 800 only

                         

18P6146  145.6 GB 10K RPM     Model 800 only

2.Repair/Verify DDM物理更换硬盘(用时10分钟):

在repair menu中,选取  Repair / Verify DDM(s)

     Repair Menu

Move cursor to desired item and press Enter.

  Show / Repair Problems Needing Repair 

  Replace a FRU

  Repair / Verify DDM(s) (选取该项)

  Format / Resume DDM(s)

  Show Result of DDM Format / Resume Operation

  Alternate Cluster Repair Menu

  Close a Previously Repaired Problem

  End of Call Status

将会看到以下菜单,留意菜单中硬盘的State,查看有多少个fail的DDM。

                                   Repair Menu

                  Select the DDMs you would like to repair 

                                                                           

  Move cursor to desired item and press F7.                                

      ONE OR MORE items can be selected.                                   

  Press Enter AFTER making all selections.                                 

                                                                           

  [TOP]                                                                    

    # NOTES:                                                               

    # 1. No more than one DDM on the same loop may be selected             

    # 2. DDM's needing repair have DDM state = Fail                        

    # 3. All Failing DDM's may NOT be listed here.  Please reference       

    #    the problem logs and Map 3149.                                    

    # 4. If a listed DDM is not selectable then use the problem log        

#    to repair other problems on the SSA loop before returning.        

           ………………….(硬盘太多,以上省略)

  ?[MORE...14]                                                              ?

  ?    rsDDM0505   Spare     Violet    72.8      15000  R1-U1-W8-D5         ?

  ?    rsDDM0605   Spare     Violet    72.8      15000  R1-U1-W7-D5         ?

  ?    rsDDM0702   Spare     Blue      72.8      15000  R1-U1-W6-D2         ?

  ?    rsDDM0705   Spare     Blue      72.8      15000  R1-U1-W6-D5         ?

  ?    rsDDM0906   Fail      Red       72.8      15000  R1-U2-W4-D6         ?  (再次确认坏盘位置及状态)

  ?    rsDDM1005   Spare     Red       72.8      15000  R1-U2-W3-D5         ?

  ?    rsDDM1105   Spare     Orange    72.8      15000  R1-U2-W2-D5         ?

  ?    rsDDM1205   Spare     Orange    72.8      15000  R1-U2-W1-D5         ?        

      ………………….(硬盘太多,以下省略)                                                                    

    # * DDM has previously been repaired and needs to                      

    #   be formatted and/or repaired.                                      

按F7,选取fail的盘,回车确定,等1分钟左右,出现以下菜单:                                                                 

                                 Repair Menu

Mo谀哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目

              ?     Take the following resources away from customer use            ?

  ?                                                                         ?

  ?Move cursor to desired item and press Enter.                             ?

  ?                                                                         ?

  ?[TOP]                                                                    ?

  ?  # The following resources are needed for the repair.                   ?

  ?  # Ensure that the customer has performed the appropriate actions to    ?

  ?  # make the following resources unavailable                             ?

  ?  #                                                                      ?

  ?  #  --- You have asked to Quiesce the following resources:              ?

  ?  #  -                                                                   ?

  ?  #  SSA Disk Drive Module          R1-U2-W4-D6    rsDDM0906             ?

  ?  #  -                                                                   ?

  ?  #  --- This requires that Service Mode be set for the following:       ?

  ?  #  -                                                                   ?

  ?  #  SSA Disk Drive Module          R1-U2-W4-D6    rsDDM0906             ?

  ?  #  -                                                                   ?

  ?  #  --- Which will cause the host systems to lose access to:            ?

  ?  #  Access will not be lost to any additional resources.                ?

  ?  #                                                                      ?

    Make resources not available for customer use.                         

  [BOTTOM]                                                                 

选择最后一行Make resources not available for customer use,停止硬盘使用,出现以下菜单:

                                 Repair Menu

Mo谀哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目

  ?                          Multiple DDM Repair                            ?

  ?                                                                         ?

  ?Move cursor to desired item and press Enter.                             ?

  ?                                                                         ?

  ?[TOP]                                                                    ?

  ?  # The following DDMs were successfully quiesced and should be          ?

  ?  # physically replaced.                                                 ?

  ?  #                                                                      ?

  ?  # See the "FRU Removal and Replacement Procedures"                     ?

  ?  # chapter in the Service Guide to replace the following                ?

  ?  # DDM(s) now:                                                          ?

  ?  #                                                                      ?

  ?  # DDM         DDM       Loop      Size                                 ?

  ?  # Name        State     Name      (GB)      RPM    Location            ?

  ?  # rsDDM0906   xxxx      Red       72.8      15000  R1-U2-W4-D6         ?

     # Do not press continue until all DDMs have been physically replaced.  

    #                                                                      

    # To avoid causing additional damage to the DDM(s) being removed,      

    # do the following:                                                    

    #                                                              

  ?  #                                                                      ?

  ?  # 1. Unlatch the DDM(s)                                                ?

  ?  # 2. Wait a minimum of 3 seconds for the DDM(s) to stop spinning       ?

  ?  # 3. Remove the DDM(s) from the DDM Bay                                ?

  ?  #                                                                      ?

  ?  # Note: Additional damage to a returned DDM can have a negative        ?

  ?  # effect on failure analysis and the warranty recovery costs.          ?

  ?  #                                                                      ?                                                            

    Continue Repair                                                        

  根据location code更换硬盘,注意location code所在盘包的左边的控制卡上面的DDM CHECK的黄灯会亮,需要更换的硬盘的黄灯也会亮。(但我也见过这些黄灯都不亮的特殊情况,不过当时我观察到相关的硬盘的绿灯完全不闪[,但其它硬盘都在快闪或者慢闪,在咨询TopGun意见之后,确定位置无错之后就换,也能顺利完成)

注意拔出盘之后要等待3秒(我个人意见认为等待3秒是担心会对这个硬盘造成进一步破坏,会对日后做failure analysis会有影响。)

注意上图中的state一栏中的四个xxxx 是正常现象。

选择Continue Repair之后,出现以下界面:

Verification tests in progress

This may take approximately 30 minutes to complete

Testing has started ...

Start checking configuration    (ssa001 ssa101 1 rsDDM0906)...

Querying warmstart & reset counts. This could take up to 6 minutes....

Updating ODM

Queueing up to configure ssa001. This could take up to 30 minutes....

 Configuring ssa001

Getting list of drives and their hop counts

Checking drive capacities in the loop

Verifying drives and loop connections

 Running drive diagnostics .................................

Checking DDM capacities, RPMs, and data rates

Checking for power/fan faults

Verifying drives and loop connections

Getting list of drives and their hop counts

............

自动完成后出现以下菜单:

  ?                          Verification Results                           ?

  ?                                                                         ?

  ?Move cursor to desired item and press F7. Use arrow keys to scroll.      ?

  ?    ONE OR MORE items can be selected.                                   ?

  ?Press Enter AFTER making all selections.                                 ?

  ?                                                                         ?

  ?[MORE...6]                                                                           

    # The following DDMs were successfully repaired.  Use the              

    # Format/Resume DDM(s) to format and                                   

    # resume the DDM(s).                                                          

    # DDM         DDM       Loop      Size                                                           ?

  ?  # Name        State     Name      (GB)      RPM    Location            ?

  ?  # rsDDM0906   Free      Red       72.8      15000  R1-U2-W4-D6         ?

  ?  #                                                                      ?

  ?  # This repair is complete and the problem status has been changed to   ?

  ?  # Closed for the following problem(s).  Please select the problems tha ?

  ?  # you would like to close the PMH for in RETAIN:                       ?

  ?    38                                                                   ?                                                               

      NONE                                                                 

  [BOTTOM]                                                                 

因为我更换硬盘的鲨鱼没有自动开PMH,所以选取NONE,出现以下菜单:

                                 COMMAND STATUS

Command: OK            stdout: yes           stderr: no

Before command completion, additional instructions may appear below.

[TOP]

Add comments to be sent in the Call Home (y/n) : 视乎call home的配置选择yes or no ,有时候这里会等大约1分钟左右。

This repair is complete.

/usr/lpp/searas/bin/rsCHEOR: Outgoing Call Home records are disabled on this ma.

Cannot create End of Repair Call Home.

ending /usr/lpp/searas/bin/rsCHEOR -h rsCurLog020405-173525.history

                                                                          [Fri ]

  None

[BOTTOM]

选F3退出,再选repair menu  Show / Repair Problems Needing Repair 查看,正常状况是两个cluster都已经没有错误的了。(错误已经在这步骤自动close了)

3.Format/Resume DDM后台格式化硬盘(工程师前台操作用时4分钟):

这个过程实际上包含了对于DDM的Format/Initialize/Certify/Resume四个内容

CE操作用时4分钟左右,但后台格式化硬盘所需时间从15分钟到几个小时不等。

                Repair Menu

Move cursor to desired item and press Enter.

  Show / Repair Problems Needing Repair 

  Replace a FRU

  Repair / Verify DDM(s)

  Format / Resume DDM(s) (选取该项)

  Show Result of DDM Format / Resume Operation

  Alternate Cluster Repair Menu

  Close a Previously Repaired Problem

  End of Call Status

哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目

                             Format/Resume DDMs                            

  ?                                                                         ?

  ?Move cursor to desired item and press F7.                                ?

  ?    ONE OR MORE items can be selected.                                   ?

  ?Press Enter AFTER making all selections.                                 ?

  ?                                                                         ?

  ?  # The following DDMs need to be formatted/resumed.  Select one or more ?

  ?  # DDMs to format/resume.                                               ?

  ?  #                                                                      ?

  ?  #Name       Location      Description             Status               ?

  ?    rsDDM0906  R1-U2-W4-D6   SSA Disk Drive Module  2  Ready to format   ?      Format/Resume 1 DDMs listed above                                    

按下 F7 选取一只或者多只需要format的硬盘,选择Format/Resume 1 DDMs listed above :

                 Confirm the selected DDMs to format/resume                

                                                                           

  Move cursor to desired item and press Enter.                             

                                                                           

    #Name       Location      Description             Status               

    # rsDDM0906  R1-U2-W4-D6   SSA Disk Drive Module  2  Ready to format   

     Start format/resume operation                                          

    #                                                                      

    #  Note: You will be logged out only if a format operation is started  

    #        for a selected DDM.                                           

                                                                           

选择 Start format/resume operation :

                                 COMMAND STATUS

Command: running       stdout: yes           stderr: no

Before command completion, additional instructions may appear below.

DDMs to be resumed:

  none

DDMs to be changed from 'failed' status to 'ready to format' status:

  none

DDMs to be formatted:

  rsDDM0906

Format operation has started.  You will be logged off in 20 seconds.

接住鲨鱼将会很友好的对CE say Good-Bye, 自动log off 用户。

一般来说,在被鲨鱼自动logoff 之后,就算是完成了硬盘更换。但鲨鱼仍然在后台进行format, 如果再登录进鲨鱼将会看到format进程,在format完之前,鲨鱼不可以在service terminal 和 WEB 界面进行任何修改操作,但可以登录进去看format的进度:

ENTER PASSWORD DISPLAYED ON 2105 CLUSTER OP-PANEL

service's Password:

Logging in...

There are background processes running.  The following processes

must complete before any service action is allowed...

                    Select a Process to Show Status                      

                                                                           

  Move cursor to desired item and press Enter. Use arrow keys to scroll.   

                                                                           

    # One or more DDM Format/Certify processes are in progress.            

    # Select a process (ID) to view its status summary.                    

    #                                                                      

    # NOTE: Format/Certify process(es) must end before service can continu 

    #                                                                      

    #ID     Cluster Operation                 Quantity  Status   Start Dat 

    #         Bay                                                          

     26628     1    Format/Initialize/Certify   2 DDMs  Running  Fri Feb   

    #                                                                      

    ###                                                                    

                                                                           

 NOTE: Estimated times with no system activity.

             1 DDM, times in minutes   384 DDMs, times in hours

            =========================  =========================

 Capacity   Format Initialize Certify  Format Initialize Certify

   36GB       30        35       35      1         5         7

Start Format/Initialize/Certify operation for 2 DDM(s) ... (ID=26628)

 Total      Format      Initialize  Certify     Total      Elapsed Time

 Started    Started/    Started/    Started/    Passed/    in Minutes

            Passed      Passed      Passed      Failed

     1         1/1         1/1         1/0        0/0          1.0

 DDM Format/Initialize/Certify operation (ID=26628) is still running

Press Enter to update the screen, or enter Q to quit—

根据经验,对于以下新备件,后台格式化时间大约如下:

FRU: 18P6143            18G 10Krpm    硬盘格式化需要时间: 9分钟左右

FRU: 18P6144/18P51    36G 10K/15Krpm硬盘格式化需要时间:16分钟左右

FRU: 18P6145/17P6311    72G 10K/15Krpm硬盘格式化需要时间:30分钟左右

FRU: 18P6146            146G 10Krpm    硬盘格式化需要时间:50分钟左右

这个时间有时候可能会变得很长,这可能是因为备件是退新或Service Used Part,之前曾经安装在另外一台鲨鱼上测试过。我试过一次格式化用了70分钟,另外一次超过120分钟。

如果用前台格式化的话,要白等这么长时间,所以建议用后台格式化。

有时候尽管Total Passed/ failed显示1/1,即已经完成,但事实上整个格式化、初始化进程还没有完成,屏幕下方会显示:

DDM Format/Initialize/Certify operation has ended (0)

 Parent process (ID=23722) is still running

仍然再需要等待大约两分钟之后,硬盘格式化才是真正完成,这时候屏幕下方只显示:

DDM Format/Initialize/Certify operation has ended (0).

为了以防万一,建议后台format完之后进行检查,

   Repair Menu

Move cursor to desired item and press Enter.

  Show / Repair Problems Needing Repair 

  Replace a FRU

  Repair / Verify DDM(s)

  Format / Resume DDM(s) 

  Show Result of DDM Format / Resume Operation (选取该项)

  Alternate Cluster Repair Menu

  Close a Previously Repaired Problem

  End of Call Status

会有类似如下显示:

Tue Jul 12 19:22:00 TAIST 2005 - Starting format and resume previously repaired

DDMs ...

DDMs to be formatted and resumed:

  rsDDM2808

 NOTE: Estimated times with no system activity.

             1 DDM, times in minutes   384 DDMs, times in hours

            =========================  =========================

 Capacity   Format Initialize Certify  Format Initialize Certify

   73GB       30        50       35      1        10         9

Start Format/Initialize/Certify operation for 1 DDM(s) ... (ID=18420)

 Total      Format      Initialize  Certify     Total      Elapsed Time

 Started    Started/    Started/    Started/    Passed/    in Minutes

            Passed      Passed      Passed      Failed

     1         1/1         1/1         1/1        1/0         29.0

 DDM Format/Initialize/Certify operation has ended (0)

Tue Jul 12 19:51:48 TAIST 2005 - The following resources have problem opened du

Tue Jul 12 19:51:48 TAIST 2005

  none

DDMs to be resumed:

  rsDDM2808 - Successful

Tue Jul 12 19:52:12 TAIST 2005 - Format/Resume operation ended successfully.

但看这个结果要及时,否则如果查看的时间与format的时间相隔太久,就会看到:

Result for DDM Format/Resume operation can not be found.

(本文档完)下载本文

显示全文
专题