视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
AIX维护手册(详细版)
2025-09-25 14:09:47 责编:小OO
文档
日常简易维护与报修指南

目    录

一、系统命令    3

二、备份与恢复    6

三、AIX安全    10

四、错误日志查看    12

五、Performance Tools    14

六、错误报告流程    17

附录一  硬件接线图    19

附录二、IBM设备前后视图    20

一、系统命令

检查系统状态:

系统整体:            prtconf

文件系统:            df –k,df -g

设备:                lsdev –C  获取设备名称、状态、位置和描述。

例: 

查看硬盘:       lsdev –Cc disk

查看磁带机:     lsdev –Cc tape

查看适配卡:     lsdev –Cc adapter

处理器个数      lsdev –C|grep proc

系统配置            lscfg –vp  获取所有已配置硬件设备的详细信息。

例:

查看硬盘信息:   lscfg –vl hdiskx      x表示数字

查看网卡信息:   lscfg –vl entx        x表示数字

查看磁带机:     lscfg –vl rmtx           x表示数字

查看硬件属性:      lsattr –El  获取已配置设备的属性信息。

例:

查看硬盘属性:    lsattr –El hdiskx     x表示数字

查看网卡属性:    lsattr –El entx       x表示数字

查看磁带机属性:  lsattr –El rmtx       x表示数字

内存大小: lsattr –El mem0

磁盘                lspv

交换分区            lsps –a

软件                lslpp –l  文件包名字

用户                who

关机命令:

–shutdown

一分钟后关机

–shutdown +2

二分钟后关机

–shutdown –Fr

关机重启(-r)

关机命令调用/etc/rc.shutdown关闭程序

   可以在这个文件里加上你自己的脚本

其它基本命令

# passwd        

passwd:    —输入旧口令    

new passwd:    —输入新口令    

re-enter new passwd:    —重新输入新

•mkdir/rm/mv/cd    -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录

•ls  显示目录中的内容(文件名)

#ls –a  列出当前目录中的所有文件

#ls –l  显示文件的详细信息

•ps / kill  显示后台进程的有关信息或杀死后台进程

#kill -9 253432

•find 在一个/多个目录中查找符合条件的文件

   #find –name ‘t*’ -print

•head/tail 显示文件头/尾声的内容

   #tail +200 filename

•who/finger 列出系统注册/已登录的用户

   #who am I

   #finger user2

光驱cdrom

•加载cdrom 

•使用:

 mount -rv cdrfs /dev/cd0 /cdrom

–或者创建一个CD-ROM文件系统并进行加载

•smit cdrfs

•mount /cdrom

•卸载cdrom 

– unmount /cdrom

二、备份与恢复

rootvg备份 — mksysb

●只备份rootvg

●只备份已挂接的文件系统

●以备份格式创建可启动磁带

●保存rootvg中的换页空间设备定义

●保存逻辑卷策略

●备份时应使活动的用户和应用减至最少

注:mksysb创建操作系统备份,如果rootvg中有用户创建的文件系统,只要它已挂接,也被备份,用户创建的不含文件系统的逻辑卷内容及定义不备份。mksysb创建的备份磁带是可启动的,并可以进行BOS安装。

从磁带恢复rootvg备份时,所有文件系统被恢复,启动逻辑卷自动创建,文件系统日志设备按照默认大小(一个逻辑分区)创建,根据保存的换页空间设置生成同样大小的换页空间设备。

用户可以用一个系统上生成的rootvg备份恢复到另一系统上,前提是两个系统的结构相同,总线结构不同(MCA和PCI)或SMP(支持多CPU)与非SMP(只支持一个CPU)的系统间不能进行上述操作。

# smit mksysb

•Creation of a MAP file:是否为卷组中每个要备份的逻辑卷生成逻辑分区到物理分区的映像文件。这个映像文件可以使恢复时逻辑卷策略和逻辑分区到物理分区的映射关系保持相同。建议创建。

•EXCLUDE files:如果选择yes,将使得文件/etc/exclude.rootvg文件中列出的文件和目录不被备份。

•Make BOOTABLE backup:是否生成可启动备份,一般取默认值——yes。

•EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统。强烈建议选yes。

•Number of BLOCKS to write in a single output:选择每次写出的数据量,以512字节块为单位。

非rootvg的卷组备份

# smit savevg

恢复rootvg备份

●依照从磁带安装操作系统的步骤用mksysb磁带启动

Welcome to Base Operting System

Installation & Maintenance

       1 Start Install Now With Default Settings

       2 Change/Show Installation Settings and Install

>>> 3 Start Maintenance Mode for System Recovery

Maintenance

       1 Access A Root Volume Group

       2 Copy a System Dump to Removable Media

       3 Access Advanced Maintenance Functions

>>> 4 Install from a System Backup

Choose Tape Drive

            Tape Drive            Path Name

>>> 1 tape/scsi/4mm/12GB        /dev/rmt0

恢复非rootvg卷组备份

# smit restvg

依文件名备份-smit屏幕

# smit backfile

其他UNIX备份命令

●tar (tape archive)

◇适用范围广

◇非常适合在不同UNIX平台间传送文件

◇可恢复空目录(-d选项)

◇不支持AIX访问控制列表(ACL,属于扩展inode内容)

●cpio(copy input to output)

◇适用范围广

◇符号链接较多时可能不能正常工作

◇不支持AIX访问控制列表(ACL,属于扩展inode内容)

●dd(device to device)

◇创建精确相同的备份映像,可用于精确备份逻辑卷

◇可用于转换某些内容(例如大小写、ASCII与EBCDIC互转等)

三、AIX安全

控制增长迅速的文件

●/var/adm/wtmp

●/var/spool/*/*

●/smit.log

●/smit.script

●/etc/security/failedlogin

●/var/adm/sulog

显示文件和目录的空间占用量

du /home |sort –rn

安全性记录文件

●/var/adm/sulog

        记录每次su命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。

●/var/adm/wtmp和/etc/utmp

        记录用户的成功登录。使用who命令查看。

●/etc/security/failedlogin

        记录所有不成功的登录尝试。如果用户名不存在,记录为UNKNOWN项目。使用who命令查看。

安全性相关文件

●包含用户属性和访问控制的文件

●/etc/passwd            合法用户(无口令内容)

●/etc/group            合法用户组

●/etc/security/passwd    含有加密形式的用户口令

●/etc/security/user        用户属性,口令

●/etc/security/limits    对用户的

●/etc/security/environ    用户环境设定

●/etc/security/login.cfg    登录设置

●/etc/security/group    用户组属性

用户环境的合法性检查和修正

●检查/etc/passwd/与/etc/security/passwd的一致性,以及/etc/security/login.cfg和/etc/security/user,同时修正错误:

    pwdck -y ALL

●检查//etc/security/user、/etc/security/limits、/etc/security/passwd,以及是否每个组在/etc/group和/etc/security/group中都有对应条目,并修正错误:

    usrck -y ALL

●检查/etc/group、/etc/security/group、/etc/passwd和/etc/security/user中关于用户组的内容的一致性,并修正错误:

    grpck -y ALL

四、错误日志查看

•所有AIX错误都记录在一个记录文件中/var/adm/ras/errlog

•显示错误 

–errpt [-a]   -a 为详细显示

可以输出到文件或用more、pg察看

•清空错误记录信息

–errclear 0

建立/修改口令

通过errpt产生错误报告

•显示所有的错误报告

–# errpt

•只报告硬件错误

–# errpt -d -H

•描述ID为F49E2A17的错误报告

–# errpt -a -j F49E2A17

例:

# errpt 

•标识‘C’:错误归类

–H:硬件

–S:软件

–O:操作错误

–U:不能确定

•标识‘T’:错误类型

–PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复

–PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统

–PERM(并且C为S):显示系统遇到软件问题并且无法自动修复

–TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复

•root用户通过手工命令errclear直接清除错误日志

–# errclear 10

•清除10天以前的所有日志

–# errclear -d H 0

•清除所有硬件的错误

–# errclear -N disk 0

•删除所有资源组为disk的记录

–# errclear -T UNKN 0

•删除所有类型为unknown的记录

–# errclear 0

•删除所有记录

•显示error log的特性

–# /usr/lib/errdemon -l

        Error Log Attributes

        --------------------------------------------

        Log File                /var/adm/ras/errlog

        Log Size                1048576 bytes

        Memory Buffer Size      8192 bytes 

五、Performance Tools

常用命令

•# ps

•# sar

•# vmstat

•# iostat

•# tprof

•# svmon

•# filemon

例:

CPU的使用情况(sar –u)

这条命令的语法是:

# sar [options] interval number

例如:

# sar –u 60 3

AIX NODE 2 3 00000211 07/06/99

        %usr    %sys    %wio    %idle

08:25:11    48    52    0    0

08:26:10    63    37    0    0

08:27:12    59    41    0    0

.Average    56    44    0    0

当 %usr+%sys > 80% 时,CPU 紧张

查看运行队列(sar –q)

这条命令的语法是:

# sar [options] interval number

例如:

# sar –q 60 3

AIX NODE 2 3 00000211 07/06/99

08:41:21    runq-sz    %runocc    swap-sz    %swpocc

08:42:21    1.2        100

08:43:21    1.0        100

08:44:21    1.1        100

.

.

Average    1.2        100

注:命令#sar –q的输出:

-runq-sz = 运行队列的平均长度。(运行队列的平均长度就是等待在队列中的进程数目)

-%runocc = 运行队列被占用的时间百分比。

-swap-sz = 等待被内存页交换的进程的平均数目。

-%swapocc = 内存页交换队列被占用的时间百分比。

这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。

Paging 信息

# vmstat 1 3

注:

命令vmstat的输出:

-procs =(每秒)

r        在运行队列中的进程

b        在等待队列中的进程

-memory =( 那个时刻的统计数据)

avm    活动的虚拟页的数目

fre        在空闲列表中的物理内存槽数

-page =(每秒)

re        收回的页

pi/po    交换进内存的页/交换出内存的页

fr/sr    空闲的页/被时钟计算法则检测的页

cy        时钟循环(一般为0)

-faults =(每秒)

in        设备中断数

sy        系统调用数

cs        上下文交换数

-cpu =(就象命令sar –u,为百分比)

us        用户进程

sy        核心进程

id        空闲时间

wa        I/O等待时间

这些信息是sar报告的补充。

wa如果超过25%,那么磁盘子系统可能没有平衡好。

与AIX存储相关的基本概念

 PV:Physical Volume 物理卷

 VG:Volume Group 卷组

 PP: Physical Partition物理分区

 LP:Logical Partition 逻辑分区

 LV:Logical Volume  逻辑卷

 LVM:Logical Volume Manager逻辑卷管理器

六、错误报告流程

常见错误代码

在上电的每一阶段,LCD面板都要显示一些数字信息:

它为您指示:

正在进行加载的设备

当前的工作状态

加载失败的原因

可以在诊断手册中查到数字信息的含义

主机启动时的常用LED错误代码

0223-0229: Invalid boot list.

0551,0555,0557: Corrupted file system, corrupted JFS log, and so on 

0552,0554,0556: Super block corrupted and corrupted customized ODM 

0553: Corrupted /etc/inittab file 

硬件报错通常LED会显示8位代码,请将这8位号码记录下来

除了8位代码外,报修还需要记录故障服务器的型号和序列号,这些号码在服务器的前面板上,也可以通过prtconf命令来查看:

设备型号一览表:

550的型号为:9113-550

570的型号为:9117-570

DS4300的型号为:1722-60U

DS4500的型号为:控制柜:1742-90U

扩展柜:1740-1RU

3582的型号为:3582-L23

3583的型号为:3583-L36

光纤交换机的型号为:2026-E12

报修方法:

拨打IBM 24小时报修热线,8008101818-5100 

附录一  硬件接线图

附录二、IBM设备前后视图

IBM eServer p550前视图

IBM eServer p550后视图

IBM eServer p570前视图

IBM eServer p570后视图

DS4300磁盘阵列前视图

DS4300磁盘阵列后视图

DS4500磁盘阵列前视图

DS4500磁盘阵列后视图

错误指示灯:

琥珀色:亮表示接口模块有错误

正常状态:灭

错误状态:灭

出口旁路指示灯:

琥珀色: l亮表示GBIC端口没有连接或连接断开。

正常状态:灭(当连接了光纤)

错误状态:亮(当连接了光纤)

IBM 3582磁带库前视图

IBM 3582磁带库后视图

IBM 3583磁带库前视图

IBM 3583磁带库后视图下载本文

显示全文
专题