视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
例子2之解决ORA
2020-11-09 07:21:55 责编:小采
文档


找到正确的日志路径/usr/local/oracle/diag/rdbms/oracle/sales/trace

查看启动时的日志,在最后发现

Starting ORACLE instance (normal)

LICENSE_MAX_SESSION = 0

LICENSE_SESSIONS_WARNING = 0

Picked latch-free SCN scheme 3

Using LOG_ARCHIVE_DEST_1 parameter default value as USE_DB_RECOVERY_FILE_DEST

Autotune of undo retention is turned on.

Wed Aug 07 15:37:46 2013

SMON started with pid=13, OS id=30687

Wed Aug 07 15:37:46 2013

RECO started with pid=14, OS id=306

Wed Aug 07 15:37:46 2013

MMON started with pid=15, OS id=30691

starting up 1 dispatcher(s) for network address ‘(ADDRESS=(PARTIAL=YES)(PROTOCOL=TCP))’…

Wed Aug 07 15:37:46 2013

MMNL started with pid=16, OS id=30693

starting up 1 shared server(s) …

ORACLE_BASE from environment = /usr/local/oracle

Wed Aug 07 15:37:46 2013

ALTER DATABASE MOUNT

USER (ospid: 30698): terminating the instance

Instance terminated by USER, pid = 30698

重试了多次,结果大多类似。在日志相同目录里,找到最近的trc文件,发现如下内容:

[root@localhost trace]# vi sales_ora_20498.trc

Release: 2.6.32-279.el6.x86_

Version: #1 SMP Fri Jun 22 12:19:21 UTC 2012

Machine: x86_

Instance name: sales

Redo thread mounted by this instance: 0

Oracle process number: 19

Unix process pid: 20498, image: oracle@localhost.localdomain (TNS V1-V3)

*** 2013-08-08 09:23:49.818

*** SESSION ID:(125.37) 2013-08-08 09:23:49.818

*** CLIENT ID:() 2013-08-08 09:23:49.818

*** SERVICE NAME:() 2013-08-08 09:23:49.818

*** MODULE NAME:(sqlplus@localhost.localdomain (TNS V1-V3)) 2013-08-08 09:23:49.818

*** ACTION NAME:() 2013-08-08 09:23:49.818

Error: kb_sanity_check_2

Control file sequence number mismatch!

fhcsq: 38637 bhcsq: 38638 cfn 0

*** 2013-08-08 09:23:49.819

USER (ospid: 20498): terminating the instance

从上面来看,是控制文件故障。

现在重建控制文件,先到日志文件中找到一个相关参数的例子,在alert_sales.log文件中找出

Create controlfile reuse set database “oracle”

MAXINSTANCES 8

MAXLOGHISTORY 1

MAXLOGFILES 16

MAXLOGMEMBERS 3

MAXDATAFILES 100

Datafile

‘/usr/local/oradata/ora11g/ORA11G/oracle/system01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/sysaux01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/undotbs01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/users01.dbf’

LOGFILE GROUP 1 (‘/usr/local/oradata/ora11g/ORA11G/oracle/redo01.log’) SIZE 51200K,

GROUP 2 (‘/usr/local/oradata/ora11g/ORA11G/oracle/redo02.log’) SIZE 51200K,

GROUP 3 (‘/usr/local/oradata/ora11g/ORA11G/oracle/redo03.log’) SIZE 51200K RESETLOGS

WARNING: Default Temporary Tablespace not specified in CREATE DATABASE command

Default Temporary Tablespace will be necessary for a locally managed database in future release

Successful mount of redo thread 1, with mount id 1691519286

Completed: Create controlfile reuse set database “oracle”

然后,根据网上“如何获得创建控制文件脚本并创建脚本”一文中的脚本模板

STARTUP NOMOUNT

CREATE CONTROLFILE REUSE DATABASE “PRIMARY” NORESETLOGS ARCHIVELOG

– SET STANDBY TO MAXIMIZE PERFORMANCE

MAXLOGFILES 5

MAXLOGMEMBERS 3

MAXDATAFILES 100

MAXINSTANCES 1

MAXLOGHISTORY 226

LOGFILE

GROUP 1 ‘/opt/oracle/oradata/primary/redo01.log’ SIZE 10M,

GROUP 2 ‘/opt/oracle/oradata/primary/redo02.log’ SIZE 10M,

GROUP 3 ‘/opt/oracle/oradata/primary/redo03.log’ SIZE 10M

– STANDBY LOGFILE

DATAFILE

‘/opt/oracle/oradata/primary/system01.dbf’,

‘/opt/oracle/oradata/primary/undotbs01.dbf’,

‘/opt/oracle/oradata/primary/users01.dbf’

CHARACTER SET ZHS16GBK

;

RECOVER DATABASE

ALTER SYSTEM ARCHIVE LOG ALL;

ALTER DATABASE OPEN;

ALTER TABLESPACE TEMP ADD TEMPFILE ‘/opt/oracle/oradata/primary/temp01.dbf’

SIZE 41943040 REUSE AUTOEXTEND ON NEXT 655360 MAXSIZE 32767M;

在SQL>下先运行startup nomount,然后直接将根据上面和日志中参数,定义下面的脚本直接粘贴到SQL>下

CREATE CONTROLFILE REUSE DATABASE “oracle” NORESETLOGS ARCHIVELOG

– SET STANDBY TO MAXIMIZE PERFORMANCE

MAXLOGFILES 16

MAXLOGMEMBERS 3

MAXDATAFILES 100

MAXINSTANCES 8

MAXLOGHISTORY 1

LOGFILE

GROUP 1 ‘/usr/local/oradata/ora11g/ORA11G/oracle/redo01.log’ SIZE 51200K,

GROUP 2 ‘/usr/local/oradata/ora11g/ORA11G/oracle/redo02.log’ SIZE 51200K,

GROUP 3 ‘/usr/local/oradata/ora11g/ORA11G/oracle/redo03.log’ SIZE 51200K

– STANDBY LOGFILE

DATAFILE

‘/usr/local/oradata/ora11g/ORA11G/oracle/vpx01.dbf’,

–’/usr/local/oradata/ora11g/ORA11G/oracle/temp01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/system01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/sysaux01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/undotbs01.dbf’,

‘/usr/local/oradata/ora11g/ORA11G/oracle/users01.dbf’

在上面脚本中,我重试了几次,一次是日志大小,我想改成10M,但是不成功,另一次是提示temp01.dbf不是有效的数据库文件,我只有把它注释掉了,只能参照网上的脚本,一步步运行

其中,最后一句

ALTER TABLESPACE TEMP ADD TEMPFILE ‘/usr/local/oradata/ora11g/ORA11G/oracle/temp01.dbf’ SIZE 20480K REUSE AUTOEXTEND ON NEXT 0K MAXSIZE UNLIMITED

我也是从日志文件中找出来的。

根据上面显示的结果,应该是恢复成功了。

先重启操作系统。再手工启动Oracle,一切正常,但是对应的VCSA却不能启动,用OEM进去看到有数据块错误

从图中可以看到,ORA-01578错误,出现文件损坏,Block是45953。

用dbv命令检查文件

[oracle@localhost ~]$ dbv FILE=’/usr/local/oradata/ora11g/ORA11G/oracle/vpx01.dbf’ BLOCKSIZE=8192

得到下面的结果:

从中可以看出,被标记会Corrupt的块有452个。

再查询是哪些损坏的哪些内容:

Select tablespace_name,segment_type,owner,segment_name From dba_extents Where file_id=5 and 45953 between block_id and block_id+blocks-1;

结果如下:

说明损坏的是LOBSEGMENT

用命令找到损坏的表名和列名

select table_name, column_name from dba_lobs where segment_name=’SYS_LOB0000075100C00016$$’ and owner =’VPXADMIN’;

结果为:

select count(*) from VPXADMIN.VPX_RESOURCE_POOL;

发现这个表中只有8行数据。

ROWID ID

—————— ———-

AAASVcAAFAAACfjAAA 8

AAASVcAAFAAACfkAAB 523

AAASVcAAFAAACfkAAA 816

AAASVcAAFAAACfkAAC 826

AAASVcAAFAAACfkAAD 833

AAASVcAAFAAACfkAAE 839

AAASVcAAFAAACflAAB 1212

AAASVcAAFAAACfjAAC 1601

一行一行地试

select * from VPXADMIN.VPX_RESOURCE_POOL where id>1212;

发现ID=1212的这条记录是损坏的。

delete from VPXADMIN.VPX_RESOURCE_POOL where id=1212;

删除后,这个表可以正常地访问了,用DBV检查,结果没有什么不同。

shutdown immadiate数据库,提示没有Commit,看来删除并没有真正成功,于是在SQL命令行下,直接输入commit提交了修改。然后可以关闭数据库了。重启数据库DBV检查情况并无改观,说明这些还不够。

想了半天,也没有什么头绪,回到OEM页面中,在“可用 性”里面,选择了“执行恢复”,看看能不能将表空间VPX恢复到8月3日之前。

点了半天后,提示操作失败,同时VPX也脱机了,在图形界面中却怎么为无法联机。真是事情越搞越乱,好在问题并不复杂,在SQL环境下,执行

recover datafile 5

alter database datafile 5 online;

alter tablespace VPX online;

就可以联机了。

再回到原来的问题。

排查到现在,还有两个方向研究,一个是从vCenter服务器不能启动服务入手,查看日志,查看出错的地点和原因。一个还是从DBV出的错误结果入手。

先从DBV入手,在网上搜索到这篇文章,发现,可能根据DBV出的错误信息找到出错的文件和块,从而找到对应的表。

下面一部分的DBV 201错误块信息

DBV-00201: Block, DBA 21044390, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044391, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044393, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044394, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044395, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044397, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044398, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044399, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044401, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044402, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044403, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044406, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044407, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044410, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044411, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044412, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044414, marked corrupt for invalid redo application

DBV-00201: Block, DBA 21044415, marked corrupt for invalid redo application

根据最后的显示,应该有452个块,这里这是一部分,因为终端显示不完全。

拿最后一个来测试一下

select dbms_utility.data_block_address_file(21044415) from dual;

select dbms_utility.data_block_address_block(21044415) from dual;

结果是File为5,Block为725。再用

Select tablespace_name,segment_type,owner,segment_name From dba_extents Where file_id=5 and 725 between block_id and block_id+blocks-1;

得到Segment名为SYS_LOB0000075068C00059$$用

select table_name, column_name from dba_lobs where segment_name=’SYS_LOB0000075068C00059$$’ and owner =’VPXADMIN’

得到表名为VPX_HOST,列表为RESOURCE_INFO,测试一下:

这里又出现了一个块10309,用相同的方法找到是VPX_HOST表中的另一个列CAPABILITY,这种方法很明显能找到故障表,但是对于修复却帮助不大,因为数量太大,没有办法手工处理。

按上文中提到的修复方法先创一个表

create table corrupted_data (corrupted_rowid rowid);

然后,在SQL提示符下粘贴下面脚本代码,最后用/结束并运行。

set concat off

declare

error_1578 exception;

pragma exception_init(error_1578,-1578);

n number;

begin

for cursor_lob in (select rowid r, &&lob_column from &table_owner.&table_with_lob) loop

begin

n:=dbms_lob.instr(cursor_lob.&&lob_column,hextoraw(’11′));

exception

when error_1578 then

insert into corrupted_data values (cursor_lob.r);

commit;

end;

end loop;

end;

根据提示符,输入需要的各变量值,列名为RESOURCE_INFO,所有者VPXADMIN,表名为VPX_HOST。脚本会把有问题行的ROWID写到上表创建的表中。上面的代码中hextoraw(’11′)有点奇怪,不知道是什么意思,在上文最后到是提到了,原来这个值是随便写的,主要是让n总是返回0值。

然后再将有问题行中的对应列数据填为空值。

set concat off

update &table_owner.&table_with_lob set &lob_column=empty_blob() where rowid in (select corrupted_rowid from corrupted_data);

出现下面的错误提示

ORA-00932: inconsistent datatypes: expected NCLOB got BLOB

于是将上面的代码修改成

update &table_owner.&table_with_lob set &lob_column=empty_clob() where rowid in (select corrupted_rowid from corrupted_data);

再试一次,Update成功。(如果类型是XMLTYPE则用XMLType.createXML(”)代替empty_clob()。)

回到命令行方式,用DBV再试一次,结果却仍是有452个Page被标记为坏。

但是这次用Select * from vpxadmin.vpx_host;能返回正常的值了。说明表的确是被修复了。但量DBV结果仍标记为Corrupted,用DBV来找坏表的实用性就差了许多。像这样有452个坏块,一个一个地测试,太麻烦了。

转到vCenter的服务器中,

发现在启动过程中,初始化VPXD时出错。

查看/var/log/vmware/vpx目录下的日志。大致可判断为数据库中数据读出来后,反序列化出错。但是因为上面的原因我又找到不出故障的表的内容,用OEM在表空间里试了几个表,都是好的,从VCenter日志中也找不出线索,问题就变成死问题了。

看来只能重建一个表空间给vCenter用,原来保留的数据也只有放弃了。

下载本文
显示全文
专题