1.1、概述
计算机集中备份系统项目服务于企业的信息化建设,是存储系统中重要而关键的一环,它的发展战略必须与整个企业的战略目标协调一致。在进行计算机备份与恢复系统项目的总体规划和设计时,必须遵循“可行性和经济性”、“先进性和成熟性”“开放性和可靠性”、“安全性和保密性”、“可扩展性和易维护性”等原则,在XXXX的此次项目中,对存储系统又特别强调:具有高效、高可用,支持并实现对专网相关部门数据的自动备份,在整体方案中突出高性能、高可靠性、高可扩展性和高度的可管理性,为业务系统提供监视的基础架构,并在系统发生各种异常时帮助快速恢复。
当前XXXX的目标备份主要是各种UNIX服务器和PC服务器,涉及的平台包括Unix、Windows、Linux,涉及的应用包括DB2、Oracle、Sybase、SQL Server、Domino、Exchange以及WebSphere/WebSphere Portal等等(根据实际环境和用户项目范围设定)。
对数据的保护需要紧密的结合应用数据的保护需求和对应的硬件构架。IBM以其得天独厚的优势,提供对主机和网络优秀的管理解决方案。针对备份管理需要和目前的IT环境,加之IBM多年在备份管理方面的经验、建议利用Tivoli Storage Manager(TSM)企业级备份软件和IBM磁盘阵列和LTO自动带库设备,对数据进行集中统一备份保护,提供完善的备份/恢复/归档/灾难备援解决方案。
针对客户提出的分布式、多平台、多应用数据存储备份的集中存储、自动化管理要求,IBM提出了基于Tivoli数据存储/备份软件的相应解决方案:
⏹数据备份管理基础及内核模块: IBM TSM Extended Edition
⏹数据库在线热备份模块: IBM TSM for Database
⏹邮件系统在线备份模块: IBM TSM for Mail
⏹门户/应用服务器在线备份模块: IBM TSM for Application Server
⏹SAN环境下高速备份模块: IBM TSM for SAN
整体的软硬件配置和方案能够很好的满足用户的当前环境,从而建立起高效可靠的集中备份系统。
1.2、备份及数据保护机制
TSM是Client/Server结构的应用。TSM Server集中的进行备份策略、备份存储设备等数据保护相关主题的管理;同时,在被保护的服务器上,安装有TSM Client程序,它接受TSM Server的管理指令,对本服务器上的数据对象进行保护。硬件构架上,配备一台单独的服务器作为备份服务器,集中管理备份/恢复策略和磁盘阵列/LTO磁带库/虚拟带库等备份介质设备的驱动及访问。
发生备份时,被备份服务器上的TSM Client根据用户在TSM Server上定义的备份策略,获取数据对象并传输到备份策略定义的存储设备中。在恢复时,根据恢复需要,TSM Server根据TSM Client端的要求从后端存储设备中检索需要的数据,并传输给TSM Client,由TSM Client在目标服务器上进行数据重建。
整个备份平台由TSM统一管理,并根据具体需求实现自动化。
1.3、文件系统数据备份/恢复
通过设定TSM备份策略,可以首先对被保护机器文件系统的数据对象进行备份。备份策略的制定对于整个备份体系而言是重要的一环,好的备份策略可以充分享受到TSM的好处:全自动、准确快速、安全的备份。
所有与TSM竞争的备份工具都提供某种完全备份、完全备份+增量备份或完全备份+差异备份的备份策略。用户很可能熟悉其中的一种或几种方法。在TSM之前,客户被迫在上述方式之间进行复杂的权衡计算及反复的尝试,期望在备份效率和恢复效率以及介质空间使用等各方面都获得最优。
TSM引入了一个新范例,叫“完全增量备份”方法。累加方法提出增量问题:自昨天以来哪些文件改变了?并把结果放到存储管理器数据库中。这样当首次用累加方法备份文件系统或计算机时,由于TSM以前未曾备份,所有的文件都将移动。当备份拷贝发送到TSM服务器时,每个文件单独存放在数据库中。文件名信息、所有者和安全信息、创建和修改时间,以及拷贝自身都放置在TSM服务器连续存储分层结构中。如果客户策略要求拷贝到磁带上,Tivoli存储管理器数据库将记录磁带的条形码、起始块地址和文件长度。
在初始的备份后,将只考虑增量问题(不再进行完全拷贝)。每天将只移动上次备份操作后改变了的文件。并且,文件发送到TSM服务器后被单独存放在数据库中。当需要拷贝到磁带时,TSM服务器查询数据库,确定从前的拷贝在哪一个磁带上。一旦确定,将对该磁带进行再设置并把新拷贝附加在磁带末尾。这种对备份拷贝的收集都来自于同一台计算机或文件系统,于是形成了所谓的排列组。每天,改变的文件累加到排列组中。
在恢复时,相比于传统的方式,用户获得极大的性能提升:
⏹完全增量备份采用增量,大大提高了备份效率;
⏹采用排列组,大大提高了介质管理效率;
⏹准确地只移动期望的文件,大大提高了恢复效率。
该方法最大的功效还在于,累加方法并不需要在一个完全备份后才能开始恢复过程,也就是说并不需要周期性地建立完全备份拷贝。而对完全+增量或完全+差异方法,无论是否改变,每周都要移动和存储几十亿字节的数据。有了完全增量备份方法,就不需要这样做了。于是客户节省了大量的网络带宽(LAN、WAN或SAN)、磁带介质和时间。
现在来看恢复操作——恢复操作的目标是让文件系统或计算机回到期望的某一时间点,常见的情况是客户期望的时间点就是最近某时刻。在完全增量备份方法下,完成一个完全的恢复操作只需告诉TSM服务器期望的时间点。利用时间点信息,TSM服务器查询内部数据库中文件集合,看它们是否在期望的时间点上。这些文件存在于同一个排列组上,通常也位于一个(或少数几个)磁带上;自动设置了正确的磁带后,TSM指定每个文件的长度和起始块位置;磁带驱动器快速扫描,迅速定位到期望的备份拷贝并执行恢复操作,这样只移动了期望的文件。用户可以把该过程看作完全系统操作中一个完整的恢复过程,该过程就像在期望的时间点做了完全备份一样。因此,用户不在需要再进行传统的“全备份数据恢复”+“某时间点增量/差量备份数据恢复”的冗长操作,恢复效率大大提高,这对于发生灾难时进行系统重建是极有意义的。
因此,用户可以对特定服务器的指定目标文件系统(如/root、/etc、关键应用的安装和配置文件等)进行永久增量备份,并设定备份作业自动的周期性的进行(每天/每周/每月)。
1.4、数据库备份/恢复
IBM TSM备份管理工具全面支持主流平台和主流厂商的数据库系统,包括Oracle、DB2、Informix、SQL Server、Sybase等。在本环境中,用户使用的数据库主要有DB2、Oracle和SQL Server。
3.4.1、Oracle数据库备份
对于Oracle数据库,使用TSM的数据库保护模块TSM for Database/Oracle能够很好的对它进行全面的保护。
TSM使用模块化的方式,在TSM核心模块的基础上添加数据库保护模块。TSM使用数据库的备份接口,以透明化的方式提供数据库管理员一种进行数据备份的方法。
备份Oracle数据库需要TSM for Database/Oracle,它利用ORACLE数据库提供的备份接口RMAN来对数据库进行备份。Oracle备份工具RMAN能够生成需要备份的数据文件,并能够保证数据库的一致性,所有的热备和逻辑备份都通过Oracle RMAN唯一接口进行。Tivoli可以利用这些工具实现对Oracle数据库的各种对象进行在线/离线备份,另外通过RMAN增量备份的机制,TSM可以实现对Oracle数据库的增量备份。而在被备份数据的输出上采用了和TSM结合的方式,TSM就是一个双向管道,一方面利用数据库的API和数据库备份软件连接,另一方面利用TSM的API和TSM连接,将数据库备份软件的输出传送到TSM管理的备份介质中。在Oracle中,直接设置了和TSM的连接,只需要在Oracle的相关配置中设置TSM服务器的名称和IP地址即可。
TSM for Database/Oracle来实现对Oracle数据库各种数据对象的保护,包括database、tablespace、individual data file、control file和redo log的online/offline备份。为了减少DB主机压力和减少备份时间,对于Oracle数据库,同时能够提供数据库的增量备份,仅仅备份包括自从上次备份过程以后被改变过的data files的data blocks。这些数据可以和上面谈到的文件备份分开,存在不同的存储池中,通过不同的存储策略来进行管理。
恢复同样可以根据发生故障的种类,在数据库管理员的判断下,灵活的针对数据库的任意一个部件进行。
由于业务数据量较大,建议对数据库的全备份每天或每两天做一次,而每隔一段时间备份数据量较小的Transaction Log。当发生数据损坏或丢失时,先恢复最近备份的数据库和Transaction Log,再用Transaction Log进行Forward Recovery,从而将数据库恢复到最近一次备份Transaction Log时的状态。在这种备份策略下,最坏情况会丢失一段时间的数据。通过将备份Transaction Log的时间间隔减小,例如减小到每小时备份一次(这一备份时间间隔应根据Log数据量和网络带宽情况制定),能够最大限度地减少数据丢失;对于master database的数据,由于数据量不会太大,而且数据变化相对较小,所以建议每周做一次全备份。
综上所述,使用TSM for Database/Oracle模块,能够灵活的对用户的Oracle数据库进行保护。备份的工作可以自动化的定时进行。
1.4.2、DB2数据库备份
由于DB2和TSM同来自IBM的软件家族,DB2内置了与TSM集成的方式,在DB2系统的备份命令中就包含了TSM的参数,仅需要简单配置,DB2就可以和TSM相连并进行数据备份。
这一点不仅从技术上确保了备份工具与数据库系统的最大兼容,也极大的节省了在备份软件License维护方面需要付出的首次投资和长期维护成本,可以说使用TSM是对DB2数据库进行备份管理的最佳选择。
底层技术实现上,DB2通过调用TSM客户端的TSM API与TSM服务器进行相连和通讯。在备份和恢复管理中,完全使用DB2的指令进行,对数据库管理员屏蔽了后端备份系统和备份设备的细节。
因此,备份的目标数据库系统无需额外安装TSM的数据库备份模块,只要在安装基本模块并进行简单的配置后即可获得与DB2备份接口的无缝通讯,从而获得各种在线备份/离线备份/全备份/增量备份/表空间备份/日志备份等功能和集中管理的便利。
1.4.3、SQL Server数据库备份
用户对当前环境的SQL Server数据库,对业务的支撑要求提高到24×7时,就需要考虑在线备份的方式。TSM通过特有的TSM Data Protector for Database/SQL Server模块提供对Windows平台上SQL Server服务器的在线备份。技术构架上,TSM的SQL Server保护模块与SQL Server数据库接口,同时该模块通过TSM API与TSM服务器获得联系并进行控制指令传输和数据传输(在LAN-Free是,数据直接流向带库)。由于SQL Server数据库复杂度低,其并未引入类似Oracle RMAN的接口和机制,在布署TSM for Database/SQL Server后,管理员通过数据库的备份/恢复命令管理数据库的在线备份和各种恢复,TSM服务器以及后端的存储设备都将被透明化。
通过TSM对SQL Server的保护,用户可以实现在线/离线/数据文件/日志等对象的备份,并对各个数据库逻辑对象进行恢复/前滚/部分文件修复/灾难恢复。
1.4.4、Sybase数据库备份
对于Sybase数据库的在线备份和恢复,IBM通过认证的BMC SQL Back-Track与TSM核心模块的集成来实现。通过IBM、BMC、Sybase多方的技术合作,TSM对Sybase备份的支持广泛的适用于大量的Sybase用户。在实现上,和上面SQL Server的备份方式相似,通过BMC SQL Back-Track来作为沟通Sybase备份/恢复API和TSM API及TSM服务器,从而实现Sybase认证的各种备份/恢复。
1.4.5、数据库备份可能采取的策略
结合特定数据库应用的数据量和业务属性,可以考虑使用如下备份策略。
⏹每周进行在线全备份。
⏹每天进行在线增量备份。
⏹每4或8小时进行数据库在线日志备份。
⏹每次订修时,进行离线全备份。
1.5、邮件服务器备份
在企业环境中,邮件服务器作和群件服务器为沟通内外和开展协作的关键IT元素对企业的业务开展起着非常关键的作用,在此次项目中,用户环境中的Domino/Exchange服务器也是需要包含的重要对象。
3.5.1、Domino服务器备份
自动在线备份Lotus Domino并不是一件简单的工作——必须在不影响大量Notes用户正常使用的情况下,自动可靠地进行备份。大多数其他备份软件并没有真正顾及Lotus Domino在逻辑结构上的复杂性,仅仅把它们作为的磁盘文件来备份。所以,当Notes数据库中只有一个文档(Document)被改动时,那些备份软件会把整个数据库都备份下来。如果用户的Lotus Domino数据库很大,备份窗口很小,又必须24x7不间断运行时,这种文件粒度的“增量”备份很难真正解决完整数据保护和有限存储备份介质的矛盾,因此,用户需要更专业的备份软件来对Domino服务器进行增量备份,这就是需要TSM for Domino原因。
IBM TSM for Mail/Domino是一个用于Lotus Notes的TSM数据保护模块。并利用了Lotus Notes R5 Server架构的重大增强,包括用于与Notes数据库互动的处理日志以及用于Notes数据库备份及恢复的新应用程序接口(API)。同为IBM五大软件家族的主要产品,TSM for Domino本身全部采用Domino专门用于备份的API和TSM API写成,有异常优秀的兼容性和出色的效率表现。
用于Lotus Domino的TSM数据保护模块,有助于保护和管理Lotus Domino服务器数据,可方便的进行:
◆执行Lotus Domino数据库的集中的、在线、增量备份。
◆当档案日志开启时,将Lotus Domino的处理日志文件进行归档。
◆恢复备份一个Lotus Domino数据库的版本,并在处理日志备份后应用改变。
◆将Domino数据库恢复到一个指定的时间点。
◆恢复到相同的或不同的Domino服务器。
◆在不需要的时候,停止对处理日志的归档。
◆在线获得结合当前应用上下文、任务以及概念的帮助。
◆浏览在线文档,针对于Lotus Domino的数据保护。
◆自动进行计划性备份。
◆恢复一个或多个于数据库恢复之外的处理日志。
◆恢复损失的处理日志。
◆归档当前的处理日志文件。
| 特性 | 优势 | 获益 |
| 在线备份 | 有效避免宕机时间 | 增强应用程序的可用性 |
| 可靠的备份 | 完全的保护 | 保护重要的电子商务架构 |
| 驱动 | 减少了人工干预 | 增加效率和自动化 |
| 集中化备份 | 在一个企业级到一个集中化的服务器上进行数据和应用程序的备份 | 降低运行成本 |
1.5.2、Exchange服务器备份
针对Microsoft Exchange,用于邮件系统的TSM for Mail组件支持Microsoft Exchange Server 5.5和Microsoft Exchange 2000 Server。它使用由Microsoft提供的备份APIs,可以创建一个Exchange服务器存储群的拷贝且与处理日志相联。该模块可以生产不同类型的备份,这些备份是由Microsoft备份APIs指定的:全面备份、增量备份、微分备份、拷贝备份和数据库拷贝备份,并且支持单个邮箱的备份保护。在进行Exchange服务器数据备份甚至恢复时,TSM for Mail/Exchange组件支持电子邮件服务器24×365不间断的运行。
1.6、应用服务器及企业门户的备份
在现在的企业环境中,大量关键应用构建在WebSphere服务器上并对外提供不中断的BS应用服务;同样的,建立在WebSphere Portal的企业门户也为用户提供着高效的信息访问。它们都是IT环境中的关键对象。
从形态来看,WebSphere Portal也是基于WebSphere应用服务器的应用,因此,对WebSphere和WebSphere Portal的保护落实到WebSphere上各对象的保护。
IBM Tivoli Storage Manager for Application Servers是一个TSM模块,即与IBM TivoliStorage Manager协同工作,更好的保护系统架构和应用数据,增强WebSphere应用服务器的可用性,并可在WebSphere 应用服务器环境中提供可再生的、自动的在线备份,包括WebSphere管理数据、配置数据、一应用程序文件部署。改变WebSphere环境,例如增加额外的应用软件,会被自动地检测到并包含在数据备份计划中,从而有助于维护当前的备份数据。如果发生数据丢失或数据损坏,针对应用服务器的Storage Manager能够自动恢复重要数据,从离线存储到WebSphere应用服务器环境中的在线存储。
针对WebSphere应用服务器的Tivoli 数据保护具备以下特性:
◆数据整合——WebSphere应用服务器的配置信息的动态提取确保了所有关键数据都能备份。动态生成的XML文件包含所有的必须信息,可以探测到所有在备份域中的WebSphere应用服务器。包括管理数据库以及所有的WebSphere应用数据。
◆WebSphere 应用服务器的在线备份/恢复——IBM Tivoli产品提供了在线备份所有WebSphere应用服务器的能力。这就意味着在正常操作期间,WebSphere对数据库的管理以及所有 WebSphere应用程序服务器都能备份,而不必关闭服务器。因此,该产品支持在WebSphere环境中24×7的可用性。此外,高性能的备份/恢复有助于降低可用性的影响,即使是在灾难恢复的时刻。
◆全面的自动备份流程——Tivoli 数据保护用于WebSphere应用服务器,确保一个全面的自动备份流程。设定计划性的备份与自动检测所有相关的WebSphere应用服务器的能力,使的用户无须获得维护脚本。同时,也不再需要人工干涉,因为所有的行为都是由一个控制点引发的。
◆LAN-Fee支持——Tivoli数据保护用于WebSphere应用服务器,配合TSM for SAN模块,具备直接通过SAN执行备份和存储的能力,而无须通过LAN。在SAN环境中,该产品的数据传输能够通过SAN直接连接到相应的存储设备。这时,数据会通过SAN进行传输,数据流通过LAN到达Tivoli存储管理服务器。该选项的主要利益点包括:
(1)直接通过SAN发送数据,可以从网络中卸载LAN 并可以
(2)使用一个集中的TSM服务器,时刻保持在WebSphere应用服务器上的读/写加载。
| 特性 | 优势 | 获益 |
| 在线备份 | 有效避免宕机 | 提高应用程序的可用性 |
| 稳定的备份 | 完全保护 | 保护重要的e-business架构 |
| 驱动 | 减少手工操作 | 高效的以及自动化的 |
| 集中化备份 | 最小化操作成本 | 在一个企业级到一个集中化的服务器上进行数据和应用程序的备份 |
在大型存储系统环境中,TSM通过TSM for SAN模块实现在SAN环境中的高速备份/恢复。
建立了SAN和集中存储系统后,可以将备份期间的数据传输路由从IP网络切换到专用的存储区域网络。这在大大提高数据传输效率的同时,也非常有效的减轻了备份期间的数据传输对业务网络性能的冲击,大大提高了备份/恢复的效率和整个业务系统的质量。
这种配置下,使用TSM服务器及其策略、规划能力可以直接进行存储管理操作。在Tivoli存储管理器服务器的指挥下,磁带或磁盘存储池动态地分配到客户机,以便让备份信息通过SAN直接发送到存储池。这种配置下,数据路径完全绕过了LAN和TSM服务器。操作完成后,存储介质将提供给其它的客户机进行动态分配。
1.8、智能磁带介质管理
除了可靠灵活的备份和恢复,TSM还对存储介质进行有效的管理。
“磁带集中”使每个客户机的每天的备份数据都对应放在一盒或一组磁带上,使得TSM能够用最少的磁带数做恢复,由于磁带数量减少,可以大大降低由机械臂抓带时间带来的时间开销。这是一种迅速、可靠的数据恢复方式。
“磁带重用”的目的是使磁带库或光盘库介质自动轮转,完全实现备份、恢复的无人值守。原理是:当介质上的过期数据越来越多并达到一定限度时,比如介质上80%的数据都过期了,TSM会自动把数个这样的介质的残余数据整合到一个介质中,而其它介质重新进入新的介质轮转中去。最佳的介质管理能力使已用过的磁带盒在到期后能被回收。这种对有效数据持续不断的整合使得TSM能使用比竞争对手产品更少的磁带,这样,在保证将所有有效数据保存进磁带库的同时,也节省了大量存储费用。
TSM并不是在多个磁带盒间将备份数据平均分布,这就解决了需要多个驱动器来启动恢复的问题。另外,它不需要跨多个磁带驱动器从多个客户机来传送数据就能实现对话复用,从而有效实现了所需要的吞吐量。通过将数据从低性能客户机输出给磁盘,TSM可以将数据从单个客户机节点备份到单盘磁带上,这样就提供了更高的数据可用性,因为单一数据流有效的可靠性即为所有存储数据流的介质产品的可靠性(例如,假如备份数据以99%的可靠性在三个磁带盒间进行“条纹化”备份,则有效的可靠性将只有97%)。因为不必等待安装磁带媒体,因此磁盘缓存还提供了用于单个文件恢复(通常占全部恢复的80%多)更快的平均恢复时间。
为了提高关键数据备份的安全性,减少因硬件故障(如磁带读写故障、磁粉脱落、机房发生灾害等)带来的风险,用户也可以通过TSM的双备份功能,将一份备份数据同时写在两份磁带上(需要硬件支持,磁带库至少有2个驱动器)。当备份完毕后,可以把其中一份磁带从磁带库中取出,另外放置到其它安全的地方(如银行保险库中),这样可以形成一个初步的投资较少的关键数据异地灾难备援解决方案。
这些技术都可以被包含到备份策略的设定上,用户可以根据实际需求进行灵活的设置和变更。
1.9、快速裸机恢复
对于当前环境的Unix、Windows以及Linux系统,用户如果希望实现对整个系统的快速重建,可以使用TSM for Sysback以及CBMR模块结合TSM基础模块来进行。
TSM for Sysback对IBM RS6000服务器进行裸机保护,通过结合smit工具的配置,能够帮助管理员在发生灾难是对大量RS6000进行快速恢复。
类似的,CBMR作为对特定操作系统的系统级备份工具,在备份时充分考虑了在恢复时效率和方便性的要求。CBMR对目标系统进行定期的备份,备份数据包括两个层面:
◆首先是系统固有的信息——它涵盖了系统盘上的绝大多数内容。
◆其次是系统上的其它数据,譬如数据库或者群件应用数据。
上述两个过程在备份时对用户透明,CBMR和TSM自动根据策略将需要的数据备份到备份服务器相连的带库中。在恢复时,使用CBMR的引导光盘引导需要重建的系统,CBMR会通过向TSM服务器的连接,智能的查询需要恢复系统的特定数据,并进行自动恢复。
需要保护的服务器通过其上运行的CBMR和TSM客户端进程,能够按照规划的时间自动进行系统保护,其备份数据也将处于整个系统的备份平台保护之下。
1.10、磁带出库与智能灾难恢复
结合当前的系统需求,用户需要在每年的大型节假日前对系统备份的介质进行离线保存,从而实现基本的灾备。TSM内涵Disaster Recovery Manager模块,完全支持这种方式的数据保护。
通过充分使用备份系统,能够帮助用户在较少的投资下实现一定程度的灾难恢复系统。
为了提高关键数据备份的安全性,减少因硬件故障(如磁带读写故障、磁粉脱落、机房发生灾害等)带来的风险,建议通过TSM的双备份功能,将一份备份数据同时写在两份磁带上(需要硬件支持,磁带库至少有2个Driver)。当备份完毕后,可以把其中一份磁带从磁带库中取出,另外放置到其它安全的地方(如银行保险库中)。这样可以形成一个初步的投资较少的关键数据异地灾难备援解决方案。
可选的,TSM具备独有的Server-to-Server功能,环境中的省检测站和省环保局的备份服务器之间可以建立互连,并通过设置进行相互备份,这样,用户就可以省去手工运送磁带介质的工作——冗余的备份内容能够通过网络进行自动化的电子传输。当某个站点发生灾难时,凭借另外一个TSM服务器上的备份数据,能够快速的进行系统重建和恢复。
除了上述意义的“灾难恢复”,用户可能还希望在系统发生局部崩溃时能够快速重建应用。TSM具备backupset的选项,帮助用户自动生成不依赖TSM服务器的可恢复对象,在发生这种灾难时,即使目标系统无法与TSM服务器相连通,能够从特定的backupset中直接恢复数据。
1.11、集中存储备份平台小结
基于IBM Tivoli Storage Manager企业级备份工具建立集中备份平台,用户从多方面获得数据保护上的收益。
◆实现对关键应用数据和应用系统的集中的自动化备份
◆实现对关键应用数据的归档管理
◆对复杂存储架构的适应性
◆基于备份的灾难恢复系统
◆建立可扩展的通用备份平台下载本文