目前在Internet和信息技术的不断发展时代,对高等院校的教学与管理带来了深远的影响,网络远程教学、多媒体应用、数据查阅、信息管理等应用已经成为高校教学与科研重要的一环,并逐步与学校的教学、服务与科研融为一体。高校校园网建设、网络中心的规模与数字图书馆已经成为全面衡量高等学校信息化水平的三项重要的指标。图书馆除向全校师生提供教学、科研以及数字化信息服务外,还面向社会为众多单位提供培训及咨询服务。随着计算机应用的发展,图书馆服务器和数据量急速增加,管理的复杂程度越来越大。
数字化图书馆是一种运行在高速宽带网络上的、可跨库检索的海量数字化信息资源库群,对有价值的图像、文本、语音、影像、影视、软件和科学数据等多媒体信息进行收集,进行数字化加工、存储和管理,实施知识增值,并提供基于网络的电子存取服务。
数字图书馆在本质上就是一个集数据库应用平台、信息资源电子商务平台与资源数字化加工服务平台于一体的巨大数据仓库,以互联网为平台,面向高校内部广大师生和外部互联网用户提供基于内容的服务。作为图书馆发展的方向,数字图书馆应以统一的标准和规范为基础、以数字化的各种信息为底层、以分布式海量资源库群为支撑、以智能检索技术为手段、以电子商务为管理方式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息及时的传递给用户。
图书馆系统概述
数字图书馆系统是一个基于Internet/Intranet分布式环境、能够针对用户的需要提供信息服务的分布式海量信息系统,其基本功能包括:
1.提供用户交互式信息浏览、查询,具有基于内容和知识的检索引擎。
2.支持连续媒体的网络传输,数字化图书馆所支持的数据类型包括具有时间基的连续媒体信息;支持多媒体信息流的同步和集成,建立先进的同步模型和同步机制保证静态信息流的空间同步和动态信息流间的时间同步。
3.建立通用、标准和规范的数字化图书馆系统结构模型,提供数字化图书馆系统有效的资源管理和控制功能。
4.支持动态服务质量(QoS)管理机制,系统可以根据用户请求、系统检测和资源均衡需求,动态地调整用户端的QoS参数。
5.数字化图书馆系统的中心服务器和媒体服务器应该具有可伸缩的体系结构,根据资源的使用情况,采用适当的负载平衡策略,把信息存取和网络传输的负载均衡到相应的机群中,同时,系统具有信息存储和网络带宽的可扩展性。
6.系统具有透明性,信息的重组在一定条件下是可见的,但是对用户是透明的。
7.系统具有可移植性,具有可运行特征的媒体信息在不同的运行环境下都可以再现
图书馆的主要组成部分:
1.图书馆管理系统
2.数据库
3.电子期刊库
4.电子图书库
5.硕博论文库
6.自建数据库:论文、期刊、图书、声像、教参等等
7.音视频资源管理系统
8.网络接入认证系统
9.门户网站
10.博客服务
11.论坛服务
12.FTP系统
13.等等
因此,可以说建设数字图书馆的关键技术在于存储系统,一个良好的存储系统解决方案应能适应图书数据的海量存储和不断增长,同时能够满足当今网络环境复杂性和扩展性的不断提高。这样的目标无疑对存储系统的要求很高,既要求高可用性、高可靠度和大容量,还需要低成本和易安装管理。
图书馆信息系统需求分析
数字化图书馆就是将图书馆文献信息数字化,并利用计算机技术储存、查询和发布,以满足当地或远程读者对文本、图像、声音等不同种类的信息需求。
数字图书馆的显著特点就是:
·各种信息(文献,期刊,图书,报纸,论文,音乐,视频等)的数字化
·海量数据的存储和管理
·对数据的有效访问和查询
数字化资料在网上发布和传递。数字化图书馆的开发与建立是计算机、通信和网络技术、海量存储技术以及多媒体技术有机结合的产物,并且还引进了大量数据库技术及概念。
图书馆存储系统需要存储以下内容的数据信息:
1.数据库: 一般采用MS SQL和Oracle数据库,数据量不大,一般在几GB以内,且数据增量不大
2.电子图书:以文本文件存储和读取为主, 文件大小一般为32KB--MB,存在形式为静态, 容量增长小于5%每年
3.视频资料信息:包括电影资料的VCD/DVD形式,MPEG2/4形式,以大文件形式存储,流媒体读取为主.文件大小一般为80MB --5GB;
4.电子期刊:以文本文件存储和读取为主,文件大小一般为32KB--MB,存在形式为动态增长,增长速度为线性定值
5.其他电子信息资料:包括音频资料,硕博论文,自建资源库,教参等等,以文件方式存储,以流媒体或文件方式读取,文件大小一般为32KB--40MB
在图书馆中,数据库的管理和操作是最核心的问题,所有的电子图书、期刊和多媒体数据全部存放在大容量存储系统中,存储系统是整个数字图书馆的支撑点。
根据图书馆中数据的特点来分析数字图书馆的数据应用特点,数字图书馆大致可划分为以下两种类型的数据:
1.数据库类型数据:
·图书馆管理系统和外购商用软件系统以及自建系统的数据库
·需要提供高速数据检索和查询服务,数据访问速度要求高
·需要提供7*24小时高可靠运行
2.文件型数据:
·包括电子图书,期刊,论文,自建数据资源,影视频资料文件等等
·需要提供大容量数据存储空间
·大量数据处于静止状态,少部分数据在相应时间内处于活跃状态
·数据访问速度一般没有严格要求
随着图书馆数字化进程的逐步深入,图书馆的应用系统越来越多,环境也变得越来越复杂,这无形中增加了图书馆管理人员管理系统的难度。同时,随着应用系统的不断增加,数据也相应大量增长,这就给原有的存储系统提出了更高的要求。
·平滑的提供更大的存储空间
·提供更快的响应速度
·提供更大的数据吞吐能力
总体来讲,图书馆信息化的关注点在于:
·如何满足业务连续性要求
·关键系统高性能
·关键服务不停顿
·关键数据不丢失
·如何解决数据容量迅速增长带来的成本、管理等问题
图书馆信息系统推荐方案
设备选型原则
存储系统是数字图书馆的核心基础,其性能的优劣,质量的好坏,对全局的影响关系重大。在存储系统平台的选型上应充分考虑系统应用的水平和数据处理数据量的大小,综合总体系统设计的方针,予以慎重选择。
在选择存储平台时,要考虑的因素很多,需要根据实际情况决定,一般来讲,以下特性是必须要考虑的:
·存储系统的IO性能
·系统未来的可扩展性
·存储系统的高可用性
·存储系统对各种服务器操作系统的兼容性与标准
·系统管理员的可维护性
方案综述
数字图书馆中需要存储的数字资源大致分为以下几类:
·图书馆管理系统数据库
·图书馆购买的各类商业软件的数据库
·图书馆购买的各类电子化的图书和期刊数据
·图书馆自建资源库
根据对图书馆信息化系统的需求分析,可以总结出图书馆核心应用的特点如下:
·数据库:是整个图书馆业务系统的核心
–数据类型:数据库(SQL, Oracle等)
–性能要求:同时访问人数较多,并发性能要求较高
–可用性要求:不能停机
–数据量:几百MB到几个GB
·图书馆应用系统数据:
–数据类型:文件(文本,图像,音视频)
–性能要求:同时访问人数较少,但传输数据量大,带宽要求高
–可用性要求:不能停机
–数据量:很大且增长很快,从几TB到几十TB
根据性能和可用性的分析,可以得出相应推荐的存储系统架构如下:
| 应用 | 数据类型 | 性能 | 容量 | 数据保护 | 典型存储架构 | |
| FC SAN | iSCSI | |||||
| 数字化图书馆管理系统(采、编、流) | 数据库 | 高 | 低 | 高 | 优选 | |
| 自建资源系统 | 数据库/文件 | 中 | 高 | 高 | 推荐 | 可选 |
| 硕博论文 | 文件 | 中 | 高 | 高 | 推荐 | 可选 |
| 期刊 | 文件 | 中 | 高 | 低 | 推荐 | 可选 |
| 电子图书 | 文件 | 中 | 高 | 低 | 推荐 | 可选 |
| 影视频资料 | 文件 | 中 | 高 | 低 | 推荐 | 可选 |
·数据集中存储方案
·备份与恢复解决方案
数据集中存储方案
针对高校图书馆信息化应用系统的存储需求,建议采用FC SAN+IP SAN的存储架构:
·将图书馆的图书馆管理系统数据库、各类外购商业软件数据库系统以及自建资源数据库等核心数据库应用通过FC SAN进行连接,实现高性能、高可用的存储
·同时将一些应用如门户网站、FTP等通过IP SAN进行连接,实现低成本、高效率的存储
整体架构从以下几方面综合设计,以满足业务连续性的要求:
·存储系统的高可用性:采用全球销量超过30万台、经过用户验证达到5个9可用的存储系统EMC CLARiiON CX4系列
·存储网络SAN的高可用性:采用双光纤交换机组成冗余SAN网络,配合主机上的双HBA卡和多路径管理软件(EMC PowerPath),实现数据访问通道的高可用
图书馆信息化系统集中存储结构图:
本次系统建设的最终目标是为高校图书馆提供一套具有国际先进水平的电子化图书馆信息平台,提供具有全球最新科技水平的SAN存储区域网络存储平台--EMC CX4,为高校图书馆未来的高速发展提供坚实的技术保障平台。
为保证服务器到SAN网络的全冗余性连接,每台服务器均配置2块4Gbps FC光纤通道卡,分别连接到SAN网络中的2台光纤通道交换机上,即使其中的一条链路发生故障,服务器仍然可以通过冗余的光纤链路访问磁盘阵列上的数据,从而达到系统的7*24小时不间断运行。
本次存储系统建设采用Open SAN体系结构搭建高校图书馆数据存储网络,在整个SAN网络中,所有设备之间的网络链接均采用全冗余链接,确保整个存储系统系统具有良好的链路冗余能力,为高校图书馆信息系统提供不间断运行的存储网络交换平台。
由于电子化图书馆中的数据绝大部分都是文本文件和图片及音视频资料文件,少部分数据是数据库数据,则在进行图书馆存储体统磁盘规划时,应充分考虑磁盘分级存储管理,提高了磁盘利用率,同时也为图书馆节省了大量的资金投入。
·将访问性能要求高的数据库文件保存在FC磁盘上
·将访问性能要求不高的文件类型的数据保存在SATA磁盘上
本方案具有以下特点:
*CLARiiON 99.999%的高可用性
CLARiiON结构提供最高的可用性。所有组件都实现全面冗余并可热交换。全光纤通道技术允许客户随时随地扩展其存储容量,可以在不关闭应用或者现有存储能力的情况下,添加其它驱动器或者驱动器架(DAE,磁盘阵列机箱)。
CLARiiON系统拥有各种先进的数据保护功能-全局热备用、全面冗余的组件、通向光纤通道磁盘驱动器的双重冗余路径、磁盘扇区嗅探校错技术(Sniffer)、断电高速缓存数据写入硬盘、端-端数据奇偶校验以及一致性操作环境所提供的其它独特功能,所有这一切都是CLARiiON享有盛名的原因所在。这种层次的数据保护应该是所有客户的要求,也是任何其它供应商所无法满足的。
中端存储配置发展很快,且变得日益复杂,这是因为较大的系统具有更多的驱动器,并且磁盘驱动器的密度越来越大。UltraPoint 是新一代的 CLARiiON 技术,随着客户将系统向新级别的扩展,它可确保CLARiiON继续提供最高级别的可靠性和可用性。
UltraPoint 技术将新的点对点光纤通道 DAE 设计与 FLARE 操作环境中新的故障检测和隔离功能结合在一起。UltraPoint 将后端故障探测和隔离的精确度具体到了单个驱动器的级别。这一技术将使 CLARiiON CX 系列能够:
·在单个磁盘驱动器级别执行故障检测和隔离操作,因此可以采取纠错措施
·在驱动器进入联机状态之前检验驱动器 — 在加电时,在更换驱动器时,以及在增加容量时
*一体式分层存储
使用 EMC CLARiiON存储系统,高校图书馆可以整合大量不同类型和业务价值级别的数据,通过选择满足特定需要的驱动器选项,实现在一个系统中提供多种性能/成本级别的灵活性。
| 存储层次 | 驱动器类型 | 适用环境 |
| 第1层 | 146GB、300GB、450GB 15kRPM光纤磁盘 | 并发访问量大的图书馆管理系统 |
| 第2层 | 400GB 10kRPM光纤磁盘 | 检索系统、经常访问的文件类型数据(如近期的电子期刊等) |
| 第3层 | 1TB 7200RPM SATA磁盘 | 图书馆文件类型数据文件(不经常访问的) |
| 第4层 | 1TB 5400RPM SATA磁盘 | 图书馆文件类型数据文件(长期保存,归档) |
CLARiiON网络存储提供PowerPath软件,它提供了连续的数据可用性,并针对主机环境实现性能优化。
PowerPath是一种常驻服务器的、性能和信息可用性增强路径管理解决方案。PowerPath面向开放式服务器平台集成了自动故障切换、动态负载均衡和信息存取优化能力。PowerPath采用后台工作方式,确保各种应用保持连续可用。PowerPath的自动故障切换和动态恢复特性允许在服务器和存储间数据路径发生故障时,将数据存取分散至备用数据路径中。这样应用程序就绝对不会因为适配器、电缆或通道控制器的单点故障而出现中断。
PowerPath运用自动负载均衡特性,对多条I/O流开展智能化管理,并通过在多条路径之间自动调整工作负荷的方式实现性能优化。这种特性确保不会出现某条路径负载过重,而其它路径带宽又没有得到充分利用的情形,避免I/O瓶颈的出现。
PowerPath确保图书馆关键业务数应用随时处于运行状态,赋予它们以最高可用性和最高性能,确保它们获得业界领先性能存储系统EMC Clariion的所有优势。
本方案推荐的产品包括:
·EMC CLARiiON CX4系列存储系统
·EMC Connectrix光纤交换机
·EMC PowerPath 软件
备份与恢复方案
作为数据访问量巨大的图书馆系统,无论是现在还是将来,数据和应用安全和可靠对于它来说都是第一重要的。
为此,在图书馆需求中把这些应用系统在提供服务方面分为三个级别:
第一级:要求接近零停机时间,如书目数据库以及多校使用的网络数据库,应采用热备的方式保证。
第二级:出现故障,恢复期可在1天的服务,如部分自建数据库以及使用量较小的数据库,数据备份应尽可能采用在线方式,至少要近线存储。
第三级:可忍受较长恢复期的应用,该类数据备份可采用近线或离线方式备份。
引起数据丢失的原因很多,备份系统解决的问题主要在:
·硬件故障造成的数据丢失
·应用程序/数据库损坏造成的数据丢失
·人为错误造成的数据丢失
·黑客攻击/病毒感染造成的数据丢失
·软硬件系统升级与维护前的数据备份
为避免以上问题造成的数据丢失,建议对图书馆的核心应用系统进行定期备份,并定期进行数据恢复验证测试,确保备份数据的可恢复性。需要备份的系统如下:
·数字化图书馆管理系统
·自建资源系统数据库及自建数据资源
建议采用EMC Networker集中备份管理软件,实现关键应用系统的在线备份;采用基于磁盘介质的备份设备,如利旧原有的磁盘阵列、新增一台SATA磁盘阵列或虚拟磁带库等,可以实现数据的快速恢复,并保证数据可恢复(相对于磁带备份设备)。
如果用户已经在使用基于物理磁带库的备份,则可以在现有的备份系统中加入虚拟磁带库,将最新的数据备份到虚拟带库中,将需要长期保存的历史备份迁移到物理带库上。这样不但可以提高备份系统的恢复速度,满足数据恢复的服务水平要求(SLA);还能够充分利用原有磁带设备,实现海量数据备份的近线/离线保存,满足降低总体拥有成本的要求。
备份方案的拓扑结构如下图所示:
按照上述结构部署备份方案之后,备份系统将具有如下突出特点:
·针对关键数据库系统,实现自动化、集中化备份作业管理
·如果出现前面提到的任何原因引起的数据丢失,可以恢复到前一个备份时间点(通常不超过一天)
·备份到磁盘(B2D)采用的备份设备(磁盘阵列或虚拟磁带库)提供RAID保护,确保数据可恢复,以及快速恢复响应速度
EMC 磁盘备份解决方案使您能够快速而可靠地备份,以满足当今关键的恢复时间要求。利用磁盘备份解决方案,您可以从总体上改进对图书馆的关键业务数据的保护。主要优点:
加快了备份和恢复 — 满足时间安排更紧的备份窗口的要求,并可以在需要的时间内(而不是几天)恢复关键应用程序
减少了备份窗口 — 最大限度地减少备份窗口以减少对应用程序和系统可用性的影响
减少了业务风险 — 使用内置的硬件冗余和 RAID 保护,快速而准确地恢复数据
提高了 IT 效率 — 节省大量用于备份/恢复管理工作的员工时间,大大提高用户生产效率
本方案推荐的产品包括:
·EMC Networker 备份管理软件
·EMC DL3D 1500 虚拟磁带库下载本文