摘要:分析存储系统的构成要素,从传输速度、安全性、兼容性、易用性和可管理性、经济性5方面探讨高校图书馆数字馆藏存储系统质量评价的影响因 素。 关键词:数字馆藏;存储系统;评价指标;影响因素
中图分类号:G250 文献标识码:A 文章编号:1671—7597(2012)0120151—02
随着数字资源数量、规模的不断扩大,对数据存储系统也提出了更高
的要求,传统的存储模式已经不能满足日益增长的存储需求,同时,保存
系统的性能严重影响到数字资源的安全,一旦由于自然灾害或者其他病毒
或者人为因素等原因造成系统瘫痪,那么就可能导致全部数字资源的破坏
或丢失,影响图书馆的全部工作。能够快速安全保存数字资源是图书馆进
行信息资源建设的基本要求,是数字馆藏存在和发展的根本前提,因此,
科学正确地评价数字资源存储系统是有效利用数字馆藏的根本保证。
1存储系统的构成
存储系统是指计算机中由存放程序和数据的各种存储设备、控制部件
及管理信息调度的硬件和软件所组成的系统。通常一个完整的数字存储系
统应包含下列四部分:1)存储数字资源的物理设备,如服务器、磁盘阵
列、光盘库和相关的交换和网络设备等;2)用来管理被存储的数字资源
和有关系统设备的软件;3)符合数字保存系统要求的物理环境,如馆
舍、防静电、防尘和防潮等;4)数字资源长期安全保存的规章、条例,
以及防灾应对措施等。
另外,广义地说,还应有一定的组织机构和具有数字保存系统管理技
能和经验的人员。
数字资源存储系统的基本价值在于维持数字资源的质量,提供值得用
户信任的数字资源存取能力。对于图书馆而言,存储系统规划的主要目的
是通过设计一个高效率的存储基础架构来整合数字资源、优化存储管理以
降低成本和管理的复杂性、解决数据增长和资源利用等问题,同时有效地
保证即使在发生故障时仍能保持数据的一致性和业务的连续性。图书馆存
储系统的主要功能是实现对加工后的元数据库、对象数据库的存储和管
理。存储技术和存储设备是构成存储系统的重要组成部分。
1.1 存储技术。数字馆藏的存储要求需要高可靠性、高可用性、高性
能、动态可扩展性、易管理与维护性以及开放性等,这无疑对存储技术提
出了挑战。存储技术决定了系统的灵活性和扩展性,选择高质量、高容量
的信息存储管理系统在数字馆藏的建设中非常重要。目前现有的主流存储
技术主要有四种:DAS、NAS、SAN和网格存储。
1.1.1 DAS(直接存储)。直接附连存储是传统的主要连接方式,它
是将磁盘存储设备直接通过电缆连接到服务器的方式。这种连接方式主要
应用于单机或者两台主机的集群环境中,优点是:服务器能对数据统一管
理,具有较好的管理性和安全性;使所有连接的用户数据共享;对网络带
宽要求不高;成本低。缺点是:服务器不可避免地成为网络瓶颈;服务器
一旦发生故障,存储进程立即终止,数据共享也立即停止;系统扩展能力
有限,因此无法适用于较大范围的网络化。
1.1.2 NAS(网络附加存储)。NAS是以网络为中心,利用现有的以太
网网络资源来接入专用的网络存储设备,提高现有网络的使用率,保护了
用户的投资,具备主机无关性。它的优点是:具有更快的响应速度和数据
带宽;对服务器的要求降低;同时网络用户可以适用不同的操作系统和存
储设备进行通信;安全性、可用性较好,易升级与维护;成本较低。缺点
是:占用网络带宽较大;可扩展性受到限制,即虽在网络中可随意增加
NAS附属设备,但与原来的NAS附属设备不能集成为一体;它虽然解决了网
络环境下包括远程环境异构文件的共享,但其并未能够彻底解决集中数据
的要求。
1.1.3 SAN(存储区域网络)。SAN是指独立于异构计算机网络系统之
外的可以拥有海量存储容量的高速网络,它通过具有高传输速率的光纤通
道连接到一群计算机上,将数据存储管理集中在相对独立的存储区域网
内。SAN提供了良好的存储链接,服务器可以访问存储区域网上的任何存
储设备,同时存储设备之间、存储设备同SAN交换机之间也可以进行通
信,它使存储和服务器分开成为现实。它的优点是:传输速度高,传输距
离远;可连接节点多,且链接方式多样;有很好的数据迁移性和可扩展
性,新的存储设备可随意动态地加入到存储池中;具有更高的适应性、可
用性和可管理性。缺点是:结构复杂;缺乏统一标准;各种设备之间可能
存在兼容性问题;价格较高。
1.1.4 网格存储。网格存储是网格技术的主要组成部分,它以节点为
基础,可以在多重节点上进行内容管理和存储,也可以在存储环境的多重
节点进行数据转移与传输。它采用分布式结构化的P2P体系结构,每台计
算机既是客户机也是服务器,系统规模扩大和缩小非常方便,性能不受影
响。由于采用网格存储,存储的物理层和逻辑层是分离的,使数据移动不
依赖于主机和应用,实现存储数据的动态转移。它整合了SAN和NAS的优
点,并结合网络计算技术、虚拟化技术、智能存储技术和开放性标准,不
仅能满足大容量、网络化、容错性和高效性这么存储要求,还能满足非集
中控制、透明访问、异构性、协调性等特殊存储要求。
通过比较,我们可以得出一般性结论:虽然四种技术的特点、适用环
境、技术参数等都不相同,但绝无优劣之分。DAS和NAS除了在性能方面略 差于SAN和网格技术,但是也具有技术成熟和成本低的优势。由于经费的
原因,目前大多使用的还是DAS和NAS。相信随着价格的不断下降和标准的
完全统一,SAN和网格将成为更多图书馆的选择。总而言之,数字资源的
存储技术的选择应考虑以下几点:需求分析、安全性、可扩展性、可管理
性、总体拥有成本等。
1.2 存储设备。存储设备是数字资源保存的实体或记录信息的材料,
数字资源的保存质量与其承载的依附设备密切相关。海量数字资源需要采
用高密度、大容量的存储设备,目前高校存储数据单位已经开始由TB向
PB(1GB乘1024的2次方)迈进,磁盘存储已经将成为高校数据存储的主要
承载方式。目前磁盘输出入界面主要有三种:IDE(Integrated Drive
Electronics电子集成驱动器)、SCSI(Small Computer Standard
Interface小型计算机系统接口)和光纤通道。硬盘接口是硬盘与主机系
统间的连接部件,作用是在硬盘缓存和主机内存之间传输数据。不同的硬
盘接口决定着硬盘与计算机之间的连接速度,在整个系统中,硬盘接口的
优劣直接影响着程序运行快慢和系统性能好坏。IDE接口有两大优点:易
于使用与价格低廉,问世后成为最普及的磁盘接口。但是随着CPU速度的
增快以及应用软件与环境的日趋复杂,IDE传输速度低、错误检验技术的
不完善、接口速度的可升级性差等局限性也就日益显现出来。SCSI接口具
有应用范围广、多任务、带宽大、CPU占用率低等优点,但同时价格也很
高,主要应用于中高端服务器。在三种接口中,光纤通道的传输速度最
快,它的主要特性有:高速带宽、远程连接、链接设备数量大等。它是为
在像服务器这样的多硬盘系统环境而设计的,能满足高端工作站、服务
器、海量存储子网络、外设间通过集线器、交换机和点对点连接进行双
向、串行数据通讯等系统对高数据传输率的要求。
网络数据存储备份的设备主要有磁带库、光盘库、光盘塔、磁盘阵列
等,其中磁带库主要用于数据存储备份,光盘库、光盘塔主要用于数据访
问,而目前数字图书馆中数字资源的主要存储设备是磁盘阵列。磁盘阵列
简称RAID,其原理是利用数组方式由很多便宜、容量较小、稳定性较高、
速度较慢磁盘,组合成一个大型的磁盘组,配合数据分散排列的设计,提
升数据的安全性和整个磁盘系统的效能,主要针对硬盘,在容量及速度
上,无法跟上CPU及内存的发展,提出改善方法。RAID的采用为存储系统
带来巨大利益,其中提高传输速率和提供容错功能是最大的优点。
2 存储系统质量评价影响因素
数字资源存储系统质量关系到数字信息保存的质量,关系到为用户提
供数字资源的长期存取,也是整个数字馆藏质量的一个重要部分。随着数
字资源的数量、种类不断丰富,各个图书馆都逐步积累了相当规模的数字
馆藏,数字资源的存储也日益面临困境。以服务器为中心的磁盘阵列的存
储架构都受到容量、扩充能力和响应速度的限制;长期以来分散在各服务
器上的数字资源不易统一管理,共享性差,缺乏有效的备份和容灾机制,
存在隐患;另外异构系统的兼容性、网络的传输速度以及系统的稳定性、
高度的开放性等一系列问题都影响着数字资源的存储。因此,科学分析影
响数字资源存储的相关因素,促进存储系统各要素之间相互协调、相互配
合,建立行之有效的数字资源存储系统,发挥数字信息资源的最大存储效
能,对于数字馆藏的保存、使用乃至整个图书馆的工作都有重要的意义。
2.1 传输速度。从数字资源存储系统本身来说,系统性能是最主要的
影响因素,而基于用户服务的角度,传输速度极大影响着存储系统的性
能。数字馆藏的特点之一就是资源网络共享性,每天要接受数以万计的用
户频繁的访问请求,这对数据传输速度提出了很高的要求。通常传输速度
的重要指标主要是响应时间和吞吐率,一般取决于服务器的性能。响应时
间是服务器处理一个请求所需的时间,吞吐率是服务器在单位时间内完成
的任务数,是对一个系统和它的部件处理传输数据请求能力的总体评价,
这些数值应该处于服务器能够处理的负荷范围之内(包括高峰期),因
此,我们一般从下面几个因素衡量服务器的性能:平均每秒响应次数、运
行速度、硬盘和内存空间、容错能力、扩展能力、系统的稳定性和可靠性
以及安全性和可维护性等。
2.2 安全性。安全性是数字馆藏的生命。与传统馆藏比起来,数字馆
藏更加容易受到安全性问题的威胁。大量的数据传输、存储和数据交换,
就有可能产生数据故障;另外,人为操作失误、计算机病毒、硬件故障、
断电、磁场、网络“黑客”入侵等原因也会引发数据丢失,相当于传统馆
藏遭遇大火或地震,可能顷刻之间化为乌有。数字馆藏一旦被破坏,将造
成无法挽回的巨大损失,因此确保存储系统的安全性,进而保证数字资源
的安全,需要引起高度的重视。
保证数字资源存储系统的安全,除了制定相应的制度,加强安全管理
之外,我们还可以从以下几方面着手:首先在硬件上,我们要本按照先进
性、实用性和节约型的原则,尽量选择具有超大容量和良好扩展性的存储
设备;专人对硬件设备进行维护;对系统长期进行流量监测等,尽力避免
由于硬件设备造成存储系统的安全问题。其次在软件上,不能选择来历不
明的软件,既要了解软件的功能和用途,也要了解软件的来源;要经常升 级减少系统漏洞;同时保持服务系统的随时更新,不断地打补丁;尽量使
用设计优良的架构网络,选择合适的RAID级别,电源、光纤通道等。第三
要加强安全技术手段,常采用的技术如反病毒技术、防火墙技术、VPM
(虚拟专用网络)技术、加密技术等等。第四,要维护系统和数据的安
全,最简单的方法就是对数据进行备份。选择双机热备份系统、双硬盘备
份服务器或者磁盘整列和双机容错系统,应用系统的日志恢复功能,定期
利用刻录设备进行完全备份,并且在系统出现故障时,使存储系统设置冗
余配备,保证能及时启动备用系统,及时恢复系统数据。
2.3 兼容性。存储系统的兼容性是指存储系统各组成要素之间、各个
存储系统之间以及存储系统与环境之间可以共享信息处理结果一种特性,
它是衡量存储系统的基本指标。科学技术的发展为系统兼容性的实现提供
了可能和条件,而另一方面又由于兼容性问题可能造成存储系统利用新技
术的障碍,因此解决兼容性问题是存储系统研究的重要方面。存储系统的
兼容可以有物理兼容、格式兼容、结构兼容、功能兼容等,具体包括存储
设备间的兼容,系统与网络、检索系统、操作系统、服务器以及应用软件
的兼容等。兼容性好的存储系统可以较大程度地减少系统运行的内耗,并
且应对未来应用的变化能够方便地升级和扩展,降低运行管理成本。
2.4 易用性和可管理性。长期以来,数字资源分散存储在多个独立的
服务器,应用于多个操作系统,且存储系统结构复杂,这给数字资源的使
用和管理带来了难度,再加上由于存储系统的管理和维护要求管理人员具
备较高的素质,容易出现人为原因造成的管理不善、数据丢失,所以使存
储系统具备良好的易用性和可管理性,操作和维护管理简单,易于控制,
才能更好的发挥系统的功能,满足对数字信息的使用要求。传统的存储管
理常以设备和平台为中心,面向硬件的管理,但随着存储系统的不断发
展,物理存储设备将处于次要地位,使用软件进行管理将成为提高系统易
用性和可管理性的主要途径。存储管理软件是对存储网络进行管理,能够
与网络管理软件进行协同工作。存储管理贯穿于存储系统的各个方面:数
据共享、无缝扩展、实时备份、容错技术、系统监控、流量控制、远程数
据备份、灾难恢复等都可以使用相应的软件进行保障,从而实现存储系统
的自动化管理,提高存储效率,节省了大量的人力、物力和财力。
2.5 经济性。它是指以较低的整体拥有成本获得较高的效益。整体拥
有成本包括:购置、使用、管理、维护及以后的扩展成本等。经济性指标
贯穿于整个数字馆藏评价的过程,急剧增长的数据量,数据对业务重要性
的增加,存储网络的日益复杂以及维护管理的加强和系统的不断升级扩
展,都不可避免地导致存储成本的增长,而图书馆预算紧张的实际情况也
客观存在,对于数字馆藏的存储系统,图书馆不仅要评估它的技术性能指
标,还要评估它的经济指标,因此构建一种经济性的数字信息存储系统,
能够提高成本效益,为优化数据操作提供最有效的方法,对高校图书馆具
有十分重要的意义。传统的单纯性添加存储设备的办法只会带来更高的成
本和管理的复杂性,要满足新的信息环境的需要,存储系统必须从架构、
理念,到解决方案等方面进行经济性创新、整合与改革。
首先,必须建立更加灵敏的存储基础设施,在设计和架构存储系统
时,要更加注重系统的安全性和兼容性,考虑其性能、使用期限、升级扩
展等一系列经济因素,同时提高系统管理人员的工作效率,以较经济的方
式在满足存储数据、服务用户需要的同时,降低成本增加存储数据的投资
回报,进行高效管理。其次,要进一步提高系统性能,增强存储系统的效
率和生产力,降低总体拥有成本,增加原有存储系统投资回报,同时为扩
展设施提供支持。另外,我们要采用更合理的可持续的存储手段和方法,
目前分层存储架构对数字资源进行分层化和虚拟化存储是提高存储经济性
的有效途径。把高频率访问的数据放在高速存储介质上,而其他的数据放
在速度较慢一些的介质上,这实际上就是提高了系统的吞吐量,同时为异
构存储环境实施虚拟化,帮助图书馆通过一个单一的接口,管理异构的多
种存储设备,并延长其使用寿命,简化管理,降低成本,使得图书馆不用
再以一种分散的方式采购、管理和配置存储,并实现峰值容量,显著提高
存储利用率。
3 结语
高校图书馆数字馆藏存储系统是一个将数字资源、存储技术、存储设
备以及用户需求等多种要素集于一体的复杂的综合系统,影响其质量的因
素涉及众多,希望通过本文的探讨可以给高校图书馆数字馆藏存储系统的
质量评价指标的建立给予参考和借鉴。