欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

数据云存储方案优选九篇

时间:2022-05-07 18:37:46

数据云存储方案

数据云存储方案第1篇

关键词:云计算 MCSERS 云存储 数据安全 冗余分割

中图分类号:R197.39 文献标识码:A 文章编号:1007-9416(2013)12-0196-03

云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备[1-3]。在云计算模式中,用户的大量数据处理计算业务都存储在在云端服务器上,以利于移动办公、保持数据一致性,及更好地享用云计算平台的其他服务。一个通用的、模块化的云存储方案MCSERS(Modular Cloud Storage with Encryption and Redundancy Splitting)[4]将多个运营商提供的云存储组件连接成一个云存储域服务于用户,即使用公有云的技术构建用户自己的私有存储云,以保证用户的云端数据的相对独立性。

用户数据需要拥有完整性,可用性以及机密性来保障用户的隐私。在MCSERS中,数据的安全性要通过加密和数据冗余分割技术来保证。数据冗余分割技术允许将一个数据整体分割成不同分片,存储在不同位置,以此提高数据的安全性。然而,数据冗余分割算法的选择及其参数的调整,将对方案中数据处理的速度,数据分片存储效率,以及数据分片的安全性产生影响。本文利用仿真实验对三种冗余分割算法—EC抹除码[5]、Shamir基于拉格朗日的秘密共享算法[6]、基于位异或的(k,L,n)秘密共享算法[7]—的性能分别进行测试,测试三种算法数据分片分割和重组过程的速度,以及最后生成的分片的存储空间的差别,从中选择最优方案。最后通过比较加密前后数据冗余分割结果分析如何更好提高数据安全性。

数据安全量化通过明文敏感性来进行。明文敏感性指在其它参数不变的情况下,使用相同算法对同一个明文数据进行前后两次数据冗余分割,而前后两次的数据明文只变化一个比特,其生成分片所产生的变化。分片变化比特的总数占分片比特总数的百分比,即为明文敏感性=(分片变化比特总和/分片比特总和)。敏感度越高,则安全性越好。

1 三种冗余分割算法简介

1.1 EC抹除码介绍

应用Reed-Solomon提出的抹除码(EC,Erasure Coding)技术(下文简称RS-EC)[5]能够令数据块分散存储在全球不同的存储位置n,并且恢复时只需要其中的一个大小为k的子集,即能够实现(k,n)门限数据冗余和恢复。

假设RS-EC的参数为(k,n),其中k指门限阈值,是恢复原数据的最小集合的大小;n指最后生成数据的份数。RS-EC由用户数据直接切割成k份分片,并产生n-k份的校验数据。其中包括分割与校验位数据在内的任意k份数据组合,都能恢复出原用户数据。

1.2 Shamir秘密共享算法

Shamir的秘密共享算法方案基于拉格朗日插值原理,并在高斯域G(P)中进行运算[6]。其目的是在一个用户群体中共享密钥;方案将密钥分割成n份密钥分片并发送给n个不同用户,只需要其中k个用户同时贡献自己的密钥分片就能恢复原密钥;少于k个用户无法恢复原密钥。其中k为算法的门限阈值,n大于等于k。即如果当n个参与者中任意小于k个参与者的集合都无法恢复出原数据或者泄露原密钥的任何信息,则称这样的秘密共享算法是完美的(perfect);而如果秘密共享算法在满足完美的条件下,还能满足每个密钥分片的长度都与原密钥的长度一致,那么则称这样的秘密共享算法是理想的(ideal)[8,9]。Shamir算法就是理想的秘密共享算法,

一种完美的秘密共享算法能保证密钥分片具有高强度的安全性,当一个攻击者窃取了k-1块的密钥分片,他想要恢复出原密钥的难度,其实和没有这k-1块分片时的难度是一致的,都需要进行穷举猜测原来的密钥。而至于理想的秘密共享算法,则能在保证安全性的前提下,提高算法存储效率。完美的理想秘密共享算法所能产生的最小秘密分片的长度为原数据的长度;否则必然会在一定程度上对信息产生泄露[8]。

1.3 基于位异或的(k,L,n)秘密共享算法

Shamir的秘密共享算法方案受限于拉格朗日插值运算的复杂,导致运算速度效率低下。针对此弊端,Kurihara等提出了基于位异或运算的(k,n)门限秘密共享算法,在运算速度上有大幅度提升[10]。而且方案也属于理想的秘密共享算法,其秘密安全性得到保障。但(k,n)处理一份秘密时,需要生成k-1份随机数用于生成运算;最终的n份秘密分片长度总和为原秘密的n倍,扩张严重,导致了存储秘密分片时存储负担过重。

为了提高秘密分片的存储效率,Kurihara等引入Ramp机制将原来的(k,n)门限算法扩展成为(k,L,n)的门限秘密共享算法[7],提高每个秘密份额的单位信息量。(k,L,n)门限算法的一次操作中将一份秘密等分切割成L块,并相应生成(k-L)份随机块作为初始运算数据。最后生成的每份秘密分片长度都为数据块的长度,即原秘密的(1/L)。然而(k,L,n)门限算法的运算性能与安全性之间存在着此消彼长的关系,也即Ramp机制牺牲了一定的安全性而换取运算速度和存储效率的提升。

2 数据冗余分割算法的性能比较

为了比较三种冗余分割算法性能,设置了以下实验进行测试。实验设置门限参数(k,n)等于(4,7),单次操作的数据长度为32比特。其中位异或的(k,L,n)秘密共享算法中参数L由1取到k=4,进行多次实验;L的变化影响着运行速度和存储效率。实验的结果如表1所示,其中存储分片扩张指n个分片长度的总和与原数据的长度的比率(分片长度*n/原数据长度)。

本实验进行的环境为Intel 2.1GHz酷睿双核CPU,2G内存,32为XP操作系统,VisualStudio2005开发工具。本实验的数据对象为10M大小文本文件,测试5次求平均值。下文如若没有特殊提示,将保持同样的实验环境。

由表1可见,RS-EC抹除码的速度最快,存储效率也最高,但单独的RS-EC抹除码编码由于没有随机数参与运算,因此敏感性很低,不利于数据的信息隐藏。基于位异或的扩展(k,L,n)算法能够随着L的调节而产生不同的安全等级;当L=1时,理论上扩展的秘密共享算法是理想的,而实验证明了其敏感性也是接近50%,是最为理想的情况,实验与理论相符;当L逐渐增大,参与运算的随机数下降,则明文敏感性逐渐下降。Shamir的秘密共享算法由于存储效率较低,运算速度较慢,对二进制的支持不良好,无法满足快速数据冗余分割的需求,被位异或运算取代是合乎常理的事。

3 位异或秘密共享算法的安全性能分析

基于位异或的秘密共享算法引入Ramp机制后,以牺牲部分安全性为代价,提高运算速度和存储效率。这种安全性表现为不足k(门限阈值)的分片集合也会出现部分信息的泄露。为了弥补基于位异或的秘密共享算法敏感性的不足,本论文提出对数据进行AES加密之后,再实行数据冗余分割。在实验中,数据分片的明文敏感性的强弱体现了信息隐藏混淆的能力,反映算法的安全性。

以下研究单独的基于位异或的秘密共享算法,以及结合了AES加密的秘密共享算法以后的明文敏感性、运算速度、存储效率的差别。在参数L由k变化到1时,单独的位异或秘密共享算法敏感性上升,但这是以牺牲存储效率和速度为代价的;而结合了AES加密的结合算法也同样能弥补敏感性。本实验目的是对比两种提高明文敏感性的方法效率的高低。具体的实验数据下述表格2和3所示:

由上述的两个表格(表2、表3)可以看出,随着L的变大,两种方案的敏感性都逐渐下降,而存储效率和处理速度都在上升。从实验的角度验证了位异或算法在效率和安全性之间此消彼长的关系。同时,通过对比试验可以发现,添加了AES的处理的结合方案在提高明文敏感性中所付出的存储空间和运算速度的代价,要比单独的秘密共享方案调节Ramp参数L下需要付出的代价要小。在试验中可以看出,以L=4为参数的的单独的位异或秘密共享算法的明文敏感性为0.26%。为了提高明文敏感性到接近50%的水平,可以使用调节Ramp参数或者添加AES预处理的两种方法:使用参数调节方法,将L调节为2,使明文敏感性达到49.83%的水平,相对于L=4时付出了多(3.5-1.75=1.75)倍的存储空间和((2.8541-0.9914)/0.9914= 1.88)倍分割时间、((1.2716-1.0532)/1.0532=0.21)倍恢复时间;而使用添加AES预处理的方法,L=4时,明文敏感性已经达到48.74%,而存储空间不变,但分割时间增长了((2.1476-0.9914)/0.9914=1.17)倍,恢复时间增长了((1.9558-1.0532)/1.0532=0.85)倍。可见,添加AES预处理的方案能更有效率地提高算法的明文敏感性。结合方案即使是在L=k时,没有随机数参与数据冗余分割,也能维持数据分片的高明文敏感性。

4 结语

本文对MCSERS云存储方案中使用到的数据冗余分割算法进行定量研究,分析其不同方案的选择效率和安全性的区别、针对位异或秘密共享算法参数调节所带来的安全性和处理性能之间关系的研究,以及研究分析了AES加密所带来的对数据安全性的提升效果要比调节参数L所带来的提升要更加明显。

参考文献

[1]Armbrust M,Fox A,Griffith R,et al.,A view of cloud computing [J].Communications of the ACM,2010,53(4):50-58.

[2]Lenk A,Klems M, Nimis J,et al.,What's inside the Cloud? An architectural map of the Cloud landscape[C].// Proc.2009 ICSE Workshop on Software Engineering Challenges of Cloud Computing.2009.Washington DC,USA:IEEE Computer Society, 2009,23-31.

[3]Ma Wenqing,Zhang Jing,The survey and research on application of cloud computing[C].// 7th International Conference on Computer Science & Education (ICCSE).Melbourne,Australia:IEEE Computer Society,2012,203-206.

[4]郑洪英,王博,陈剑勇. 实现加密和分割的数据云存储方案 [J].深圳信息职业技术学院学报,已投稿.

[5]Stephen BW,Error control systems for digital communication and storage[M]. Prentice Hall,1995.

[6]Shamir A,How to share a secret[J].Communications of ACM,1979,22: 612-613.

[7]Kurihara J,Kiyomoto S,et al.,A Fast (k,L,n)-Threshold Ramp Secret Sharing Scheme[J].IEICE Transactions on Fundamentals of Electronics Communications and Computer Sciences,2009,E92-A(8):1808-1821.

[8]Bai LA,Strong Ramp Secret Sharing Scheme Using Matrix Projection [C]// International Symposium on a World of Wireless, Mobile and Multimedia Networks, 2006(WoWMoM 2006).New York city,USA:IEEE Computer Society,2006,652-656.

数据云存储方案第2篇

中图分类号: TP309.7 文献标志码:A

0引言

用户可撤销系统云存储数据的审计问题是云存储数据审计的现实难题。

一开始人们发现将数据存储在云上,用户可以从本地数据存储和维护开销中解放出来享受极大便利;但是外包数据却面临到许多安全挑战[1-4],因此,一系列各种要求在不泄露完整数据知识的前提下确保远端存储数据完整性的审计方案被提出。例如:Juels等[5]提出了一种证据可恢复的POR数据可取回证明(Proofs of Retrievability, POR)审计方案;Ateniese等[6]提出了一种名为PDP数据可证明持有性(Provable Data Possession, PDP)请补充POR和PDP的中文名称和英文全称。的数据持有性证明审计方案;Shacham等[7]利用短签名构造了有效的POR公开审计方案。但是这些方案不考虑用户数据的隐私保护,事实上,用户的数据可能被泄露给一些好奇的敌手,这些缺点将极大地影响这些方案在云计算中的安全性。从保护数据隐私的角度出发,用户可以委托第三方审计者(Third Party Auditor, TPA)来保证他们存储数据的安全,同时他们也不希望这个审计过程由于未经授权的信息泄漏对他们的数据安全造成新的威胁。未授权的数据泄露仍然在于潜在的加密密钥暴露的潜在风险。2009年,Wang等[8]提出了一项保护隐私的云存储数据公开审计方案,方案依托同态认证技术和随机模化技术完成了隐私保护公开认证,并利用双线对标签聚合技术实现了批处理。

自Wang等[8-10]与Zhu等[11]提出了一系列经典的具有保护隐私功能的云存储数据公开审计方案后。人们很快注意到之前几乎所有的审计方案都是固定用户在计算云存储数据的完整性验证标签,即这些审计方案,要求在整个数据管理周期使用云存储服务的都必须是同一个用户。这是因为,云存储服务中数据的完整性验证标签是由用户用自己的私钥签名生成,然后在公共审计过程利用公开信息进行验证。这样的云存储数据审计模式在真实情况下是不现实的。一方面,在一个审计系统中经过一段时间用户的公钥可能更新;另一方面,用户可能只是一个公司的数据管理者,他可能因为各种原因而离职,例如因为高薪而跳槽。因此,出于现实考虑,一个云存储数据审计方案应该支持有效的用户撤销。

Wang等[12]首先引入了共享云存储审计问题,提出了一个基于群签名的用户可撤销的自我审计方案,以及一些基于动态广播重签名方案和双向签名的共享云用户可撤销公开审计方案[13-14]。随后Yuan等[15]使用了一个类似的群签名技术提出了一个公开方案版本。由于都涉及到群签名和广播加密技术,以上的动态可撤销审计方案的效率都不满足实际需求。

2015年Wang等[16]提出了一个高效的用户可撤销公开审计方案Panda。此方案借助重签名技术,将不同用户的数据块签名转换为当前用户签名形式,从而很好地满足了用户动态可撤销系统的云存储数据审计需求,是此类问题当前的最优解决方案,但是文献[16]的方案局限性中,提到云服务器与已撤销用户合谋可能会造成用户私钥的泄露,并在文献[16]中明确提出在下一步工作中希望通过一个多层的重签名方案来解决这个问题。

基于文献[16]的构思,本文提出了一个单向的重签名方案,修改密钥的计算是通过对撤销用户的公钥进行处理得到,不存在私钥泄露的风险。另外本文的用户可撤销云存储数据审计方案支持第三方公共审计,能够更好地支持对云存储数据的日常例行审计工作。最后效率分析与比较表明,方案在通信开销与计算复杂度方面更具有优势。

1基本模型

正文内容基于重签名的用户可撤销云存储数据公共审计方案如图1所示,支持用户可撤销的云存储数据公共审计方案与上述基本云存储审计方案有很大不同,其方案主实体涉及到多个用户。从现实考虑,数据属于公司,而非数据管理者。在某一个时期通常只有一用户对存储数据进行管理;但是某一段时期内却可能有多个用户对存储数据进行管理。即,一段时间后当前用户可能不再适合管理存储在云上的数据,他可能被别一个新的管理者替换。

本文假设,最开始有一个用户代表公司和组织将数据上传到云服务器,这个初始用户可以记作U0,然后公司雇佣数据管理者,显然数据管理者不是终身制的。在一个数据管理者离职前他需要向新的数据管理者移交数据,继承者需要对这些数据进行审计确认,他的前任尽职地完成了他的数据管理工作。假定,将数据存储在云上的数据存储模式是简单而有效的,公司和组织每一个时期只需要一个数据管理者就能很好地完成数据管理任务。按照时间先后对除U0以外的数据管理者排序为U1,U2,…,Um,m为正整数。相应地对应外包存储在云上的数据按照不同管理者的任期被划分为T1,T2,…,Tm周期。在这里,显然每一个用户只有在周期结束时才会向继任者移交数据。(注:对于第一个用户周期来说,用户U1可能就是初始用户U0;但是也可以委托一个新的用户U1来完成数据管理工作,在文中统一分开记录。)

初始用户U0首先将整个数据文件分成n个数据块,并用自己的私钥计算相应的数据存储标签σ,然后他将所有数据和标签都上传到云服务器以完成数据的最初上传。用户U1在T1期间内进行数据管理,并在T1周期结束时被U2所取代,U2也将被U3取代,一直到Uj取代Uj-1, j∈{0,1,…,m}。Uj为当前数据管理者。因为标签和用户相关,一旦用户撤销了,标签也应该作相应的修改。一个直接的方法就是使用当前用户的私钥重新计算这些数据块的标签。然而,这并不是一个可撤销的云存储审计系统,因为这样将带来沉重的通信和计算负担。一个比较理想的方法就是使用重签名技术,将所有存储在云服务器上的数据标签转换成当前用户签名的模式。

最终对于当前用户来说,云服务器上存储的数据mi的标签σ最后都会转化为σ(j)i。考虑到云用户构建一个进行数据无误性检验的云环境是不可行和代价高昂的,因此为了节省进行存储数据周期无误性验证的通信资源,减少在线负担,云用户可以委托第三方审计者(TPA)来执行安全审计任务,因为他是经济并且可以自动运行的;但是,云用户同时希望对TPA保持数据的隐私性。为了方便区分,本文用σ(j)i表示用户Uj用自身的私钥对mi签名生成的数据验证标签。

2基本知识

2.1双线性映射

G1、G2、GT是阶为素数p的循环群,g1是群G1的生成元,g2是群G2的生成元。双线性映射e:G1×G2 GT,满足如下的性质:

1)双线性性。给定元素u∈G1,v∈G2,对任意a,b∈Zp有e(ua,vb)=e(u,v)ab。

2)非退化性。e(g1,g2)≠1。

3)可计算性。存在一个有效的算法,对任何可能的输入都能有效地进行计算e。

4)可交换性。e(u1?u2,v)=e(u1,v)?e(u2,v)。

2.2困难性假设

Computational DiffieHellman(CDH)假设群G是一个阶为素数p的循环群,g是群的生成元,给定两个随机元素ga,gb∈G,输出gab是困难的。

Discrete Logarithm (DL)假设群G是一个阶为素数p的循环群,g是群的生成元,给定一个随机元素gc∈G,输出c是困难的。

2.3重签名算法

为了实现前面基本模型中所描述的支持用户动态可撤销的这一功能,并能持续地保证云服务器上存储数据的完整性,基于文献[17]中的重签名算法,作出了进一步的改进。通过当前用户私钥结合已撤销用户公钥生成新的重签名密钥来保证即使云服务器与已撤销用户合谋也无法影响数据的安全性。新的重签名算法和步骤与文献[17]相似,其中最重要的签名步骤如下。

3支持用户可撤销的云存储数据公共审计方案

3.1Panda方案的问题

下面描述Panda中重签名方案实现签名转移的主体部分。

1)在签名算法Sign中,给定私钥skA=a,数据块m∈Zp身份id,用户uA输出基于数据块m的标签:σ=(H(id)ωm)a∈G1。

2)在修改密钥生成算法ReKey中,通过以下步骤生成一个重签名密钥rkA B:

a)生成一个随机的r∈Zp,并将它发送给用户uA;

b)用户uA计算并发送r/a给用户uB,其中skA=a;

c)用户uB计算并发rb/a给,其中skB=b;

d)恢复出重签名密钥rkA B=b/a∈Zp。

3)在重签名算法中,收到重签名密钥rkA B,后执行重名:

σ′=σrkA B=(H(id)ωm)a?b/a=(H(id)ωm)b。

4)在验证算法Verify中,用户uB通过验证公式:

e(σ′,g)=e(H(id)ωm,pkB)

对数据的完整性进行验证。

从上述过程中,清晰可见重签名密钥rkA B的生成,是基于用户uA与uB之间的私钥传递。虽然在这个过程中生成了一个密钥参数r∈Zp来对传递过程中的私钥进行保护,但是如果恶意云服务器()与已撤销用户uA合谋可以轻易计算出当前审计用户uB的私钥b,因此方案存在用户私钥泄露的风险。

3.2本文方案

在本节提出支持用户可撤销的云存储数据公共审计方案,该方案是基于2.3节的单向重签名技术构造的,如图1所示。方案中定义了一个半可信的第三方审计者(TPA),它将忠实地执行数据完整性的审计,由于它是好奇的,它可能会借助强大的计算设备从验证信息中通过解线性方程组恢复原始数据块信息,因此在方案中采用了随机掩饰码技术解决了这一问题。

4方案证明

4.1方案的正确性

4.2安全性分析

下面首先证明该方案能够抵抗恶意云服务器通过产生伪造的审计证明响应信息来欺骗TPA的审计验证过程。

定理1恶意的云服务器产生伪造的审计证明响应信息Proof来欺骗TPA的审计验证过程在计算上是不可行的。

证明假设存在恶意的云服务器(多项式时间敌手A)以不可忽略的概率ξ产生伪造的审计证明响应信息来欺骗TPA的审计验证过程。下面设置多项式时间算法(挑战者B)通过运行敌手A作为子程序也以不可忽略的概率ξ解决CDH困难性问题。算法B与对手A的信息交互如下。

私钥泄露问题根据上面定理1的证明过程,可以轻易发现即使云服务器与已撤销用户合谋,云服务器也不能够获取当前用户的私钥。这是因为方案中修改密钥的计算是当前用户利用自身的私钥通过对已撤销用户的公钥进行处理得到:ukj j+1=gxj/xj+1。如果云服务与已撤销用户想通过合谋获取当前用户私钥,就必须先以不可忽略的概率解决DL问题,再通过已撤销用户的私钥计算出当前用户私钥。而文献[16]中ukj j+1=xj+1/xj,如果云服务与已撤销用户合谋,那么云服务器很容易就能获取当前用户私钥。

在下面证明方案满足隐私保护性,即定理2。

定理2给定一个来自云服务器的审计证明响应信息Proof,对于好奇的TPA,它试图从中恢复用户数据文件,F={m1,m2,…,mn}中的数据块是不可行的。

证明组合信息μ′=∑i∈Qvimi是关于用户原始数据块的线性组合,一旦这个组合信息发送给TPA,这个好奇的TPA可以通过收集大量的组合信息,并借助强大的计算设备来求解这些线性方程组,从而恢复用户的原始数据块。为了防止TPA读取用户的原始数据块信息, μ′=∑i∈Qvimi需要使用随机掩饰码技术,具体如下:

云服务器利用伪随机函数f计算随机值r=fk3(challengeChallenge)∈Zp,并计算R=ur∈G,最后将μ′=∑i∈Qvimi盲化: μ=μ′+rh(R)∈Zp这样为了让TPA仍能解这些线性方程,TPA必须掌握这个随机值r,进而它必须掌握这个伪随机函数的秘密密钥,事实上,这个秘密密钥只有云服务器知道,因此TPA不可能知道这个随机值r,因此,对于好奇的TPA,它试图从审计证明响应信息恢复用户数据文件是不可行的。

5效率分析

在本章分析方案的通信和计算复杂度。需要注意的是与其他公共审计方案[9,12-13]一样,本文只计算频繁审计活动中通信和计算代价而不计算系统建立时的通信与计算代价。

用Pair表示双线性对操作,Exp表示G上的指数操作,MZ和MG分别表示Zp和G上的乘法操作。n、p、G分别表示{1,2,…,n}、Zp和G的比特长度。挑战中选取的数据块假定是个常量c,挑战中已撤换的用户数量总和也假设是个常量d。

1)通信开销。可以看到本文方案中通信负载主要取决于产生审计证明响应信息的通信过程。其中发送挑战Q={(i,vi)}到云服务器的通信量为c(n+p)。云服务器返回审计证明响应信息Vj=(μ,φ,{ε}∈[1, j],{γ}∈[1, j])的通信量为p+(2d+1)|G|,但是注意到只有在用户Uj发起的第一次审计请求中才需要这样的通信量,否则只需要传送通信量为p+|G|的(μ,φ)就行了,因此最终在一次审计过程中总共的通信开销为cn+(c+1)p+G。

2)计算开销。计算开销包括修改密钥生成、重签名和验证开销3部分,由于本方案支持第三方公开审计,所以只需要考虑修改密钥生成和验证开销两部分。对于用户Uj,在ReKeygen算法只需要计算gxj-1/xj,因此计算代价为Exp。根据上面提到的计算原则,并简化加操作和哈希操作后计算出验证开销为:

(c+1)MZ+MG+(c+3)Exp+2Pair

3)开销比较。如表1所示对比Wang等[16]方案,其通信开销为d?(p+G)+c?(id+n+p)必然大于本方案的cn+(c+1)p+G(两者相减后的值为(d-1)|G|+(d-1)|P|+c|id|,其中id为Panda方案中用户id的规模),其修改计算代价为nExp,比本文方案的计算代价Exp要高。验证开销为:

(c+2d)MZ+dMG+(c+d)Exp+(d+1)Pair,

亦明显高于本文的验证开销。

因此,效率分析表明本文方案在计算代价开销上要优于文献[16]方案。

数据云存储方案第3篇

【关键词】大数据;高校档案;云存储

高校档案是高校教育教学活动的真实记录,是高校从事教育教学活动、高校管理、教学科研工作必不可少的参考借鉴资料。高校档案不仅是高校政策决策的重要保障,也是高校日常管理决策不可或缺的资源。

然而,随着计算机网络、云计算等信息技术的飞速发展,整个社会已经迈入了大数据时代,高校也不例外。在大数据背景下,高校学生的学籍、发表的论文、课程成绩以及教师的基本信息、教学课件、发表的科研论文、参加的科研项目等会产生大量数据,同时还有实验室设备、学校机房和行政部门产生的档案信息等也会产生海量数据。除了在学生培养方面会产生海量数据外,高校行政管理活动、科研和学术交流、社会服务等方面也都会产生海量数据,这些数据数量大,数据结构多样,数据来源广泛,明显具备了大数据的特征,对这些有价值的数据信息进行归档存储,并确保在需要时能被有效地查询和利用,这将成为高校档案部门无法推脱的责任,同时也为高校档案工作带来巨大的挑战。目前高校档案管理面临的最主要的两个挑战:一是如何为档案数据提供足够大的存储空间。二是如何为用户提供一个更安全、高效、方便的档案访问平台。幸运的是,面对大数据带来的挑战,云存储技术应运而生。简洁地说,“云存储”是将数据资源存放到网络上供人们查询的一种新兴方案。用户可以在任何时间、任何地方,通过任意可上网的设备方便地存取数据。现在许多国内外的大公司如微软、亚马逊和谷歌已经引入了相关的云存储平台服务。在大数据背景下,如果能将云存储技术应用到高校档案管理领域,不仅可以解决以上两个挑战,也将会为高效档案事业带来历史性的变革。

一、云存储在高校档案管理中的优势

(一)云存储技术的应用,能降低高校档案管理的成本,提高档案资源的利用率。传统的数据存储都是静态的,多用于存储PB级以下的数据。若采用传统的存储架构,当存储容量需求增加时,就需要添加新的存储阵列。随着需要管理的阵列数增加,存储环境变得日益复杂,管理难度更大,需要的运营成本也随之增加。而云存储能够实现动态扩展,按需求进行配置。各高校档案馆可以根据自身需求申请适当的存储容量,无须额外的存储设备,相比较传统存储模式,降低了购置设备的成本。存储平台的运行和维护工作由云存储提供商完成,降低了高校档案管理系统运行维护的成本。云存储提供了一个较为开放的访问平台,用户可以随时随地通过任何可上网的设备访问档案资源,这就解决了某些用户由于时间、地点等因素限制而无法实时访问档案资源的问题,从而大大提高了高校档案资源的利用率。

(二)云存储技术的应用,能为档案数据提供海量的存储空间。随着高校档案信息化建设的不断加快,高校档案数据也由原来单一形式向电子文件、图像、视频、音频等多种形式发展,高校档案馆要安全存储这些数据,需要不断扩充服务器和相应的存储设备,这会给高校档案馆带来很大的资金压力。由云计算发展起来的云存储平台,用户只需要利用几台可以上网的电脑终端就可以方便地上传和下载存储在云中的电子文件。云由成千上万的存储设备和服务器集群构成,它具有无限的存储空间和海量的存储能力,能够更好地满足档案数据海量增长的存储需求。

(三)云存储技术的应用,能增强容灾、异地备份能力。云存储可以实现跨领域部署,并可以通过虚拟化技术实现多物理存储节点、多应用系统和多业务服务协调的共享存储构架。特别是当发生不可预测的数据灾难时,通过云存储的分布式备份功能可以实现档案数据的快速恢复。同时,云存储可实现数字档案网络在线异地备份,以上两类功能可避免各高校档案馆单独存储档案数据时遭遇停电、火灾、水灾、地震等特殊灾难情况时可能带来的档案数据丢失和损失。

(四)云存储技术的应用,能实现档案数据中复杂数据类型的虚拟化存储。采用云存储所具备的虚拟化技术和大数据管理技术,能实现很好地复杂数据类型的虚拟化存储。特别是针对特殊类型的档案,如:电子期刊、古典文籍、照片资源、音频视频文件等。

二、云存储在高校档案存储中的存在的问题和风险

(一)云存储平台的安全风险。高校档案的保密性以及档案工作的机密性决定了高校档案存储需要一个相对安全的存储环境,现有的高校档案存储方式在档案安全存储方面有一定的优势。首先,云存储自身的虚拟化、无边界性、流动性等特性,使得其面临较多的安全威胁。其次,与传统的存储方式不同,云存储是将数据信息存储在云端,这对数据的存储安全、传输安全、服务安全和访问控制都带来极大的挑战。同时,云存储应用导致网络资源、信息资源、用户数据和应用的高度集中,由此带来的安全隐患与安全风险也较传统应用高出很多。目前为止,还没有任何一家云存储供应商保证可以提供绝对安全的存储平台。此外,如果将不能公开的数字档案以远程方式存储到云端,必定会引发档案管理者的担忧。

(二)云存储的可靠性问题。大多数云服务供应商都对云存储的安全性做出过承诺,但亚马逊弹性云服务出现的服务中断事件以及微软出现的云数据托管中断事件都表明用户能否访问到自己的云存储数据取决于云服务提供商的服务是否可靠,一旦云服务供应商出现问题,用户则无法正常访问自己存储在云服务上的数据,因此可靠性问题是目前云存储急需解决的难题。

(三)缺乏可靠的国内云存储供应商。现在大部分成功的云存储供应商都是Google、微软等国外品牌,尽管国内的一些IT公司正努力追求云存储技术,但就技术水平和发展规模来看还存在一定的差距。当高校档案选择云存储方式,云平台就控制了档案数据,这将会导致潜在的数据威胁行为,例如通过数据挖掘技术挖掘机密的档案信息。因此,在某种程度上我们更希望找到一个具有独立R&D 认证的国内云存储供应商,最大程度地保证高校档案的安全性和保密性。

(四)缺乏统一的云存储技术标准。在技术层面,对于长期有效存储数字档案尚存在很多需要解决的问题,其中最重要的问题之一就是技术标准问题。想要实现数字文件长期、高效地存储,必须制定一系列的统一的存储标准。然而,到目前为止国际上还未形成一套公认的数字档案信息长期保存的标准,这有可能导致在将档案数据上传到云端的过程中产生数据丢失、错序等问题,从而直接影响档案数据的完整性和一致性。

三、高校档案云存储实现的观点

(一) 积极参与档案云存储设计。高校应该以档案管理部门为领导,由各部门共同支持建立起一个较为全面的档案管理系统,从而避免过多地依赖于云服务供应商。在档案管理系统的核心设计以及资源建设过程中,高校内部应该制定一套统一的安全标准和机密性协议,所有的档案管理人员都应积极参与档案云存储管理系统的设计与实现,学习云存储相关的知识,建立一个规模合理的档案管理系统。考虑到高校档案的保密性要求,在云存储供应商进行系统维护以及业务合作过程中需要建立一套严格的机密性协议,以降低档案数据泄密的风险。

(二)建立高校档案私有云。云服务按部署方式和服务对象范围可以分为三类,即公共云、私有云和混合云。公共云通常适用于大规模和多用户。相对于公共云和混合云,私有云的用户完全拥有整个云中心设施,提供了更多地安全和保密等专属性的保证,因此在安全性、法规遵从以及服务质量方面更加具有保障。高校档案管理选择私有云可以保障在使用云存储技术的同时最大程度地维持对档案数据的控制权,提高档案的安全性和保密性。

(三)建立云存储平台下的档案数据的安全备份策略。采用云存储技术存储高校档案数据后,相应的备份策略也会发生根本性的变化,由脱机备份转换为网络在线备份。为了提高档案数据的存储安全和灾难恢复能力,高校可以选择对档案数据进行多套备份,通过将档案数据副本在本地、同城和异地进行备份的策略,实现档案数据资源的多套多地备份,这不仅能够提高档案数据访问的实时性和共享性,更加增强了档案数据的容灾能力。对于重要的、机密的高校档案数据应该做好提前备份,一旦云存储数据库遭受致命损坏时,可以立即启动备份系统以确保高校档案数据的正常使用。

(四)加强云存储人才的建设和培养。将档案数据向私有云迁移时,需要采用成熟的技术方案,解决私有云的系统建设及运营管理安全工作。同时,应做好系统容灾、数据备份,以及业务回退机制,以提高应对各类突发事件安全事件的处理能力,这些工作都离不开掌握相关技术的IT技术人员。管理档案系统的IT技术人员不仅要有较为深厚的计算机背景知识,还需要熟悉档案的相关知识。因此,高校档案馆建设要注重人才的建设和培养,做好人才的储备工作。

四、结语

云存储技术的出现为高校海量档案数据的高效存储和利用提供了新的平台,为高校档案的管理工作指明了新的发展方向,高校档案管理工作者应积极投入到高校档案私有云建设中,充分利用云存储的技术优势。同时,也要重视高校档案云存储中存在的问题和风险,尤其是档案安全和保密问题,积极提出相应的策略。

本文系云南省档案科技项目“基于Hadoop云平台的高校档案资源管理研究”(项目编号:2016-y-125-006)研究成果之一。

【参考文献】

[1] Zhao Yi. Opportunities and risks: Electronic document management under cloud computingenvironment [J]. Journal of Archives and construction, 2013(10):4-7.

[2]张桂刚,李超,张勇,邢春晓.一种基于海量信息处理的云存储模型研究[J].计算机研究与发展,2012(S1):32-36.

数据云存储方案第4篇

关键词:云存储;气象档案;数字化

中图分类号: TP302.1 文献标识码:A 文章编号:1009-3044(2016)27-0007-03

Abstract: Meteorological digital archives are the important meteorological data, along with increasing the amount of data, traditional way of storing faces severe challenges. This paper analyzes the present situation of liaoning province meteorological archives digital picture file, put forward a set of meteorological archives digital images based on cloud storage solutions, to improve the existing file storage way has important reference significance.

Key words: cloud storage;meteorological archives; digitization

1 引言

近年来,自动气象站、L波段探空系统和新一代风云气象卫星等气象观测系统快速发展,气象信息系统的通信和存储能力大幅度提升,海量的数字气象资料在国家和省级气象档案馆汇集[1]。在国家气象局的部署下,气象档案数字化建设不断推进,产生了大量宝贵的气象图像档案资源。这些数字化资源种类多、数据量大、访问频繁,且日渐几何状增长[2]。面对这种增长需求,传统存储方式通过扩展物理存储来解决,但这种方式成本高切不利于管理。因此迫切需要一种新的存储方案,在原有资源基础之上来解决海量数字化数据的存储问题,以满足气象档案馆持续发展的存储需求。

随着科技发展,云存储逐渐成为各界关注的焦点。在档案领域中,特别是档案信息资源的海量储存和整合方面,具有非常好的应用价值和研究前景。本文在分析气象档案馆资源整合与共享需求的基础上,结合最近发展的云存储技术,尝试提出一种基于云环境的新的存储方案。这种把云存储技术运用于气象档案资源信息共享领域的新型档案资源整合模式,无疑具有重大的推广价值和现实意义。

2 气象档案业务现状

2.1气象档案业务

近年来,在中国气象局的统一规划下, 我省开始用数字化扫描仪对气象原始记录资料进行信息化处理,目前全省62个站从建站至今的地面观测原始记录、标准数字化记录和统计整编记录已以数据集的方式存入非实时数据库中, 实时的地面气象记录月(年) 报表和高空气象记录月报表实现台站直接信息化、省级集中机审和存储一条龙处理, 不断地增加新的气象信息源,为建设气象数字档案馆奠定了基本的信息基础。同时,逐步开展对历史气象资料拯救与数字化工作,迄今已完成了历史地面气象观测记录报表数字化,目前正在进行高空观测资料的数字化,已形成各类历史地面气象观测记录报表电子图像文件数据集成果,数据量近5.0TB。

2.2 档案存储面临的问题

面对海量数字化资源,传统数字资源存储问题也随之暴露出来,其中比较突出的问题有以下几方面:

(1)可扩展性差。档案馆数字资源快速增长,存储设备的存储容量受限,导致资源无法长期保存,现有的档案馆数字化建设根本无法满足需求,如果存储容量一开始设计过大,又耗费资源。

(2)资源冗余、信息孤岛。各档案之间独立保存,资源冗余,档案信息得不到共享。

(3)成本高。软件维护和硬件维修,以及够买新的设备,都需要较大成本

(4)安全性差。档案馆目前的系统安全体系薄弱,容易遭受,同时某一设备故障也会影响整个档案的存储系统。

(5)备份性差。数据备份需要花费大量人力和时间,同时异地备份和迁移需要更多精力。

3 构建云存储

3.1存储结构设计

气象档案具有保密性,因此在设计时充分考虑安全因素,将内部云存储组件部署在省级网络防火墙后,保障数据安全。初期可以利用现有资源降低成本,如已有服务器、硬盘等,待框架搭建好后根据需求进行增加,内部存储结构层次如图2所示。

(1)访问层。主要面向全省各级档案使用人员,用户得到省级的统一授权后,利用标准API接口来访问内部数据。目前主要数据是数字化的图像,以后可根据需求扩展更多类型数据。

(2)应用平台接口层。在本层中部署不同的功能模块满足使用需求,包括数据库接入、数据资源整合交换、虚拟查询等。

(3)基础管理层。基于集群技术、分布式文件系统和计算机网络技术,实现云存储中多个存储设备的协同工作,对外提供统一的服务,是整个云存储的核心。

(4)物理存储层。部署在物理存储和服务器之间的一个虚拟层,可以结合现有的虚拟化设备和服务来进行管理。这种方式的优点在于,摆脱物理存储容量限制,存储硬件的改变对服务器层完全透明,存储设备可以包括光纤通道、SCSI、NAS等。

3.2存储访问方法

内部存储的构建包括控制节点和数据节点,控制节点控制数据节点的存储分配,数据节点根据需求进行配置,通过连接的方式进行访问,不同的存储设备通过软件进行协同,对外部提供数据存储管理和业务访问服务。具体的访问方式包括:webApis具象状态传输、基于ISCSI块协议传输、基于Web协议传输等。可以与现有的虚拟化资源协作,实现软硬件统一部署。

3.3存储可靠性

云存储的可靠性关系到整个所有环节的效率,内部云存储通常利用数据复制、节点备份、等机制来保障可靠性。这里采用信息分布算法(IDA)把文件分成数据分片,这种处理有利于数据重建。具有数据分片能力可以将切片分配到不同位置存储,提高存储系统的可靠性,降低系统运行负荷,减少信息交互。

3.4 存储扩展性

采用FileStorage方式进行存储,这种基于文件级别的存储优点在于同一文件可供多用户使用,扩展性强,成本低。在云存储需要扩容时,只需要安装云端管理软件,并网络交换机相连。当用户端存储负荷增加时,云存储端可以将数据分配到不同节点,提供额外的访问途径,提高读取能力。存储的扩容过程通过在线操作,不影响存储,非常便捷。

4 结论

(1)作为新的技术,云存储概念从提出便成为数据存储领域研究的热点,改变了传统存储模式,而云存储模式由于其高安全性、可控性等特性为气象档案馆建立云存储提供了可行性方案。构建基于云环境的档案存储,为气象数字化档案的整合与共享提供了新的解决方案。随着云计算技术的快速发展,将给气象档案馆数字化建设带来巨大的转变。将云存储技术运用于气象档案资源信息共享领域的新型档案资源整合模式,无疑具有重大的推广价值和现实意义。

(2)云存储作为一种新的存储模式,具有低成本、高可靠性等特性,能够很好地解决档案馆海量数字资源的存储和管理,但同时云存储还存在一些不完善和需要改进的地方,我们可以利用它来提升档案馆数字资源信息服务,但不能完全依赖它,还要结合自身档案体系的特点,实现气象图像档案资源整合与共享的可持续发展。

参考文献:

[1] 李星玉,张静.气象档案工作现代化的几点思考[J].2011(10):35-36.

[2] 中国气象局.气象事业发展“十一五”规划(2006-2010年)[R].北京:中国气象局,2006.

[3] 郭萍.气象数字档案馆的设计思路[J].新技术应用与现代化管理,2005(2):11-13.

[4] 乔杨.基于内部云存储的图书馆数据资源存储研究[J].晋图学刊,2012(1):11-13.

数据云存储方案第5篇

关键词:教育资源云平台;云存储;Hadoop;HDFS

引言

随着我国高等职业教育事业的蓬勃发展,各高职院校信息化建设水平也在逐步提升,数字媒体、数字校园的建设在各高职院校如火如荼地发展,许多高职院校纷纷推出自己的教育资源云平台.然而,随着教学资源平台的建设和发展,平台中心的数据在数量上呈几何级数增长,这就意味着需要更多的硬件设备以及更高的运行维护资金的投入,这也对平台上数据的存储、检索、分享和管理提出了新的要求.考虑到传统的数据集中管理、集中存储的模式已经不能适应大数据时代的发展要求[1],本文在云计算概念的基础上,提出了一种基于云存储的高职院校教育资源云平台的数据存储方案,其通过集中提供数据存储功能,能有效解决教育资源云平台上海量数据的存储问题,也可以为高职院校教育资源信息化建设提供技术保证.

1云存储技术

1.1云存储

云存储是随着云计算技术的出现而产生的一种新的存储方式,是云计算技术的存储部分,位于云计算技术的底层.它利用虚拟化技术将网络中大量的异构存储设备通过应用软件集合起来,虚拟化为易扩展、弹性、透明、可伸缩性的存储资源池.形象地说,云存储就是将目标资源存储在云端服务器,形成一个数据中心,并通过计算机网络为用户提供服务,其示意图如图1所示[2].

1.2云存储体系结构

云存储是一个集网络设备、存储设备、服务器、应用软件和客户端等于一体的系统,从功能上可以把它划分为四层:存储层、基础管理层、应用接口层和访问层,其体系结构如图2所示[3].(1)存储层.该层是整个体系最基础部分,其设备可以是网络附属存储(NAS)、存储区域网络(SAN),也可以是PC机上的硬盘等.(2)基础管理层.该层是整个体系最核心部分,它把存储层中分布在不同地域,且数量众多的异构存储设备通过应用软件集合起来,虚拟化为一个集中存储资源池.(3)应用接口层.该层是用户使用云存储服务时直接面对的界面,用户可通过该接口对云端的数据执行存取、修改等操作.(4)访问层.用户可以通过该层登录到云存储系统,享受系统服务.

2云平台数据存储的优势

大多数高职院校在未使用云计算技术构建教育资源云平台之前,教学资源一般都使用多个磁盘阵列来作为存储设备,这样做存储成本较高.而采用云计算技术构建教育资源云平台之后,由于云计算中的存储设备大多采用廉价的PC机群来充当,这与大容量专用的存储设备相比,存储容量更大,存储成本却反而降低.另外,由于传统的存储方式往往釆用非结构化存储,高职院校各部门之间各自为政,缺少统一规划,造成教育资源重复建设,而且各部门之间的教育资源可能存在访问和共享的障碍.云存储通过在教育云平台中建一个高效的数据存储中心,将各个院系的资源进行接入,不仅可以对高校资源进行统一整合管理,而且可以避免设备的重复投资以及存储空间浪费等问题.同时也有助于减少资源维护成本,提高资源存储的安全性、可靠性和可扩展性[4].

3云平台的数据存储方案设计

3.1体系架构目前主流的云平台有微软的Azure,Apache的Hadoop,阿里巴巴的阿里云,谷歌的GooleAp-pEngine,亚马逊的EC2等.鉴于Hadoop云平台具有可靠、高效、易伸缩、高容错、低成本等优点,本文采用Hadoop来搭建高职院校的教育资源云平台.该云平台借助云计算技术,将学院现有的软硬件资源和教育教学资源进行有效整合,旨在为全院师生提供一个开放互联、统一管理的应用服务平台.因此,云平台在设计时采用分层设计方式,将数据存储和处理、业务逻辑和应用服务三个核心内容分别放在架构层、平台层和应用层.其体系架构图如图3所示[5].

3.2数据存储方案设计

从图3可以看出,存储层位于最底层,由大量的异构物理硬件构成.这些物理硬件设备可利用虚拟化技术整合为逻辑上单一的存储设备.目前有多种云存储方案可供选择,如:光纤通道存储局域网络(FCSAN)、基于iSCSI技术的存储局域网络(IPSAN)、网络文件系统(NFS).不同的云存储方案对云平台的要求和影响是不一样的,有的甚至限制云平台的发展[6].鉴于Hadoop云平台的优势,本文采用Hadoop云平台实现分布式文件系统,简称HDFS.HDFS是Google的文件系统GFS的开源实现,具有低成本、高容错、可扩展性好,并支持超大文件的储存和流式数据访问模式等特点.因而将HDFS与现有教育平台相结合,无疑是一种较好的存储方案,它能为教育资源云平台提供海量的数据存储和高效的数据处理.

3.3HDFS工作机制

HDFS采用典型的主从式(Master/Slave)架构,由一个控制节点(NameNode)和多个数据节点(Da-taNode)组成.NameNode节点负责存储任务的管理与分配,其将文件系统的元数据保存在内存中,并维护整个文件系统及其命名空间,而实际的数据却是存储在DataNode节点中.同时,DataNode节点还响应来自HDFS客户机的读写请求,以及来自Nam-eNode的创建、删除和复制块的命令.其系统架构如图4所示[7].从图4可以看出,存储在HDFS中的文件首先被分成块,然后将这些块复制到多个计算机中(Da-taNode).而对于外部客户机而言,HDFS就像一个传统的分级文件系统,可以对文件执行创建、删除、移动或重命名等操作.另外,它还可以运行在由普通且廉价的机器搭建的集群上,从而被广泛用来搭建各种云平台[8].

4基于云存储的高职院校教育资源云平台的数据存储方案实现

4.1云存储系统的搭建

(1)硬件搭建.为简单起见,本文采用7台PC机和1台交换机搭建一个小型局域网,组成HDFS集群,其中2台作为NameNode节点(Master1,Mas-ter2),其中1台作为主服务器,1台为备用服务器,以便在主服务器暂停运行时快速进行切换,其他5台作为DataNode节点(Slave1,……,Slave5).其结构图如图5所示.(2)软件部署.每个节点均安装Linux操作系统及第三方软件JavaJDK、Hadoop和Zookeeper,并加以配置.其中,Hadoop的环境变量配置如下:vim/etc/profileexportJAVA_HOME=/usr/java/jdk1.7.0_51exportHADOOP_HOME=/usr/hadoopexportPATH=MYMPATH:MYMJAVA_HOME/bin:MYMHADOOP_HOME/bin(3)网络配置.为每个节点配置IP地址如图6所示.至此,云存储系统已搭建完毕.经过测试,可以实现云存储系统与教育资源云平台的连接.

4.2云存储功能的实现

通过对高职院校教育资源云平台的功能需求进行分析可知,云存储系统作为云平台的数据存储和管理中心,其主要功能列表如图7所示.由于HDFS的底层均是基于java开发的,还需要安装第三方软件eclipse,通过调用HDFSAPI接口程序,使用DistributedFileSystem类中的相关方法,可以实现云存储的相关功能.限于篇幅,以下仅以文件的上传为例,来说明实现云存储的功能[9].其主要方法如下:通过调用FileSystem类下的copyFromLocalFile()方法将本地文件上传到HDFS的指定目录下.执行代码如图8所示.通过测试发现,已将客户端位于localPath目录下的文件上传到HDFS中指定目录hdfsPath下存储,从而实现了文件的上传功能.

5结语

数据云存储方案第6篇

>> 浅析数字档案云存储 “云”环境下的数字档案信息存储方案设计 论数字档案建设 数字档案存储介质及格式研究 数字档案信息长期安全存储问题探讨 对数字档案云计算管理的思考 浅议云计算环境下的数字档案工作 云数字档案馆安全运营机制探讨 残奥会数字档案 数字档案建设 海量存储体系在数字档案馆建设中的作用 几种存储介质和方法在数字档案馆的未来应用前景 北京数字档案馆(电子文件中心)存储体系建设 数字档案备份初探 大地湾数字档案 云计算对数字档案馆建设的促进作用 云计算环境下数字档案馆信息安全分析及管理策略研究 云环境下数字档案馆面临的安全风险及其应对措施 云技术中数字档案资源共享与管理体系的构建 浅谈云计算环境下数字档案馆信息资源的安全管理 常见问题解答 当前所在位置:

[3]周宇,周蓓.“档案云服务高峰论坛”在京隆重举行[J].机电兵船档案,2012(3):69.

[4]井水.“云”存储——高校图书馆存储系统的新“革命”[J].农业图书情报学刊,2012,v.24;No.19307:8~11.

[5]高治宇,李超,常晓茹.数字化档案长期保存的问题及对策[J].兰台世界,2009,No.12:15~16.

[6]方昀,郭伟.云计算技术对档案信息化的影响和启示[J].档案学研究,2010(4):70~73.

[7]Fedorazon-FinalReport[EB/OL].[2010-06-03].http://ie-repository.jisc.ac.uk/426/.

[8]DuraCloud[EB/OL].[2010-04-20].http:///duracloud.Php.

[9]马晓亭,陈臣.数字图书馆云存储应用系统研究与实现[J].图书馆理论与实践,2012,No.15105:8~13.

[10]王伯秋,郭彦宏,黄辉.云存储在图书馆数字资源保存中的作用[J].中华医学图书情报杂志,2011,v.2010:68~70.

[11]黄新荣,谢光锋.云存储环境下的档案异地备份[J].档案学通讯,2011,No.20406:69~72.

[12]朱长江,郭念.面向海量数据的云存储技术研究[J].科技视界,2012,20:200~201.

[13]蔡学美.档案云技术应用于档案信息化建设[J].办公自动化,2012,No.23011:14~17.

[14]张桂刚,李超,张勇,邢春晓.一种基于海量信息处理的云存储模型研究[J].计算机研究与发展,2012,v.49S1:32~36.

[15]高东升.大数据时代的云存储技术[J].网络与信息,2012,v.26;No.29609:58.

[16]决战云端云存储领域谁主沉浮[J].电脑迷,2012,No.21811:17~20.

[17]王英锋.高校数据云存储的实践[J].北京政法职业学院学报,2012,No.7802:103~106.

[18]吴家亮.安全领域中云存储技术的运用[J].计算机光盘软件与应用,2012,v.15;No.19815:155+157.

[19]吴家亮.安全领域中云存储技术的运用[J].计算机光盘软件与应用,2012,v.15;No.19815:155+157.

[20]范中磊.面向云存储的归档方法[J].微电子学与计算机,2011,v.28;No.32607:136~138.

[21]陈素军.云存储在电子文件中心中的应用初探[J].中国档案,2012,No.46507:72~73.

[22]祝庆轩,桑毓域,方昀.基于云计算的档案信息资源共享模式研究[J].兰台世界,2011,No.33415:8~9.

[23]鲁晓明,冯持.云存储在企业电子文件管理中的应用研究[J].兰台世界,2011,No.34021:34~35.

[24]Summer.BYOD或将增加云存储的风险系数[J].网络与信息,2012,v.26;No.29407:63.

[25]机遇与挑战并存 漫谈国内云存储[J].电脑迷,2012(11):20~21.

[26]李美云,李剑,黄超.基于同态加密的可信云存储平台[J].信息网络安全,2012,No.14109:35~40.

[27]唐丽英.制约数字档案信息长期保存的五个“瓶颈”问题[J].档案管理,2012,No.19805:53~54.

[28]任生楠,黄奋,徐宽.云存储在数字资源长期保存中的优势和问题研究[J].中国科技信息,2011,No.43118:64.

[29]刘越.Google加入云存储服务战团推动竞争升级[J].世界电信,2012,v.2506:14~17.

[30]叶金鹤.云存储安全需求和实现分析[J].信息与电脑(理论版),2012,No.26808:152~153.

[31]黄新荣,谢光锋.云存储环境下的档案异地备份[J].档案学通讯,2011,No.20406:69~72.

[32]李美云,李剑,黄超.基于同态加密的可信云存储平台[J].信息网络安全,2012,No.14109:35~40.

[33]林秦颖,桂小林,史德琴,王小平.面向云存储的安全存储策略研究[J].计算机研究与发展,2011,v.48S1:240~243.

[34]基于可信虚拟平台的数据封装方案[J].计算机研究与发展,2009,46(8):1325~1333

[35]段荣婷.论国际档案信息标准化现状?发展趋势及我国的对策[J].档案学研究,2008(1):38~46.

[36]张倩.“云时代”的高校档案网络应用模式探究[J].档案与建设,2010(1):37~38.

数据云存储方案第7篇

关键词:云存储;资料归档;网络存储

1 云存储技术简介

云存储技术主要是依赖于高速分布式互联网进行数据的存储,在网络中搭设多种不同类型、不同容量以及不同物理位置的存储设备,借助云计算进行管理,让这些分散于网络中的数据能够并行工作,从而形成了一个非集中式的大型数据存储和访问系统。云存储能够合理运用网络空间,存储资源更加丰富,按照需要也可以获得很好的扩展性,通过网络管理软件等可以快速对资源进行管理和取用,和集中存储的管理方式基本相同。在网络中存储的信息相对比较分散,所以受到攻击时也不容易造成整体的崩溃,只要能够进行良好的保护,网络中的信息就能够得到有效的保护。

2 资料档案信息网络存储及其实际应用意义

2.1 资料档案信息网络存储

互联网技术日益成熟,越来越多的人在使用互联网,使得网络中信息的种类和数量都在不断增加,同时人们对于信息的取用要求也越来越频繁,如何采取一种高效的存储方式,让网络中的信息更好的进行使用,是目前信息管理工作者需要面对的问题。档案信息存储的方式非常多,基于本地计算机系统的存储方式,方便集中管理和使用,但是面对网络不断扩展,这种方式使得网络中处于远端的设备访问不便,所以利用互联网分布计算的优势,在网络中分布存储,可以通过特定的网络载体进行存储。相比较于传统存储模式,云存储通过网络将部分的档案信息组合成一个整体,使得多个信息资源单位可以通过网络进行信息的共享和传输,解除了集中信息存储的限制。而且随着档案信息种类增多,数量增加,网络存储能够提供更大的空间,同时提供高速的访问服务,节约本地信息资源占用的空间。云存储是目前最为经济,安全性较高的信息存储解决方案,长期存储得到了很好的保证。所以说,资料档案信息的存储,未来会十分依赖网络存储。

2.2 云存储对资料归档的重要意义

信息量的增加,对管理提出了更高的要求,同时大量冗余的信息会占用存储空间增加负担,根据客观需要进行存储更为合理。按照档案信息的管理规定,选择合适的存储年限和存储方式,对于需要长久存储的档案信息,应当选择更加安全稳定的存储方式,而云存储技术的分布式优势能够很好的解决这一问题。分布式存储解决了长期存储稳定性不足的问题,在网络中的备份能够及时恢复保证数据安全,同时分布式存储通过网络机密和授权访问,确保资料能够完整保存。实际档案存储过程中,网络存储体现出了非常多的优势,成本低,运维方便,对于网络的安全开放,也让档案信息可用性更高,便于分布式管理档案信息,云计算解除了档案管理的时间和空间限制,所以说云存储在资料归档中具有实际应用意义。

3 云存储在资料归档中的应用方式

3.1 利用资源网站进行云存储

档案信息资源原始数量庞大,档案管理部门对于这样庞大的数据信息,可以很好的利用资源网站的服务器进行存储,通过网络存储代替本地资源存储,大大降低了本地资源占用的空间。使用网络资源网站存储原始档案资源,降低了本地计算机存储系统的压力,同时在资源网站合理开放接口,可以在服务器端进行其他档案信息的收录和管理。资源网站对于资源的存储可以说是全方位的,不论类型和更新频率,服务器都能够承载,具有很强的可用性,海量的档案信息都可以得到安全的存储。

3.2 利用网络硬盘进行云存储

网络硬盘也就是建设在网络中的大容量存储介质,很多网络公司都推出了在线的资源存储服务,提供了一个资源存储、管理和分享的网络空间,就相当于一个虚拟的移动硬盘,只是访问方式是通过网络进行。网络硬盘相比资源网站使用更加方面,借助网络公司的公用服务器硬盘,实现网络存储。网络硬盘可以随着用户需求扩展空间,成本也比较低廉,借助网络公司的服务器资源,更加安全和稳定。

3.3 利用同步盘进行同步存储

同步盘与网络硬盘可以结合使用,同步盘将网络硬盘与本地计算机硬盘进行映射和同步,通过网络将本地计算机存储的信息进行网络备份,这样在其他计算机中也可以对存储资源进行检索和管理。同步盘提供自动备份更新数据的服务,将本地计算机增加的信息及时的上传到服务器中,这样就可以通过网络将同步盘作为计算机的一个虚拟硬盘使用,更加直接的对数据进行管理,同步服务让信息存储更加稳定,降低了本地计算机的压力,确保计算机信息能够得到稳定保存。

4 结语

云存储技术在大数据时代应用广泛,随着时代的发展,档案信息的存储和使用也有了更高的要求,认真研究云存储技术,创新档案信息的存储方式,提高存储稳定性和安全性。档案信息资源不论是种类还是数量都在不断增加,云存储提供了良好的解决方案,这就需要资源管理者采用合理的存储方式,提高资源存储和管理的工作效率。

参考文献:

[1]高宏卿,汪浩.基于云存储的教学资源整合研究与实现[J].现代教育技术,2010(03).

[2]李君鹏,周宇.基于云存储的在线备份服务创新[J].华南金融电脑,2010(03).

[3]郭凌翔.浅谈云存储及其安全性[J].福建电脑,2010(05).

[4]周可,王桦,李春花.云存储技术及其应用[J].中兴通讯技术,2010(04).

数据云存储方案第8篇

云存储服务是众多云服务中最著名的服务之一,它为用户提供了一个经济又简单的数据存储方式。然而,为了保证云端数据的安全性,云系统需要为每一份数据维护多份副本,极大的降低了空间利用率。本文提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。方案在有效提高云端系统空间利用率的条件下,可以保证用户数据的存储安全性,并允许用户根据实际安全需求自定义备份数据数量。此外,本方案还可以为用户的备份数据提供一定程度上的数据机密性,并让用户在下载数据时可以选择不同安全级别的传输方式。

关键词

云存储服务;空间高效性;安全;面向用户

1 前言

云存储服务属于基础架构即服务(IaaS)的范畴,是云计算服务的最基本服务形式之一。在云存储服务中,云服务提供商(CSP)为用户提供无限量的空间供其存储海量数据,并从中收取少量费用,这就为用户省去了购买存储设备的费用。一项调查结果显示,56%的云用户使用的是IaaS服务,并且绝大部分IaaS用户使用的是云存储服务和虚拟机租借服务。由此可见,云存储服务在所有云服务中占据着非常重要的地位,可以为CSP带来可观的经济收益。

然而,用户在使用云存储服务过程中也有很多担忧。一项国外调查结果[1]显示,81%的云用户关注云数据的安全性和机密性,其中数据“安全性”指的是数据可靠性和完整性。显然,数据安全性和机密性是云服务中用户最关心的问题。

为了保证云端数据安全性,CSP(如Google,使用GFS[2]系统)会为每一份数据保存多份备份数据,当发生数据损坏时就可以从完整的数据副本里恢复出正确数据。显然,备份数据越多数据越安全,但同时却也降低了云存储空间的有效利用率。此外,就机密性来说,一般情况下,用户在存储数据的时候会先将数据进行加密,然后将密文存于云端,这就可以避免数据信息泄露。

我们提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。本方案基于Shamir秘密分享方案[3],可以在保证提供与GFS系统相同数据安全性的同时有效减少空间使用量。并且,本方案使得用户可以估计自己数据安全性并以此为依据选择备份数据的数量。该机制的引入对于用户和CSP均有好处,对用户来说,用户可以租用适当的存储空间,从而节约存储费用;而对CSP来说,可以获得更多的空间服务更大量的用户。此外,本方案还可以为备份数据提供一定程度上的数据机密性。最后,在用户下载数据的时候本方案可以提供不同安全级别的数据传输模式。

2 相关工作和设计目标

GFS[2]系统包括了两个部分:Master服务器和Chunk服务器集群。其中,Master服务器负责与用户的交互和对Chunk服务器集群的管理。而Chunk服务器集群负责存储用户的数据并接受Master服务器的调度和控制。当用户存储数据时,数据会被分成固定大小的数据分块存储在Chunk服务器集群之中。为了保证数据的安全性,GFS为每一个数据分块备份三份数据副本。此模式下,GFS系统的有效空间利用率为25%。

从上述分析可以得知,当前的云存储服务系统有效空间利用率非常低,并且云系统并不为备份数据提供数据机密性。因此,本文提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。其具体设计目标包括:1.空间高效性,方案空间利用率应比较高;2.方案应该是面向用户的,用户可以自己估计数据的安全性,并根据安全需求个性化设置备份数据的数量;3.方案是安全的,方案能为备份数据提供一定程度上的数据机密性;4.方案是可调节的,当用户下载数据时系统能为用户提供不同安全级别的传输模式。

系统架构图如图1所示,系统包括用户模块和CSP模块。用户模块即使用云存储服务的用户,CSP模块即云系统模块。如GFS一样,CSP模块也包括了两类服务器:Master服务器和Storage服务器。

在我们的系统中,用户模块除了可以向CSP模块租用云服务以外还可以:1. 根据自己实际安全需求个性化定制自己备份数据副本的数量;2.下载数据时可以选择不同安全级别的传输模式。

在CSP模块中,Master服务器主要负责与用户进行请求交互、管理 Storage服务器集群、根据用户设置的参数引导Storage服务器备份数据等。而Storage服务器则主要负责存储数据、在Master服务器的引导下备份数据等。

在我们的方案中,当用户想要将数据存储至云端的时候,他首先应该个性化定制他的数据备份方案(即,确定备份数据的数量)。接着他向Master服务器提出存储请求,Master服务器根据用户的数据总量和备份方案选择是否向用户提供云存储服务。

3.2 数据备份方案

我们的存储方案与GFS系统一样,存储数据时用户数据会首先被分成固定大小的数据分块,然后再备份并存储。但我们的数据备份方案却与GFS完全不一样。我们的方案基于(K,N)-Shamir秘密分享方案[3],是一个空间高效性的、面向用户的备份过程。当用户拥有N中的任意K份数据就能恢复出原始数据,具体过程如下所示。

当Storage服务器收到用户的数据之后,它会以数据分块为单位对数据进行备份,我们以一个数据分块(记作D)为例来讲解数据备份过程。服务器首先将数据分块D分成多份更小的单位数据块(记作URP),于是我们就可以用有序对(i,URPi)来表示D,即D={(i,URPi)┤0

其中,NBlock与公式(2)中的K的意义完全一样,而公式(2)中的N=NGFS*NBlock。

如果我们令NBlock=10、ρ=0.01,则根据公式(2)和公式(3)我们可以得出备份数据所提供的数据安全性,结果如图2所示:

图2中,横坐标是备份数据的数量,纵坐标是备份数据所提供的安全性。需要注意的是,在GFS系统中,由于备份方案是复制整个数据分块,所以,单位数据块的数量的增长应该是按照NBlock的倍数增长方式进行的:即NBlock=10时,当单位数据块数量为10时,备份了一个数据,为20时,备份了两个数据,以此类推。因此,当NBlock处于10~20之间时,由于GFS没有完整的备份完第二个数据副本,因此其提供的安全性并没有增长。

从图2中我们可以看出,在备份数据数量达到12时我们的方案即能提供99.98%的安全性。而在GFS系统中,要达到同等级别的数据安全性则需要备份三份(即NGFS=3)完整数据,即备份数据数量为30(3*NBlock)。此时,我们的方案可以比GFS节约60%((30-12)/30*100%)的存储空间。

同样的,当NBlock和ρ的值发生变化时,根据公式(2)和公式(3)我们依然能得出如图2所示的同等结论:我们的存储方案提供与GFS系统同等数据安全性的情况下能比后者节约大量的存储空间。因此,我们的方案有着非常高的空间利用率。

4.2 数据机密性

从本文3.2节中我们知道,我们的备份数据是从原始的K个单位数据中映射出来的N个单位数据,这N个数据与原来的K个数据完全不同。敌手在不知道各单位数据的具体序列的情况下,即便窃取了所有数据也无法重构出原始数据,因此可以看作是对原始数据的一次加密。所以,我们的方案能为备份数据提供一定程度的数据机密性。

4.3 传输安全级别

从本文3.4节的介绍可知,用户在下载数据的时候有两种安全级别的传输模式:高安全传输模式和低安全传输模式。

5 结论

云存储服务是云计算服务的基本服务形式之一,用户对云服务的最大担忧是数据的安全性。我们调研了各大CSP,如,Google、Amazon和Microsoft等,发现在这些云系统中保证数据安全性的机制是简单的存储多份相同数据,这极大降低了存储空间的利用率。因此,我们设计了一个基于秘密分享方案的、空间高效的、面向用户的、安全、可调节数据存储方案。方案中利用拉格朗日插值公式和秘密分享技术备份用户数据,从而达到了对数据加密和提高空间利用率双重目的。本文详细介绍了方案的架构,并结合设计目标对方案做了详尽的分析,完全达到了既定目标。最后,我们通过分析可知备份过程的时间复杂度为O(K2),当K取值合理时,备份时间开销是完全可接受的。

数据云存储方案第9篇

关键词:云存储;同态加密算法;密文检索

中图分类号:TP309.7

随着信息数据量的急速增长,信息数据的存储和管理都变得越来越困难。用传统的本地存储策略己经逐渐难以满足人们对信息的存储和管理需要,而云存储技术的提出,成为了一种解决信息数据存储和管理的有效途径。但是大多数云存储平台忽视了用户数据的安全性,将用户的信息未经任何加密处理直接存放在云存储平台上,很容易造成用户数据的泄露,云存储的安全问题变得十分重要。另外,当保存在云服务器端的密文数据发展到了一定的规模时,对密文数据的有效检索将是一个亟待解决的问题,传统的信息检索技术已经难以满足云存储环境下海量数据检索的需要,云端加密数据的有效检索成为当前亟待解决的重要研究课题之一。

为了解决上述问题,文献提出一个基于云存储的文档加解密及密文检索算法,该算法允许用户将密钥存储在本地,服务器上不会存储用户拥有的密钥。用户将文档加密后上传到服务器,当用户想要解密文档时,首先从云端下载加密后的文档,然后对文档进行解密后得到明文。当用户需要对存储在云端加密文档进行检索时,不需要上传密钥到服务器,从而保证了在云存储平台不可信的情况下用户数据的安全性。

1 现有的同态加密方案及其局限性

1.1 DGHV方案和CAFED方案

DGHV方案和CAFED方案适用于服务器可信的情况下,因为使用该算法时,在用户请求服务器对关键词进行检索的时候,用户必须将加密密明P发送给服务器。这样对于服务器而言,用户存储的密文数据将是完全透明的。若将该算法应用于服务器不可信的云存储系统中,用户的存储在服务器上的信息很有可能被泄露,信息的安全性得不到保障。

1.2 ADC方案

ADC方案在DGHV方案和CAFED方案的基础上做了进一步的改进。用户请求对关键词进行检索时,不需要上传加密密钥P。但ADC方案有一个巨大的缺陷,那就是只有当检索词与加密明文段完全相同时,ADC提出的检索方法才有效,这导致在检索的过程中存在以下两个问题:(1)当检索词只是加密明文段的一部分时,检索结果将显示检索词不存在,这显然与事实不符(2)由于在实际的检索情况下,检索词比较短,这也就限制了加密明文段的长度,大大增加了关键字被分割在多个加密明文段中的概率,此时该检索方法也将失效。这些都导致了ADC提出的密文检索方法实用性很低。

2 本文提出的方案

2.1 加密过程

首先将明文进行比特分组(分组长度可以根据安全需求来确定),然后对每个明文分组mi做加密运算,对明文的加密过程分为如下几步:(1)选取随机产生的安全大素数P,选取随机产生的安全大素数Q(Q的长度>P的长度>明文分组长度);(2)把消息M划分成长度为L的明文分组M=m1m2m3…mi;(3)使用加密算法ci=mi+P+P*Q,计算出密文C=c1c2c3…ci;(4)将密文消息C和安全大素数Q发送给服务器。

2.2 解密过程

(1)用户收到密文后,将密文消息 后,对密文消息进行分组,得到C=c1c2c3…ci;(2)使用密铜P和解密算法mi=cimodQ,计算mi;(3)得到明文消息M=m1m2m3…mi;

2.3 密文检索过程

本文的算法对关键字Kindex的检索过程如下:(1)用户用加密算法Cindex[j]=mi+p(x,y),Cindex[j+1]=mi+p(x,y)+1对mi进行加密,其中p(x,y)指的是截取P的第x位到第y位生成的一个大整数,加密的结果将得到一个数组Cindex,记录Cindex[j+1]=mi+p(x,y)+1是为了剔除前一个运算造成的进位误差;(2)服务器接收到检索词密文信息Cindex,然后从存储密文的文件中读取密文信息C=c1c2c3…ci;(3)服务器使用检索算法di=cimodQ,然后以字符串的方式统计Cindex在di中出现的次数,这样不仅能实现对加密后的信息进行搜索,同时可以统计出检索词在加密后的文本中出现的次数。

3 方案特点

3.1 文档检索的安全性

与其他的同态加密方法相比,如DGHV算法和CAFED算法,在用户请求服务器对关键词进行检索的时候,用户必须将加密密明P发送给服务器。这样对于服务器而言,用户存储的密文数据将是完全透明的。若将该算法应用于服务器不可信的云存储系统中,用户的存储在服务器上的信息很有可能被泄露,信息的安全性得不到保障。本文采用的文档检索方案,不需要使用密钥P,从而可以保证在服务器端不可信的情况下用户数据的安全性。

3.2 密文检索的准确性

与其他的密文检索算法相比,本文提出的密文检索实现的方式大幅提高了检索结果的准确性。其他的一些密文检索算法,ADC加密算法,该算法原本的密文检索存在严重的缺陷,只有当加密的密文段对应的明文和检索词完全相同时才能确定加密文档中存在检索词。例如当明文段mi=“我爱你中国,我爱你中国,美丽的中国”,当检索词为“中国”时,该算法的检索结果是明文段mi与“中国”不相等,从而无法检测到mi中包含“中国”。而我们采用的检索词加密以及密文搜索方法可以解决这个问题,并且可以统计出明文中包含的检索词“中国”的个数,而且没有检索词长度必须要等于明文段长度的限制。

4 结束语

本文提出一种安全云存储系统实现方案,该方案采用同态加密算法来实现,包括文档加密、文档解密以及加密文档搜索等三个核心部分。与其他的同态加密算法相比,该方案在密文检索的过程中不需要用户上传密钥,保证了在云端服务器端不可信的情况下用户数据的安全性。其次,该算法极大地提高了加密文档搜索的准确性,检索的过程中,在不对加密文档进行解密的情况下,不仅可以发现一个文档中是否包含检索词,同时可以统计出文档中包含的检索词的个数。希望本文提出的面向云存储的加密方案能对云存储加密特别是在密文检索方面能起到一定的推动作用。

参考文献:

[1]王映康,罗文俊.云存储环境下多用户可搜索加密方案[J].电力科学,2012(09).

[2]齐哲.基于云存储的密文检索研究和实现[D].北京邮电大学,2013(01).

[3]张雪娇.基于整数上同态加密的云存储密文检索系统[D].中国海洋大学,2013.

[4]董勇,谢雪峰,郑瑾.文档安全防泄漏系统的研究与实现[J].电力信息化,2013(01).

[5]梅凯珍,.基于过滤驱动的局域网透明文件安全加密方法[J].计算机技术与发展,2012(04).

[6]蔡洪民,伍乃骐,胡奕全.分布式文档管理系统的设计与实现[J].计算机应用与软件,2010(06).

[7]谭武征.云安全存储解决方案[J].信息安全与通信保密,2012(11).