欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

大数据技术优选九篇

时间:2022-12-17 12:44:36

大数据技术

大数据技术第1篇

关键词: 大数据; 4V特征; Hadoop; 云计算

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)01-13-02

Overview on big data technology

Yang Jing

(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)

Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.

Key words: big data; 4V characteristics; Hadoop; cloud computing

0 引言

物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。

1 大数据的定义及主要特征

与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:

⑴ 体量Volume,是指数据存储量大,计算量大;

⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;

⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;

⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。

2 大数据技术的应用领域

通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。

2.1 金融领域

大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。

2.2 市场营销

今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。

2.3 公众服务

大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。

2.4 安防领域

安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。

3 大数据处理关键技术

3.1 数据备份技术

在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。

3.2 Hadoop

大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。

3.3 云计算

如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。

4 大数据应用带来的信息安全隐患及应对策略

大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:

⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;

⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;

⑶ 提高警惕积极探索,加大个人隐私数据保护力度;

⑷ 深化云计算安全领域研究,保障云端数据安全。

5 结束语

在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。

参考文献:

[1] BARWICK H. The "four Vs" of big data. Implementing Information

Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.

[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,

2012.7:173-174

[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研

究[J].计算机科学,2013.40(10):360-365

大数据技术第2篇

关键词:大数据;数据库技术;数据标签

1引言

数据库技术主要是通过相关的技术措施对信息数据进行有效的存储管理、优化数据结构、设计数据管理模式等。另外,数据库技术还可以对库里的数据进行科学合理的整合分析,挖掘数据的真实性和实用性,找出不同数据之间的联系,这也是当前社会发展的实际需求,对于现代信息技术的发展起着十分重要的作用和意义。

2数据库技术简介

随着大数据技术的不断改革完善,作为近年来兴起的新型技术,它在一定程度上是随着云计算的出现而发展的。立足于云计算的相关技术,对人们生活和工作中产生的大量数据进行综合处理,结合计算机技术、网络通信技术、数据库技术等,有效推动社会经济的稳步发展。数据库技术在推广和普及过程中,主要是以计算机信息技术为载体,充分结合传统数据信息处理技术和互联网技术,对社会中的生产要素和业务要素进行及时有效的分析和更新,调整社会中现有的业务结构和发展模式,从而有效实现经济转型。

3大数据时代背景下数据库技术的应用现状

3.1构建与面向对象实际需求相结合的数据库

在进行数据库的开发和利用过程中,应当充分立足于用户的实际需求,有效结合面向对象方法,根据数据库的分析情况,充分了解用户的需求,为用户提供更为全面和细致的服务。从一定意义上来讲,不仅可以体现出个性化服务,还能保障数据传输过程中的安全性和实效性[1]。根据相关调查研究可以看出,当前我国数据库技术仍处于不断发展和创新时期,面向对象搭建出高效的数据库,并且根据用户需求不断进行调整优化。

3.2构建与多媒体技术相结合的数据库

一方面,对大多数群体来说,多媒体数据库中所存储的资料数据更多,界面的设置也更加多元化,能够在第一时间吸引人们的注意力,从而更好地满足人们的个性化需求,实现技术的多元化发展。另一方面,数据库的安全问题一直是人们最为关注的问题,安全隐患一直是制约数据库技术发展的重要因素,通过有效融合数据库技术与多媒体,可以在一定程度上提高数据库的安全性能和稳定性能。在实际工作过程中,为了充分推动数据库的发展和多媒体技术的有效融合,相关工作人员应当解决以下几个问题。第一,多媒体数据库在实际使用过程中必将涉及到用户的个性化需求,在进行设计时应当有针对性的融入相关数字数据,实现多媒体数据的有效管理和存储,已成为了技术节点搭建的重要模块。第二,数据库技术与多媒体技术要实现有效结合必将涉及到系统的兼容性,这不仅是数据之间的融合,还是数据交叉使用的重要内容,如何充分进行二者的融合和兼容,是全面深入实现多媒体数据库面临的主要问题[2]。

4大数据时代背景下的数据库技术特点

4.1统一性

受传统数据库系统搭建模式内容的影响,不同类型的数据库在使用中仍存在不兼容的情况。因此,无法充分利用数据库中的信息资源,造成了资源的闲置或浪费,无法充分满足用户的实际需求。大数据时代背景下的数据库技术可以有效解决这一问题,针对不同类型的数据库进行有效统一的数据库建设,不断完善数据信息资源的检索功能,从而提高用户的满意程度和工作效率,简化操作流程[3]。

4.2共享性

数据库技术的有效实现和价值体现,在一定程度上取决于数据信息资源的共享性。人们可以通过方便快捷的方式方法获取资源,不断提高信息的使用效率。在实践应用过程中,相关工作人员可以根据虚拟数据的实际情况对各个数据库中的子节点进行科学合理的搭建,逐渐实现功能的多元化发展和信息资源的共享。随着我国信息技术的不断发展,数据库技术的逐渐拓展和信息资源的共享,在一定程度上实现了信息资源的方便快捷,不断满足用户的多元化需求,从而充分体现出数据库的价值和作用。

5大数据时代背景下数据库技术的应用对策和手段

5.1数据标签

数据标签是大数据时代背景下使用数据库技术的基础,能够充分实现数据的查询和有效定位。在进行数据库的有效搭建和完善过程中,相关技术人员应当有针对性地凸显出数据库中相关资源的特殊性,充分立足于社会发展的实际需求,科学合理的设置相应字符长度,不断提高数据标签的科学性和合理性。

5.2节点建设

在使用数据库时,节点建设应当是建设的核心和关键,各个要素之间的有效搭建能够充分满足用户的实际需求,体现出个性化发展目标。根据实际情况可以看出,当前我国在节点建设中仍存在一定的问题,比如过于注重其标准性,采用固定的某种模式进行搭建,没有充分考虑到实际需求,使得节点建设脱离实际,无法充分发挥数据库技术的作用和功能。基于此,相关技术人员应当在原有数据库技术基础上进行优化完善,结合原有的地址内容和关键词检索信息,对整个数据信息资源进行重新整合,从而提高数据库的有效性。

5.3虚拟大数据系统

在数据库中灵活有效搭建出虚拟大数据技术可以更好地实现数据的海量管理,对数据库综合性能的提升和创新改革服务内容等都有着极其重要的作用和意义。虚拟大数据系统为数据群的前台,其功能的实现直接影响了数据库和节点信息资源的收集交汇,合理分配任务。虚拟大数据系统应当是整个虚拟数据中的关键所在,只有确保其正常高效运行,才能为用户提供更为更全面的服务[4]。

5.4信息获取

我国现有的数据库技术更为注重数据信息资源获取渠道和机制的创新完善,通过交互式管理模式,不断进行信息的重组和创新。一方面,对于信息的获取应当充分考虑到用户的实际需求,搭建出由上而下的健全数据信息获取途径,使得用户获得更为全面系统的数据信息,确保信息的真实性和可靠性。另一方面,在获取元数据时,技术人员应当充分运用虚拟大数据技术,对数据进行有效获取。

大数据技术第3篇

【关键词】大数据 管理技术 数据库

随着互联网技术的发展,网络数据不断增加,需要处理的数据也是越来越多,面对庞杂的数据,我们需要更大的存储管理空间。大数据管理技术的及时出现,纠正了对于庞杂数据的混乱状态。但大数据技术无法可以将大量的数据存储于一台或者几台计算机之中,更无法借助计算机去管理大数据。大数据技术的应用还有待提高。

1 国内外对于大数据的研究现状

1.1 国外情况

美国政府特别重视大数据技术,他们将大数据技术看作是增强美国综合竞争力的关键要素之一,把大数据的研究及生产计划放在了国家战略的层面。政府为了激励大家研发大数据技术拨发2亿多美元来协助研究。据了解,美国的国防部开始利用大数据技术搜集情报,提高技术的反应速度及处理能力,充分实现决策自动化。美国的中央情报局利用这种技术可以大大缩减获取获取情报的时间,加快了信息传递的速度。

继美国对大数据技术研究利用之后,许多发达国家也纷纷开始研究利用大数据。欧盟委员会仿照美国政府也推出了一个崭新的平台,以展示政府的信息的公开度以及民主度。欧盟推出的ODP不仅是为了推广数据,还为了传播统一的语言用法规则,确保数据的有效性及应用性,方便大众的数据需求。

1.2 国内情况

2012年8月,我国政府构建了大数据技术研究平台,整合社会中的创新资源,积极推进创新技术的运用,在大数据技术中融入创新。为了贯彻落实大数据技术研究策略,广东省率先启动了大数据研究战略,积极推动政府转型;接着北京市也开启探索大数据技术研究应用之路,上海也积极发起大数据技术研发的“三年计划”。

2014年2月27日,国家成立了中央网络安全与信息管理小组,组长指出:“没有网络安全就没有国家安全,没有信息化就没有现代化。”想要建设网络强国,就必须要拥有过硬的技术。现今,国家将大数据作为国家发展战略之一,在具体实施的过程中,督促企业将大数据技术提升到企业战略层面。

2 大数据管理技术的发展前景

当前对大数据管理技术的应用主要分为操作型应用、分析型应用,分析型应用指的是对大数据的聚集、分类、汇总,最后得出数据大小的分析结果;操作型应用则指增加、修改、删除数据,对数据进行简单的汇总操作,操作的数据量较小,经用的时间较短。目前的大数据库主要有noSQL数据库和关系型数据库两种类别,但是由于数据类型的不同及数据技术应用的要求,所以目前的大数据管理技术主要有以下四种方式。

2.1 侧重操作的关系数据技术

首先,传统数据技术是存储基础上建立的关系数据,如 Oracle、DB2、SQL Server 等,具有精准性、高度一致性、可恢复性,能够达到快速处理数据的目的。其次,针对计算的内存数据技术,如Timesten、 Hana、Altibase 等其主要功能是控制、恢复、查询数据,通过那三种方式来实现控制操作内存,具有极高的性能,在很多特定领域中得到应用,例如证券、电信、网管等。

2.2 侧重分析的关系数据技术

首先,TeraData 是数据技术中的先行者,Teradata 是按 照Shared Nothing的整体架构体系来进行自我组织,其组织目标就是建立大型的数据存储系统,具有极高的扩展性。其次,面向分析型的列存储数据技术应用,其主要特征是具有高效的压缩功能,在分析型数据技术的应用领域中属于存储数据技术最为发达的。

2.3 侧重操作的noSQL数据技术

一些操作型的数据技术虽然不受 ACID的约束,但对大数据中需要处理的数据量的需求极高,对处理速度的性能要求也极高,这样就对大规模数据的并行处理能力的要求极高。在这个时候,就可以利用操作型noSQL技术来实现大数据的处理。例如,Hbase 有着一天超过 两百亿的读写操作,达到对大数据的完美处理。最重要的是,noSQL 技术支持数据的多样性、其数据的模型较为灵活,可以对图数据进行建模、分析和存储,其性能、扩展性是其他关系数据库所无法相比较的。

2.4 侧重分析的noSQL数据技术。

面向分析的 noSQL 数据技术主要依赖于Hadoop 技术,Hadoop 是以 Map Reduce和HDFS 为基础的分布型计算平台,为用户提供详细的透明的分析。Hadoop 公式计算平台的实践技巧引起了许多数据厂商的研究兴趣,例如Oracle,Microsoft,IBM,SAS 等,Microsoft为了研究Map Reduce技术,就关闭了自己原有的研究方向Dryad;Oracle 在 2011 年的下半年了大计划的战略,全力研究大数据管理技术,但是IBM 是最早研发数据管理的,其“沃森(Watson)”计算机就是在 Hadoop 技术上研发出来的产物,其又开启了 BigInsights 计划,这个计划是在 Netezza,Hadoop 和 SPSS等技术的基础上建立一种大数据管理技术的框架。

3 结语

在这个信息技术快速发展的社会中,我们需要大数据管理技术来实现数据长久有效的管理。大数据管理技术还在不断完善,不断发展,它的研究价值需要我们进一步去开发。随着人们不断增长的数据管理技术需求,大数据管理技术会逐步满足人们的需求,实现其使用价值,达到高效、快速的数据管理效果。

参考文献

[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域―大数据的研究现状与科学思考[J].中国科学院院刊,2012(06).

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(01).

[3]王振东.强化计算机数据库管理技术的有益分析[J].软件开发利用,2014(35).

[4]涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2013(01).

大数据技术第4篇

关键词:大数据时代;数据挖掘技术;应用

大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。

1大数据时代下数据挖掘技术的基础教学方法分析

数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。

2大数据时代数据挖掘技术教学要点的分析

2.1数据挖掘技术流程分析

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

作者:何智文 邓伦丹 单位:南昌大学科学技术学院

参考文献:

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,03:45-47.

大数据技术第5篇

关键词:大数据;分布集群;高可用;高可靠

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02

1 概述

当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。

在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点:

1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。

2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。

3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。

4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势:

1)数据库自身内置的功能;

2)配置管理较简单,不需要熟悉其他第三方的软件产品。

3)物理Standby数据库支持任何类型的数据对象和数据类型;

4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。

5)在最大保护模式下,可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。

在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:

1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2)支持面相对象、xml数据类型,满足数据类型多样化的需求。

3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。

7 结束语

随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献:

[1] 齐磊.大数据分析场景下分布式数据库技术的应用[J].移动通信,2015(12):58-62.

大数据技术第6篇

关键词:大数据 数据挖掘 方法

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)04-0222-01

1 大数据时代数据挖掘的重要性

随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。

如果运用合理的方法和工具,在企业日积月累形成的浩瀚数据中,是可以淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就非常完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。

数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。

2 数据挖掘的分类

数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技术进行如下几种分类:

2.1 按挖掘的数据库类型分类

利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及事务型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。

2.2 按挖掘的知识类型分类

这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不仅仅是一种单一的功能模式,而是各种不同功能的集合。同时,在上述分类的情况下,还可以按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时可以将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类,一般来说,数据的规则性可以通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法,同时还可以通过这些挖掘方法来检测和排除噪声。

2.3 按所用的技术类型分类

数据挖掘的时候采用的技术手段千变万化,例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。

2.4 按应用分类

根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术,每种数据挖掘技术都有自身的专用性。

3 数据挖掘中常用的方法

目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。

遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。

决策树算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。

粗糙集算法:这个算法将知识的理解视为对数据的划分,将这种划分的一个整体叫做概念,这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。

神经网络算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要,同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

大数据技术第7篇

关键词:大数据 智能 数据分析

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).

大数据技术第8篇

光纤、全浸式液冷和水平机架、多宽带线路合并为一、用户配置虚拟化等,这些或者已经得到应用或者尚在研究之中的新技术,将使得数据中心的管理更为简单、运行更加平稳,也更加节能。

与电子消费产品受到了普通消费者越来越广泛的关注相比,关注数据中心的人要少得多,但这并不意味着数据中心的技术创新脚步就比电子消费品的慢。事实上,从事数据中心相关研究的科学家们同样在加紧研发各种先进的产品和技术,这些新产品和技术或者要解决数据中心面临的实际问题,或者致力于让系统工作得更加稳定。以下是近期最值得关注的6种创新性技术。

光纤技术

HDMI电缆在消费电子领域的成功经验已经证明。让一种电缆同时支持蓝光播放机、高清电视机和任意机顶盒,将会给消费者带来很多方便。英特尔基于同样的思路开发出了Light Peak技术,这种光纤将首先用于笔记本电脑和台式电脑,以提高传输速度,同时消除使用连接线时的麻烦。当然,这种光纤也可以用在数据中心,用于连接服务器和交换机。

这种光纤只有3.2毫米,粗细与USB电缆相仿,最长可以达到100英尺。英特尔已经设计了可安装在计算机中的控制器,光缆现在也进入生产环节。英特尔称,包括惠普、戴尔在内的多家公司将在2011年开始生产采用光纤连接的计算机,这些光纤将应用Light Peak技术。

Light Peak引发了人们将光纤技术应用于数据中心的兴趣。实际上,数据中心对光纤并不陌生。自20世纪90年代初,IBM推出了ESCON(企业系统连接)生产线,光纤就已经应用在数据中心,在大型机中它的数据传输速度可以达到200Mb/s。而Light Peak技术的不同之处在于,它的数据传输速度能达到10Gb/s。另外,英特尔还表示,采用该技术的光纤产品将更便宜,比现有的光纤产品更轻。

美国马萨诸塞州康科德Pund-IT公司的分析师Charles King说:“英特尔表示,由于去除了不必要的端口,Light Peak技术降低了复杂程度,也易于管理,能满足为高性能的e-SATA和DisplayPort系统提供较高吞吐量的需求。如果英特尔公司所说的这些优点真能实现,那么Light Peak将可以大大简化这些数据中心管理人员的工作。这些人一直被安装、管理和维修那些不太可靠的光缆所困扰。”

King认为,这项技术的成功与否将取决于开发商和供应商是否愿意接受Light Peak,并生产其周边产品。

全浸式液冷和水平机架

数据中心用液体冷却不是一个新概念,但下面介绍的这一冷却技术却为此带来了一个新的转折。这是由Green Revolution Cooling(以下称GR Cooling)带来的全浸式液冷和水平机架技术。

首先,它们的机架一侧是打开的,这有助于电缆管理,也让管理员能够更容易操作设备。同时,水平放置的机架完全浸入到液体中。GR Cooling的发言人表示,这种名叫GreenDEF的新冷却液是由矿物油提炼而来,无毒也不导电,更重要的是成本低。

美国德州高级计算中心(德州大学的一个下属单位)计算机系统主管Tommy Minyard说,“液体在底部和线路板之间循环流通,几乎流过了计算机的所有节点。”他解释说。这意味着更有效的冷却。Minyard正在他自己的数据中心安装GR的冷却系统,预计会比传统的空气制冷系统节省30%~40%的开支。

尽管和空气制冷相比,采用GR Cooling技术的前期投入成本要高,但是这些投入是值得的。因为这种制冷技术支持更高的功率密度,支持能耗更大的系统,比如采用了刀片服务器和英特尔最新处理器的计算机系统。超级计算机Ranger每个机架功耗就达到30千瓦。

Minyard介绍说,Cray很早以前就提出全浸入式液体冷却技术,后来一直没有真正普及,而最近这种液体冷却技术卷土重来,人们重新对它提起了兴趣。甚至IBM公司现在也重新研究计算机节点的液体冷却技术。

Pund-IT的King说,现在的主要问题是,企业对用液体冷却数据中心的回报有担心,因为这项技术的实施需要很高的投入,毕竟它还是一个未经广泛使用的技术。

GR Cooling创始人之一的Mark Tlapak说:“通常,液体冷却系统的前期安装成本比空气制冷系统要高,但是,采用我们的技术总体成本会比风冷更低。”

他解释了成本更低的原因,一个是他们所使用的液体成本比较低,另一原因采用他们的技术之后,数据中心的可扩展性更好。

“数据中心的成本与该数据中心的用电量很有关系,如果耗电量下降,那么很多方面的成本也会降下来,包括发电机、UPS、冷却塔等。”Tlapak说。

多条宽带线路合并为一

企业可以部署光纤线路,或者租用多个T1连接,但这些连接投资都不少。目前,有一种新兴技术可以提供一个低成本的解决办法。

Mushroom Networks的Truffle BBNA(BroadbandBonding Network Appliance,宽带联合网络设备)通过一种名为绑定的技术同时整合了多达6条独立的宽带连接,来提供一条高速连接。该公司说,Truffle技术能将所有可用的宽带线路组合成一条传输速度高达50Mb/s的宽带连接,这些宽带连接可以是DSL调制解调器、电缆调制解调器、T1线路或其他任何宽带连接。

这一技术既有助于提高访问互联网时的整体吞吐量。客观上也是一种备份。如果一条线路损坏,Truffle连接也能依靠其他可用的线路正常运行。

肯尼亚的一个电视制片人Steve Finn在其名为《挑战非洲》(这个节目在8个非洲国家播出)的电视节目中使用了Mushroom Networks公司的设备。他说,这个电视节日内容制作需要宽带,最多曾每月为宽带费花去4000美元。而该设备能提供4倍以上的连接速度(四个单独的线路速度叠加),而花费大约是同等高速线路的一半。

Omni Consulting Group的分析师Frank J・Bernhard说,Mushroom Networks满足了那些不想支付多个Tl或T3连接的高昂费用,却仍然需要可靠和快速的互联网接入的公司的需求。尽管其他公司(包 括恩科公司)也提供了同样的联合技术,但是要比Muahroom Networks的成本更高,安装更复杂。由此说明,该项技术还并没有广泛被应用。

让多数据中心的连接更容易

在一个大型企业中,保持多个数据中心的连接是一个很令人头疼的问题。这其中有安全问题、以太网传输的问题、操作问题(如保证各分支机构的交换机之间连接速度最快),以及由于IT业务在多个地点运行必须考虑的容灾问题等。

思科新研发了一种名为OTV(Overlay Transport Virtualization)的技术,用这种技术连接多个数据中心比用传统方法要容易得多。它基本上是2层的网络传输技术,由软件来更新网络交换机(包括思科的Nexus 7000)连接位于不同地区的数据中心。

该OSV软件每个许可证约为25000美元,它能充分利用数据中心之间建立的连接的最大带宽。思科技术发言人表示,现在市场也有一些连接多个数据中心的技术,如多协议标签交换(MPLS),更早的则有帧中继和异步传输模式协议等。该发言人解释说,与这些方法不同的是。思科OTV技术不需要重新设计网络,也不需要在内核中安装如标签交换这样的特殊服务。OTV只是简单地覆盖现有的网络,它在继承所有精心设计的IP网络优势的同时,保持了在第2层进行互联的数据中心的独立性。

总部设在迈阿密的云服务供应商Terremark使用思科的OTV来连接它在美国、欧洲和拉丁美洲的13个数据中心。该公司说,与“自己动手”进行连接的方法相比,OTV节省了很多开支。由于减少了复杂性,同时OTV还有自动错误恢复功能,这就使得在发生灾难时,多个数据中心的恢复就像一个那样简单。

Terremark的高级副总裁Norm Laudermileh说:“传统上,想要达到负载均衡或在紧急情况时实现各数据中心的自动恢复功能,需要专门的网络和复杂的软件。而采用思科的OTV,从一个地方发出的以太网信息被封装起来传送到另一个地方,这样就建立起了一个逻辑的数据中心。一旦发生故障,就可以采用像VMware的VMotion这样的技术把一个位置的虚拟机自动地迁移到其他物理位置。”

基于优先级的电子邮件存储

通信是现代企业经营的前提和基础,但我们常常见到,电子邮件在数据中心中仅仅是被当做需要归档的一个数据集来看待,没有加以细分。而Messagemind可以自动确定哪些电子邮件可以安全保存到成本更低的存储系统中、哪些邮件需要保存到性能更好的存储系统中。该工具能分析公司所有通信资料,跟踪最终用户对每一个邮件的阅读、删除或保存操作,然后按优先级分组。

数据中心管理员可以利用这些信息按照优先级存储电子邮件,这可以节省成本。例如,不用把所有电子邮件都存储在一个高成本的存储系统。那些标记为低优先级(根据最终用户的点击行为来确定)的邮件可以存储在更便宜一些的存储系统中,只有高优先级的电子邮件才存储在更高的性能、更高成本的介质中。

这个分析功能也可以用在数据中心之外的场合,比如。用到商务智能系统的仪表盘中,管理人员和最终用户在仪表盘上就可以看出某个项目谁帮助了他,企业还可以查看电子邮件的联络图,看出谁在工作项目上的沟通是高效的、谁是落后的、谁又是很少做出贡献的。

Pund-IT的King说,Messagemind有很有趣的应用前景,因为电子邮件系统现在似乎垃圾遍地,充斥着支离破碎的对话和不连贯的项目讨论。而对于常遭受诉讼困扰的公司来说,管理电子邮件非常痛苦,因为电子邮件已经成为法律证据的一部分。

“即使是最好的电子邮件解决方案,也要求员工来管理他们的信息,”King说,“如果真如广告所言,它会在企业中得到广泛应用。通过有效自动地管理电子邮件,Messagemind可以大大减轻数据中心管理员肩上的负担,让他们不用在不断增加的存储压力下苦苦挣扎。”

用户配置虚拟化

虚拟化已经成为过去10年中最时髦的词汇之一,但它通常所指的是把操作系统与服务器分离或者把数据与存储位置分离。AppSense是一种用户配置信息虚拟化的软件。它从Windows应用程序中收集用户配置信息,并将它们独立保存。这意味着,如果一个应用程序更新或更改,用户信息仍然可用。如果用户配置信息已损坏或丢失,管理员可以用最廉价的付出将其恢复。

大数据技术第9篇

关键词:大数据;计算机;数据备份;安全保障

中图分类号:TP311

文献标识码:A

文章编号:1009-3044(2017)10-0025-01

数据信息作为时代的信息管理标志其安全性必须收到更大的重视,数据信息的安全存储系统尤为重要,防止信息数据的丢失的管理备份系统更为重要。因此能够将数据信息妥善管理,保证其正常工作的技术相当重要,但当数据真正丢失或不可避免地出现问题以后能够尽快地将其找回或者是在有效的时间内将其完整地恢复,以确保整个计算机系统能够正常工作的技术更是必不可少的。

1.数据备份概念及其特点

数据备份指的是将计算机系统的所有数据或者是部分重要数据借助某一种或多种手段从计算机一个系统复制到另一个系统,或者是从本地计算机存储系统中复制到其他的存储系统中。其目的就是保障系统可用或者是数据安全。防止由于人为的失误或者是系统故障问题亦或是自然灾害等方面的原因造成系统数据的安全性无法保障的问题。数据备份更重要的原因是数据信息的多重保存以备不时之需。

数据备份按照备份的实现方式可以分为单机和网络两种备份方式,传统的备份就是单机备份针对计算机本身将数据进行异地存储,现代比较流行的就是网络备份。这是针对整个网络而言的,这种方式的备份较为复杂,是通过网络备份软件对存储介质和基础硬件存储设备的数据进行保存和管理。由于网络备份是在网络中进行数据备份的,因此也就不同于普通的传统单机备份,是包含需要备份的文件数据和网络系统中使用到的应用程序以及系统参数和数据库等内容的。

数据备份的作用在于:一方面,在数据受到损害时对数据进行还原和恢复;另一方面,数据信息的历史性、长久保存,方便数据的归档。

2.数据备份存储技术

备份换言之就是数据的再存储,因此备份技术是存储技术的重要内容之一,但是数据备份存储作为计算机系统技术与简单的备份区别很大。计算机数据备份存储技术时更为全面、完整、稳定安全的数据信息的备份,是网络系统高效数据存储的,也是安全性较高的网络备份。

文件存储作为最基础的数据类型是随机存储在硬盘上的数据片段和文档资料,这些存储的数据文档、报表甚至是作为数据库文件的应用程序等等在存储一定的量就会出现超出容量的情况因此对其的整合是必要的。这样的整合是将存储的各类数据或者是数据库以一个顺序和程序的形式出现,帮助人们解决备份存储的空间问题,技术问题以及成本问题。更能将工作人员的连续数据维护和监控从繁重的工作中解放出来。

3.保障计算机数据网络备份的安全性策略

通过网络传输的备份数据在传输过程和传输路径方面必须确保数据的安全性。若不能保证数据的安全那么一些企业的关键数据和重要应用程序就会受损,甚至是失去了备份的意义。因此相比单机备份而言网络备份更要确保安全传输和安全存储。

首先确保备份数据的机密性。数据信息的网络备份不能被非法用户随意获得,因此在数据备份过程和传输过程中必须防止数据的机密性被破坏。一般数据备份常用的方法是加密。必须保证是数据拥有者才能使用这些数据信息,关键的数据信息的加密工作相比更加严格。数据内容不容有失,甚至是数据的相关名称和代码等也不能随便被非法进入系统的人获得才是最能保障数据安全的方式。

此外,在数据网络传输存储之前一定要确认接受信息一方的真实性,核实双方信息是否匹配,一定要在双方身份确认之后才能对网络的数据信息进行发送和接受,这样既避免了欺诈行为又确保了网络中间不可信的因素存在使数据信息遭到破坏。

其次。确保备份数据的完整性。数据备份存储不是一个简单的过程,数据信息是通过设备和网络之间传输来完成备份数据存储的。这一个成必须要保障所传输的信息完整地被上传而且这些数据信息不能被其他方拦截和篡改,以破坏备份数据信息的内容和属性等。此外在存储时也要保障数据信息的正确无误完整保存。

再次,备份存储的数据可用性。数据存储必须是可用的,而且是计算机资源用户合理合法的使用。对于网络备份系统的信息和信息用户系统的信息是完全一致的,是可用的。备份数据资料必须在合法用户需要时可以随时安全使用。这是网络数据备份存储必须保证的。