欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

大数据分析论文优选九篇

时间:2023-03-20 16:23:13

大数据分析论文

大数据分析论文第1篇

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。

5结束语

大数据分析论文第2篇

数字化档案的凭证价值,取决于元数据的整体性,如果对于某份数字化档案的元数据整体中某一项元数据缺失,那么该份数字化档案的凭证价值也就丧失。因此元数据的实施一定要标准化,要想保证元数据在实施中的整体性,只能依靠标准化。

1数字化档案管理元数据需求分析的内涵

在现有的国际、国内、行业等标准的基础之上,才能实现数字化档案管理元数据的需求分析,这些是针对具体的数字化档案类型、用户、业务管理流程等采用科学的方法所进行的元数据模型中元数据功能项的设置分析及对其描述的过程。这个功能的意思是要基于元数据元素、元数据模型。根据这一定义,应该明确的是,数字化档案管理元数据的需求首先是一种功能需求,需要确定需求分析的信息源并施以科学的方法。

2 数字化档案管理元数据需求分析的信息源

数字化档案管理需求分析的信息源,是以数字化档案管理元数据需求分析的信息来源范围为主要的另外包含权威性文献、数字化档案本身、用户等。

就其本身而言的话,数字化档案的分类丰富,有多媒体数字化档案、视频档案、音频档案、图像、图形档案盒数字处理档案,因此,其信息源范围可以是关于字处理档案、图像档案、图形档案、音频档案、视频档案以及多媒体数字化档案的管理元数据范围的需求分析。

针对权威性文献而言,权威性文献可以分为法规、标准、政策、规范、最佳实现及理论等,因此,其信息源的分析范围可以是国内外的有关文件管理、档案管理和数字化档案管理的法规、标准、规范、最佳实践及理论中存在着的有关对数字化档案管理元数据需求的分析。

针对用户而言,信息源的分析范围可以是对文件管理者、档案管理者、数字化档案管理者、计算机系统管理员以及数字化档案利用者所提出的分析方法。

3 数字化档案管理元数据需求的分析方法

在数字化档案管理元数据领域中,对数字化档案管理元数据进行需求分析,要采用科学的方法才能保证其分析的科学性和准确性。笔者认为,有两类方法:一类是自上而下演绎分析法;另一类是自下而上归纳分析法。

3.1自上而下演绎分析法

3.1.1文献参考法

文献参考法,以“文献”形式表述有关法规、标准、政策、规范等,以保证符合现行法律的规定,是从“文献”的抽象到具体数据元的确定的方法。主要是从所涉及文件管理的文献中概括出数字化档案元数据的需求。美国匹兹堡大学的元数据项目是运用此法的主要代表项目,该项目主要研究文件管理的中凭证要求(简称《baC项目》)。

3.1.2理论推导法

从文件管理理论出发进行归纳演绎,以层层递进的逻辑来验证数字化档案管理元数据的合理性,即是理论推导法。

目前流行的文件管理理论主要有:文件连续体理论、文件生命周期理论和文件运动理论。不论采取哪种理论作为我们的研究依据,都对数字化档案管理元数据的需求均具有一定的指导意义。

以澳大利亚元数据研究项目《教育、研究与产业合作项目》(SPIRT project)为例,他们所制定的元数据主要依据澳大利亚所独创的“文件连续体理论(records continuum thinking)”;而加拿大不列颠哥伦比亚大学研究项目《数字化档案完整性保存项目(UBC)》则依据的是文件运动理论理论。按照我国目前的档案管理相关理论,我们要采取在我国比较流行的文件生命周期理论。

3.2自下而上归纳分析法

3.2.1调查访问法

通过对文件创建人员、文件管理人员等相关的专业人员等进行跟踪访谈和数据分析,按照用户的实际需要,在大数据的基础上得出数字化档案管理元数据需求。另外用到此方法的是在跨国联合项目――文件永久性凭证性问题在电子系统里的应用(简称INTERPARPES)。

3.2.2流程实际法

按照档案实际管理的业务流程为基础,通过数字化档案在管理过程中的运动为分析的切入点进行需求分析。研究者持有这类分析方法会认为文件管理流程和元数据是分不开的,所以,要理解元数据,就要紧紧联系数字化档案管理流程实际,值得注意的是,不是传统的手工管理业务流程。

以上方法各有优劣,如文献参考法,可以从宏观上保证建立的数字化档案管理元数据具有合法性和凭证性,但建立的标准过于宽泛;理论推导法,可以保证其合理性和系统性,但建立的标准偏向理论性,实用性不强;基于用户访问法建立的标准,其实用性和操作性较好,但缺乏完整性与系统性;流程实际法,即使具有可行和运用性范围依旧被局限。所以说,数字化档案管理元数据的需求分析时,需要综合作用各类所学多种方法分析需求,而不是孤立、单一的只作用一种方法,这样做才可能满足数字化档案元数据更全面和客观的需求。

4关于数字化档案管理元数据需求分析体系模拟建构

在以上探讨数字化档案管理元数据需求分析的内涵、信息源及方法的基础上,笔者尝试模拟建构需求分析体系。

首先,根据具体行业、应用领域的目标与特点,确定数字化档案管理元数据需求分析的信息源;需求分析的信息源主要包括,文献(规范、标准)、数字化档案本身、用户、数字化档案管理业务流程等方面。其次,对需求分析信息源进行分类整理、审读,综合采用科学的方法对信息源进行分析,简练出数字化档案管理数据的需要并形成需求陈述。再次,针对各需求陈述进行元数据的提炼,将提炼到的元数据进行分类,再将具体的元数据纳入到分析框架。最后,判断元数据元素项的设置,形成数字化档案管理元数据体系模型。

参考文献:

[1]阴庞龙,何景武. 大型客机构型管理研究[J]. 民用飞机设计与研究,2009(S1)

大数据分析论文第3篇

关键词 科研竞争力评估文献计量 院系

1 机构内科研竞争力分析的意义

随着我国科研的发展,科研资源的配置越来越受到关注,各种科研竞争力评估也应运而生。众多评估案例从不同角度、采取不同的指标来评价机构间的科研实力,也产生了很多版本的高校排名。目前常见评估案例的内容以机构间的对比评价为主,主要为部级别的资源配置提供信息。但对于单个的科研机构而言,其管理部门还经常需要在机构内部的各子机构之间配置资源,因而迫切需要全面了解院系等子机构的科研发展情况,识别出较有潜力的领域和科研团队。在这种情况下,针对某一机构及其子机构的科研竞争力分析报告,将有助于管理部门准确把握各机构目前在国内外所处的位置,科学判断机构所面临的竞争态势,合理分配科研资源。

2011年北京大学发展规划部为编写“十二五”规划,委托北京大学图书馆对本校的科研实力进行评估。为此,图书馆信息咨询部逐步探索了兼顾机构内外,全面反映机构本身及其子机构的科研现状及发展趋势的评估方法,对北京大学学术论文方面的科研竞争力进行了量化评估,最终完成《北京大学科研实力分析报告》。报告通过客观的数据分析,帮助北京大学的科研管理人员更为准确地了解目前的竞争优势与劣势,并为科研决策提供可靠的信息支撑。

2 机构内科研竞争力的评价思路

2.1 评价角度

科研的评价角度非常多,如:学术论文产出情况、著作产出情况、获奖情况、科研项目情况、科技会议参与情况、经费的获取与投入产出比情况等。无论从何种角度出发,都要在同行评议的同时,提供一个基于客观数据的量化评估体系作为基准和参考,才能实现公平客观、科学合理的科研评估。文献计量学分析将提供有关学术活动的一般特征信息,还是一个保持同行评议过程诚信的工具。因此,本文从文献计量的角度,探讨如何依据事实数据,客观评估机构、尤其是其子机构(院系)在学术论文方面的科研竞争实力。

本次评估从机构科研决策的需要出发,主旨在于帮助管理者发现机构的优势、劣势和突破口,因此既需要评估机构的整体科研实力和影响力,也会涉及各院系及个人的科研情况。此外,由于国内外不同机构的院系设置差异较大,难以实现真正院系级别的比较,只能通过学科评估作为院系评估的参考。因此,本文的科研竞争力评估主要包含三个层次:其一,北大整体科研实力以及与国内外知名高校的横向比较;其二,北大各学科的发展情况及其在国内外的地位;其三,北大各院系及研究人员的科研实力。

2.2 评价标准

在机构整体科研竞争力方面,主要分析机构论文被web of Science(WOS)等著名数据库收录和引用的情况,并将其与国内外知名高校进行对比,客观衡量当前的科研实力水平;考察特定时间段内机构论文的收录及被引数量变化,分析机构科研竞争力的发展趋势。考虑到科研人员在领域内著名期刊或影响因子较高的期刊上发表成果通常被视为科研绩效的一种指标,本次评估增加了机构通讯作者、JCR核心期刊、《Nature》、《Science》等的发文量统计;另外,鉴于人文社科领域国内发表的作品较多,将CNKI、CSSCI等中文数据库的收录引用情况作为参考。

在学科科研竞争力方面,主要分析不同学科的活跃程度;分析在全球有一定影响力的学科的及被引情况,并与国内外相关机构进行比较;此外,鉴于人文社科领域的特殊性,将此领域内各学科的论文收录情况与国内人文社科重点院校进行比较。

在院系的科研竞争力方面,主要考察各院系论文的收录及被引情况,并分析特定时间段内院系论文被收录及被引用的数量发展趋势;进行JCR核心期刊、《Nature》、《Science》、ESI的论文统计,识别出院系科研影响力较高的论文及其作者;此外,对多院系合作的论文进行单独分析,考察多院系合作论文的影响力和优秀率,以及学科交融情况。

2.3 数据来源

本文的评估数据主要以WOS数据库的SCI、SSCI、A&HCI数据为主,并参考基本科学指标数据库(Essential Science Indicators,ESI)、期刊引证报告(Journal Citation Reports,JCR)、《Nature》、《Sci-ence》的部分数据。人文社科领域以中国社会科学引文数据库(CSSCI),中国期刊网(CNKI)作为补充。

数据由北京大学图书馆信息咨询部成员按照作者署名、地址等从上述数据库中提取。由于短期的数据难以全面反映机构的科研实力和变化情况,因此本次评估提取了北京大学从2000年到2010年的科研产出数据,包括SCI中的2.5万余篇,CSSCI中的1.9万余篇,CNKI中的2.3万余篇,ESI中的近300篇文章。

由于数据库中作者、地址等字段的数据信息经常会出现不够规范和准确的情况,因此本次评估对提取出的数据库信息进行了人工清理,保证数据具有一定的准确性后再进行下一步的科研竞争力分析。

3 机构科研竞争力评价方法

3.1 整体科研竞争力评价方法

北京大学的整体科研竞争力主要从WOS总收录论文数、总被引次数、篇均被引次数进行分析,评价了2000~2010年北京大学被SCI、SSCI、A 8LHCI数据库收录的论文数量、总被引用次数、平均每篇论文被引次数。为降低国外合作对评估机构真实科研竞争力的影响,进一步分析了北京大学科研人员作为通讯作者的论文占总论文数的比重。同时,将北京大学被SCI、SSCI、A&LHCI数据库收录的论文数量和篇均被引次数与哈佛大学、牛津大学、香港大学、清华大学等国内外知名高校进行对比,衡量北京大学整体科研竞争力在国内外的地位。

考虑到不同学科在期刊论文的发表和引用方面有着很大的差异,我们采取分学科的方式选取优秀期刊,具体做法为:以JCR的特征因子指标为主要参考依据,按照2010年JCR自然科学版和JCR人文社科版的学科分类,选取各学科下特征因子排序前10名的期刊作为优秀期刊。自然科学版分为173个学科,选出1376种优秀期刊;JCR人文社科版分为55个学科,选出462种优秀期刊;两部分去重后共有1759种期刊。最后统计出北京大学在2000-2010年被SCI、SSCI、A~HCI收录的全部论文中发表在JCR优秀期刊上的比例。此外,还统计了北京大学在2000—2010年间每年在《Nature》和《Science》上的数量。

此外,在人文社科领域,我们统计了北大发表的中文论文被CSSCI、中国期刊网人文社科领域核心期刊的收录情况,并与人民大学、复旦大学等国内人文社科重点院校进行对比。

3.2 各学科科研竞争力评价方法

北京大学各学科科研竞争力评价包括根据WOS的SCI、SSCI、A&HCI数据,分析2000-2010年机构发文量最活跃的排名前10位的学科,分别统计理工科和人文社科发文量排名前10的学科。鉴于不同学科之间论文的情况存在显著差异,机构、学科、院系、个人等各个层次的评估都尽量避免不同学科间的比较,主要与国内外同学科的机构、子机构或国际平均水平进行对比。

根据ESI数据分析北大进入全球1%的学科中,WOS收录的论文篇数和篇均被引次数,从每个学科选取ESI中排名前5位的各国高校进行比较,同时选取清华大学、中国科技大学等若干综合实力较强的国内高校与北大进行对比。

鉴于人文社会科学的特殊性,“Social Sciences,General”学科选取人文社科重点院校中国人民大学、复旦大学等进行对比,并将上述人文社科重点院校被CSSCI收录的各学科论文数量与北大进行对比。

3.3 院系的科研竞争力评价方法

北京大学内各院系由于学科的不同,总收录论文数量、总被引次数以及篇均被引次数存在较大差异。评估将2000~2010年各院系发表的论文被SCI、SSCI、A&HCI收录及被引用次数分别按照理工类、交叉学科类、人文社科类进行归类,并分析变化趋势。由于论文数量较少的院系的被引用次数受单篇论文影响较显著,因此只挑选收录和被引较高的前10个院系进行分析。

分析北京大学各院系2001-2010年SCI、SS-CI、A&HCI收录的论文中,在JCR优秀期刊上按发文量排名前20的院系,并计算这些院系在JCR优秀期刊上的发文比例。根据ESI的数据,统计2000—2011年各院系在本领域进入全球前1%行列的论文数量及通讯作者为机构人员的论文数量。此外,将2000-2011年各院系在《Science》和《Nature》上发表的论文数量作为补充指标。

3.4 识别突出科研人员和科研合作情况

分析北京大学各院系2000-2010年在《Sci-ence》和《Nature》上的作者,并根据ESI的数据,统计出各院系进入全球前1%高引论文的作者,尤其是ESI中被引次数高、且通讯作者为北京大学科研人员的优秀论文。通过高被引文章和权威期刊文章识别各院系中成果突出的科研人员。

为了解院系间的合作对科研产出数量与质量的影响以及学科间交融的情况,本次评估同时也分析了北京大学2001-2010年被SCI、SSCI、A&HCI收录的论文中,由不同院系合作完成的论文数量和变化趋势,以及论文的质量和影响力情况,并分析了合作在JCR优秀期刊的比例是否高于全校整体的优秀论文比例。

4 评价小结

此次科研竞争力的评估主要基于SCI、SSCI、A&HCI、中国知网、中国社会科学引文索引等国内外知名数据库中的文献统计信息,并参考JCR、ESI等专业学科评估工具,力图客观、如实地反映北京大学在学术论文方面的科研竞争实力。此外,尝试了院系层面的科研实力、科研合作等方面的分析评估,填补了以往科研实力评估中高校与个人两个层面之间院系层次评估的空白,也为学校的多学科交叉与跨院系合作情况提供了一个新的评估角度。

科研竞争力的评价可以为科研决策提供必要的数据依据,但由于评价方法尚在探索过程中,评价过程也存在一些问题。例如评估中发现各数据库中的论文署名单位、各院系(实验室、研究中心)名称等信息都存在不规范的现象,特别是机构(或院系)英文名称不规范或科研人员的论文署名只包含实验室而未体现机构名称等情况尤为常见,这些因素都会影响到数据导出和分析的准确性。虽然通过人工的数据清理能够在一定程度上解决这个问题,但从根源上则需要各机构进一步规范其署名形式和要求,加强署名规范的宣传和培训,从而在今后的评估中得到更为全面准确的机构成果数据,使评估分析更为精准地反映实际情况。

此次科研竞争力评估是北京大学图书馆信息咨询部开展高端咨询服务的一次有益尝试,充分发挥了图书馆熟悉相关数据库与文献计量方法的特长,以客观、严谨的量化分析为学校的科研管理与决策提供了参考服务,同时也为进一步开展学科服务与高端咨询服务积累了宝贵的经验。机构的科研竞争力分析是一项很有意义的工作,图书馆可以在此领域继续探索,为更加知识化、专业化的服务奠定基础。

参考文献

邱均平,赵蓉英,余以胜.中国高校科研竞争力评价的理念与实践.高教发展与评估,2005,21(1):31-36

2 丁敬达,邱均平.科研评价指标体系优化方法研究——以中国高校科技创新竞争力评价为例.科研管理,2010,31(4):111-118

大数据分析论文第4篇

[摘要]以中国学术期刊网络出版总库为信息源,统计了广西各高校图书馆发表的论文3 197篇,确定≥5被引频次的高被引论文

>> 职业技术教育核心期刊高被引论文统计与分析 我国高等教育核心期刊高被引论文统计与分析 中国法学核心期刊高被引论文统计与分析 新世纪10年我国图书馆学基础理论研究高被引论文述要 2007―2016年北华大学高等教育领域发表高被引论文的统计分析 公共图书馆公益讲座研究论文统计与分析 图书馆利用统计与分析 广西高校图书馆阅读推广现状网上调查与分析 广西高校图书馆特色资源建设调查与分析 广西高校图书馆与公共图书馆资源整合研究 高校图书馆与区域经济发展研究论文计量分析 基于调查统计的广西公共图书馆从业人员现状分析与研究 图书馆信息能力研究引论 基于数据统计的高校图书馆零借阅率分析与启示 编辑学高被引论文陕西作者群载文情况分析 基于民族声乐的高被引论文学术影响力分析 基于网络计量学的《电化教育研究》高被引论文分析 档案学高被引论文引用情感类型分析 《中华急诊医学杂志》2001―2012年高被引论文分析 1993―2014年《应用生态学报》十大高被引论文分析 常见问题解答 当前所在位置:)。检索项为“作者单位”,以广西各高校图书馆名称作为检索词,包括21所本科院校、40所高职高专、8所独立院校、4所分校办学点。为了使统计数据更加准确全面,各高校图书馆的检索数据包括其更名前的数据,如:广西民族大学图书馆的数据包括广西民族学院图书馆的检索数据,玉林师院图书馆的数据包括玉林高等师范专科学校、玉林师专图书馆的统计数据等。另外,两名以上不同广西高校图书馆从业人员合作完成的论文只统计1次,算在第一作者单位。论文检索时间为2012年7月12―14日。

(2)高被引论文的确定。本文借鉴确定核心作者的方法,运用普赖斯定律(N =0.749×nmax)确定高被引论文。公式中,N为高被引论文被引频次的最小值,nmax为被引频次最高论文的被引频次[3]。被引频次最高的论文为广西民族学院图书馆(现为广西民族大学图书馆)龚月新的《论高校图书馆的和谐管理》,被引48次,即nmax=48,那么N=5.189≈5。因此,确定被引频次≥5的论文为高被引论文。

(3)统计指标选择。本文选用的统计分析指标主要包括高被引论文的期刊分布、年代分布、作者分布、机构分布和主题分布等。

(4 )统计方法。检索的论文按被引频次由高到低降序排列,每页显示50条,逐页复制到Excel工作表,用Excel 2003进行数据计算与分析。

大数据分析论文第5篇

关键词:SCI;JCR;投稿;医学期刊美国《科学引文索引》(ScienceCitationIndex,SCI)是国际上公认的最具权威的科技文献检索工具。通过论文的被引用频次的统计,对学术期刊和科研成果进行多方位的评价研究,从而评判一个国家或地区、科研单位、个人的科研产出绩效,来反映其在国际上的学术水平[1]。由于SCI具有严格的选刊标准和选用论文标准,而且每年略有增减,从而做到SCI收录的文献能全面覆盖全世界最重要和最有影响力的研究成果。虽然全世界每年出版的科技期刊多达10万种以上,但是入选SCI的期刊不及全世界科技期刊总量的6%。因此被SCI收录的论文可以认为是较高水平、有一定学术代表性的文章。

《期刊引证报告》(JournalCitationReports,JCR)是基于SCI(E)的分析型数据库,它对SCI(E)所收录的期刊之间的引用和被引用数据进行统计、运算,并定义了各项计量学指数加以报道,是目前国际上用于评价期刊国际竞争力的最便捷有力的工具之一。

本文利用JCR的期刊数据和SCI数据库自带的分析功能分析SCI源期刊的年载文量和出版频率、所属学科、作者来源、影响因子、期刊国别和语种,为麻醉科向SCI投稿提供一定的依据,提高SCI投稿成功率。

1查找期刊

SCI收录论文的前提是刊载论文的期刊为SCI源期刊,即只有发表在SCI源期刊上的论文才有可能被SCI收录。本文分析的期刊来源于《ISIWebofKnowledge》的JCR数据库(2012年版)中的anesthesiology麻醉学的30种期刊(统计时间为2014年3月)。

2分析期刊

2.1影响因子分析影响因子不仅仅是一种测度期刊有用性和显示度的指标,而且也是测度期刊学术水平和影响力的重要指标。这是因为在某一学科中,影响因子大的期刊,不仅是该学科研究人员经常翻阅的期刊(体现期刊的有用性和显示度),而且也是人们在论文投稿时经常考虑的重要期刊。一种刊物的影响因子越高,也即其刊载的文献被引用率越高,一方面说明这些文献报道的研究成果影响力大,另一方面也反映该刊物的学术水平高[2]。因此,需根据论文的质量和创新性来选择影响因子适合的期刊投稿,且不可好高鹜远。本文选择影响因子在1.0~3.0间的期刊,经过排除,共筛查出《EURJPAIN》、《MINERVAANESTESIOL》等16种期刊,见表1。

2.2年载文量和出版频率因期刊出版频率不同,每种期刊的年载文量从十几篇到几百篇不等,在期刊选择上一般应选择年载文量在100篇左右,最好为月刊或双月刊的期刊作为拟投稿期刊。如《JNEUROSURGANESTH》,年发文量仅为49篇,出版频率为季刊,大大增加了投稿风险,所以剔除该期刊。经筛选后,满足条件的期刊有10种,见表2。

2.3所属学科分析在各学科SCI源期刊中,有些期刊属于交叉学科,有些期刊属于单一学科,根据论文的内容选择所属范围恰当的期刊,可增加投稿论文的命中率。经分析,这10种期刊共涉及7种学科:ANESTHESIOLOGY(麻醉学)、CLINICALNEUROLOGY(临床神经学)、CRITICALCAREMEDICINE(危重医学)、NEUROSCIENCES(神经科学)、PEDIATRICS、CARDIAC&CARDIOVASCULARSYSTEMS(儿科、心脏和心血管系统)、RESPIRATORYSYSTEM(呼吸系统)、PERIPHERALVASCULARDISEASE(外周血管疾病)。属于麻醉学单一学科的有《JCLINANESTH》、《CURROPINANESTHESIO》、《CANJANESTH》、《ACTAANAESTHSCAND》等四种期刊。

2.4期刊国别和语种分析SCI源期刊出版国主要来自美国和英国,但其它国家也占有一定比例,有部分SCI源期刊的出版语种为非英语语言。选择拟投稿期刊时应首先了解该期刊的出版国及是否是英文期刊,不是英文期刊的最好不要选择作为拟投期刊[3]。经过JCR上的数据分析,发现除《MINERVAANESTESIOL》的语种为MULTI-LANGUAGE(多语种)外,其余9种期刊的语种皆为英语。这十种期刊的出版国有美国、英国、加拿大、澳大利亚、意大利、丹麦等6个国家,详细情况情况见表3。

2.5作者来源分析在不能确定拟投稿期刊在稿件录用时是否具有倾向性时,可以在SCI数据库检索分析统计该期刊中论文作者的国家来源。对期刊的作者来源分析,将有利于提高命中率,掌握拟投稿期刊作者国家的分布情况,选择作者来源国家数量广泛的期刊投稿。一般应选择作者来源国家数量在30个以上,发文国家论文数量所占比例相对均衡,最好选择曾经发表过中国作者论文的期刊投稿。

在SCI数据库中检索每种期刊,通过SCI的分析功能,按"国家/地区"分析检索结果(见表4)。由表4可见,这10种期刊中,期刊作者分布在多个国家,如《CURROPINANESTHESIO》,期刊作者来源于35个国家;《ACTAANAESTHSCAND》期刊作者来源于80个国家。这十种期刊都曾经发表过中国作者的论文。

表4可见,这十种期刊作者的第一来源国与期刊出版国基本吻合。其中有6种期刊的作者第一来源国的比例接近或高于50%,如《JCLINANESTH》的作者第一来源国比例高达61.817%,说明该种期刊偏向于刊载出版国作者的文献,对于非出版国作者的论文刊载比例较小。期刊《EURJPAIN》、《ACTAANAESTHSCAND》、《PEDIATRANESTH》作者第一来源国的比例分别为14.955%、20.747%、27.185%,发文国家论文数量所占比例相对均衡,说明这些期刊对不同国家论文作者具有较高的包容性。

3结果

本文通过JCR确定了30种麻醉科SCI源期刊,通过对30种麻醉科SCI源期刊的影响因子、年载文量和出版频率、所属学科、期刊国别和语种、作者来源等数据进行逐一分析。为增加投稿成功率,兼顾影响因子原则,本文选择影响因子介于1.0~3.0之间,年载文量大于等于100的期刊,经过筛选初步确定10种期刊进行进一步深入分析。继而对这10种期刊的学科、期刊国别和语种、作者来源等进行综合对比,发现《PEDIATRANESTH》、《EURJPAIN》、《ACTAANAESTHSCAND》等三种期刊具有较高的年发文量,分别为170、140、162,且发文国家作者所占比例相对均衡,皆有刊载中国作者论文,中国论文作者排名分别为第11、16、21,这三种期刊比较适合中国作者投稿。

4讨论

通过JCR数据库可以确定某一学科的SCI源期刊,再通过该数据库的期刊信息以及SCI数据库的分析功能,对SCI源期刊的影响因子、年载文量和出版频率、所属学科、期刊国别和语种、作者来源等数据进行分析和筛选,选择适宜中国论文作者投稿的SCI源期刊。期刊影响因子范围的选择至关重要,影响因子的选择需依据论文的质量和创新性,并尊重用户的要求确定范围。在实际工作中,还需根据用户的需求,适当地增减或调整筛查方案,例如:用户的论文类型特殊,则在选择投稿期刊时,还需分析期刊刊载的文献类型范围。

参考文献:

[1]杨丰全,任静.SCI数据库在论文写作及投稿中的应用[J].深图通讯,2007(4):48-51.

[2]孙悦阳,杨华.向SCI源期刊投稿及其注意事项[J].医学信息学杂志,2008,29(5):78-80.

大数据分析论文第6篇

摘要:通过中国知网,从年量等七个方面,对咸阳职业技术学院(以下简称咸阳职院)自升格高职以来发表的期刊论文进行了

>> 基于Web of science数据库竞争情报论文的统计分析 渭南职业技术学院科研论文计量分析 陕西财经职业技术学院科研论文计量分析 基于iHistorian的实时数据库工业报表自动统计分析系统的研究 基于组织机构代码数据库的应用统计分析初探 2006~2012年SCIE数据库收录扬州地区二、三级医院科技论文的统计分析 咸阳职业技术学院物流实训中心建设的构想 数据库在乙型肝炎血清免疫标志物统计分析中的应用 电视机基板品质信息统计分析系统数据库设计 咸阳职业技术学院校园主要绿地植物病害调查初报 咸阳职业技术学院通过微课比赛提升教师信息化水平 基于数据仓库技术的保险业统计分析系统设计 管理数据的统计分析 信息技术在教育科研问卷调查及数据统计分析中的应用 科研院所统计分析中数据的可比性 天津电子信息职业技术学院2009―2013年计量分析 职业院校的科研定位及特色――以宁夏职业技术学院为例 基于BYOD的职业技术学院信息化建设的部署策略 基于web的泸州职业技术学院毕业设计监控平台研究 基于Web of Knowledge Web服务的机构论文统计分析系统 常见问题解答 当前所在位置:.

[3] 秦丽萍, 桂云苗. 基于CNKI的安徽工程大学学术文献计量分析[J]. 安徽工程大学学报,2013,28(3):91-95.

[4] 杨聪, 孙宾宾. 基于CNKI的陕西工业职业技术学院科研论文统计分析[J].电子制作,2015(2):93-94.

[5] 容敏华. 广西高等医学院校发表教育教学论文的统计分析[J]. 卫生职业教育, 2014(23):104-105.

大数据分析论文第7篇

关键词:大数据分析 作战指挥 困局 对策

中图分类号:G64 文献标识码:A 文章编号:1674-098X(2015)10(c)-0029-02

目前,很多国家已把大数据上升到国家战略加以推动,夺取“数据主导权”的重要性日益突出。未来影响、决定军事行动的核心是数据。在信息化战场上,不同侦察平台搜集的情报、作战指挥中心的各条指令、作战力量的实时反馈信息等,都是以数据的形式存在并发挥作用,这些数据不仅量很大,而且类型多样,来自多源,且以实时、迭代的方式来实现[1]。正因为如此,数据的积累、数据存储能力、数据分析和处理能力无疑将成为获取战场优势的决定性因素。因此,大数据分析已成作战指挥的核心要素之一。但是,正如条形码的应用存在缺陷一样,最新的大数据分析也可能导致误入歧途[2]。

1 作战指挥中大数据分析的特点与作用

一般来说,大数据具有数据类型多样、数据处理高速、数据规模海量和数据价值密度低等特点[3]。在作战指挥中,从数据到决策的时效性要求高,要求在规定的时限内挖掘出高价值的辅助决策信息,这对其大数据分析提出了严峻挑战。

作战决策是作战指挥的核心,大数据之所以引起作战指挥领域的高度重视,其重要原因在于大数据直接瞄准作战指挥的核心。作战决策过去是科学技术较难渗透的领域,基于指挥员直觉和经验判断的决策模式一直占据主导地位,这也被一些人认为是作战指挥的“软肋”。大数据分析通过创新式挖掘海量数据,形成从数据到决策的快速反应链路,从而构建以诸军兵种、战场环境间数据共享为基础的自主式决策支持系统,化数据优势为决策优势,以技术驱动指挥决策模式的变革。目前,在作战指挥领域,针对作战数据的分析处理能力还很薄弱,加强大数据分析不仅能为作战指挥提供有价值的决策信息,而且有助于快速建立从数据到决策的指挥链路、有效解决指挥信息流通的一些“瓶颈”问题,以确保夺取作战的“数据主导权”。

2 大数据分析在作战指挥中可能存在的困局

在信息化战场上,事物之间的关联性越来越普遍;但许多关联隐藏很深,仅靠直觉和经验判断难以发现。相关关系是大数据分析的核心。一般来说,两种数据的相关关系可通过当一种数据产生变化时引起另一种数据的变化程度来衡量,变化程度越高,说明这两种数据的关联度就越高。大数据分析通过识别有用的关联物来进行分析,关联物数量越多,种类越丰富,分析的综合程度就越高,判断预测的准确性也就越高。在作战指挥领域,大数据分析主要通过对战场大量的、相互关联的终端产生的数据进行相关关系的分析,进而形成判断、得出结论,并做出预测。

然而,在作战指挥中,由于从数据到决策的高时效性和高对抗性,大数据分析可能存在以下困局:

由于全样本数据需要更多的时间去分析,采用全样本数据分析有时难以满足作战决策的高时效性要求[4];此外,作战数据难免会包含一些不良信息;因此,如何动态地组织数据样本既使其数据价值密度提升又使其分析能满足作战决策的时效性要求是一个十分棘手的问题。

大数据样本不仅耗费更多的时间去分析,它们往往还包含所含个体的许多不同信息,从统计学的角度讲,这意味着这些样本是“高维的”,而更多的维度增加了获得欺骗性关联的风险。在作战指挥中,一旦大数据分析得出的分析结论包含了欺骗性关联的信息,可能给作战决策造成严重的不利影响,而发现欺骗性关联绝非易事。因此,防范欺骗性关联是作战指挥中大数据分析面临的一个难点问题。

上述两个问题是作战指挥中大数据分析迫切需要解决的问题,否则作战指挥中大数据分析的可靠性难免将遭受质疑。

3 破解作战指挥中大数据分析困局的对策

作战指挥产生大量、异质结构的数据集,为了提高大数据分析的时效性,应在作战决策知识情景库的引导下动态地组织样本数据集。作战决策知识情景库应该包含战场态势的框架性信息。一般来说,为便于激活数据关联,作战决策知识情景库包括主题关键词表、子主题关键词表和配属关键词表。一个主题关键词代表战场情况的一个重要方面,它对应若干子主题关键词,而一个子主题关键词又对应若干配属关键词,配属关键词通常代表局部的细节。对作战决策来说,一条高价值的预测结论通常有一个主题,并且还与其它主题相关;因此,用于分析的样本数据集应包含与所涉及主题所有配属关键词相关的数据,并过滤掉失效或虚假的信息。作战决策知识情景库既是动态组织样本数据集的牵引,也为样本数据集的数据挖掘提供了导向性信息[5]。利用作战决策知识情景库动态组织样本数据集提高了数据质量和整体一致性,避免了无关数据的干扰,无疑使数据分析更有针对性,也更有效率。

在作战指挥的大数据分析中,为了避免分析结论包含欺骗性关联的情况发生,需要对分析结论进行检验,以证实结论中每一项关联的真实性。竞争假设分析法是一个有效的证伪方法,它将结论中每一项关联看作一个假设,平等地对待各个假设,通过寻找证据反驳假设的方法来识别假设,只有不能被驳倒的假设才被接受是真实的。竞争假设分析比较适合用于对分析结论进行检验[5]。客观地说,利用竞争假设分析法对大数据分析结论进行检验需要建立相应的评判标准、规则和知识库,并设计相应的数据挖掘算法;这本身就是一项具有挑战性的工作。值得强调的是,对分析结论中的关联进行识别不仅能有效防范因数据的多维度产生欺骗性关联的风险,而且能避免因过度关注某一类数据(如最新的数据)而陷入“一维”视角。对作战指挥的大数据分析而言,对分析结论进行检验无疑会提高其质量,也是其不可缺少的一部分。

4 结语

在信息化战争中,指挥人员可以有效利用大数据探寻信息化战争的内在规律,而不是“淹没”在海量数据中一筹莫展。因此,大数据分析在作战指挥中的作用越来越突出。为了快速为作战决策提供高价值的情报,大数据分析必须解决动态组织样本数据和对分析结论进行检验的难题。当前,作战指挥领域大数据分析的研究方兴未艾,有许多难题尚待解决。面对诸多困难与挑战,只有调动多方力量,充分吸收并借鉴各相关领域研究的方法或成果,勇于探索和创新,才能实现大数据分析有效服务于作战指挥的目标。

参考文献

[1] 张元涛,郭武君.大数据与作战指挥发展[J].国防大学学报.2014(8):68-70.

[2] David Meer.跳出大数据分析误区[J].董事会,2013(1):91-92.

[3] 张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013,8(1):18-22.

大数据分析论文第8篇

关键字:大数据 情报研究 情报研究技术

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08

1 引言

当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。

大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。

由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。

对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。

2 大数据环境下情报研究的发展趋势

大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。

综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。

2.1 单一领域情报研究转向全领域情报研究

随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。

首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。

其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。

2.2 综合利用多种数据源

综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。

这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。

综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。

2.3 注重新型信息资源的分析

随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。

此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。

2.4 强调情报研究的严谨性

情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。

在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。

2.5 情报研究的智能化

大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。

目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。

3 情报研究中的技术问题

情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。

根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。

3.1 可视化分析

可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。

目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。

将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。

3.2 数据挖掘

广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。

从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。

要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。

3.3 语义处理

语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。

从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。

将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。

4 结语

正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。

参考文献:

[1]Big Data,Big Impact[EB/OL].[2012-09-06]..

[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,

2(4):387-403.

[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.

[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.

[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012

-09-16].http:///fil

es/Sandbox/victor/jigsaw-VAST07.pdf.

[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.

[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.

[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.

[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.

[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images

/studien/proceedings-common-value-management.pdf#page=19.

[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.

大数据分析论文第9篇

统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。