欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

数据分析方法优选九篇

时间:2022-09-04 09:00:58

数据分析方法

数据分析方法第1篇

大家还记得数据分析的三大作用吗?我们来做下回顾:

(1)现状分析:告诉你过去发生了什么;

(2)原因分析:告诉你为什么发生了;

(3)预测分析:告诉你将来发生什么。

明确数据分析这三大作用后,那么大家是否思考过这三大作用都要通过什么方法来实现呢?现在我们就来看看数据分析三大作用都需要用哪些数据分析方法来实现。这三大作用基本可分别对应对比、细分、预测三大基本方法,每个基本方法都有相应具体的数据分析方法,如对比基本方法下有对比分析、分组分析、结构分析、交叉分析、矩阵分析、综合评价分析等,这些方法核心关键词都是对比。下面我们就来学习这几个常用的分析方法。

对比分析法

第一个数据分析方法就是对比分析法。它可是数据分析的基本方法之一。对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析的特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

对比分析法可分为静态比较和动态比较两类。

(1)静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。

(2)动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。

这两种方法既可单独使用,也可结合使用。进行对比分析时,可以单独使用总量指标、相对指标或平均指标,也可将它们结合起来进行对比。比较的结果可用相对数表示,如百分数、倍数等指标。

目前对比分析常用的有以下几个维度:

(1)与目标对比。实际完成值与目标进行对比,属于横比。例如每个公司每年都有自己的业绩目标或计划,所以首先可将目前的业绩与全年的业绩目标进行对比,看是否完成目标。

(2)不同时期对比。选择不同时期的指标数值作为对比标准,属于纵比。与去年同期对比简称同比,与上个月完成情况对比简称环比。通过对比自身在不同时间点上的完成情况,就可知道自身是进步还是退步。

(3)同级部门、单位、地区对比。与同级部门、单位、地区进行对比,属于横比。这样可了解自身某一方面或各方面的发展水平在公司、集团内部或各地区处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。

(4)行业内对比。与行业中的标杆企业、竞争对手或行业的平均水平进行对比,属于横比。同样我们也可了解自身某一方面或各方面的发展水平在行业内处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出未来发展的方向和目标。

(5)活动效果对比。对某项营销活动开展前后进行对比,属于纵比。做这样的比较可以分析营销活动开展得是否有效果,效果是否明显;还可对企业投放广告的前后业务状况进行对比分析,了解投放的广告是否有效果,如品牌知名度是否提升、产品销量是否有大幅增长等。

对比分析的维度不限于以上5点,这里只是列出常用的5种维度,当然还有其他维度,可根据自己的实际情况采用不同的维度进行对比分析。

进行对比分析时还要考虑以下几点因素:

(1)指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量。如果各指标的口径范围不一致,必须进行调整之后才能进行对比。没有统一的标准,就无法比较。例如600美元与3000元人民币就无法直接比较,需要根据当期的汇率进行换算后才可进行比较,否则不具有可比性。

(2)对比的对象要有可比性。例如不能拿广州市与华西村、美国与亚洲进行对比。总之对比对象之间相似之处越多,可比性就越强。因此,我们在选择和确定对比对象时,一定要分析它们是否具有对比的意义。

(3)对比的指标类型必须一致。无论绝对数指标、相对数指标,还是其他不同类型的指标,在进行对比时,双方必须统一。例如2012年广州的GDP值与2012年深圳GDP增长率,是无法进行对比的。

分组分析法

数据分析不仅要对总体的数量特征和数量关系进行分析,还要深入总体内部进行分组分析。分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。

分组的目的就是为了进行组间对比,是把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组分析法必须与对比分析法结合运用。

分组分析法的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。

结构分析法

结构分析法是指研究总体内各部分与总体之间关系的分析方法,即总体内各部分占总体的比例。一般某部分的比例越大,说明其重要程度越高,对总体的影响也就越大。例如通过对国民经济的构成分析,可以得到国民经济在生产、流通、分配各环节占国民经济的比重,或是各部门贡献比重,揭示各部分之间的相互联系及其变化规律。

结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常经典的应用。

交叉分析法

交叉分析法通常用于分析两个或两个以上分组变量(字段)之间的关系,以交叉表形式进行变量间关系的对比分析,所以也叫交叉表分析法。交叉表当然也有二维以上的,维度越多,交叉表就越复杂,所以在选择几个维度的时候需要根据分析的目的决定。

交叉分析的原理就是从数据的不同维度综合进行分组细分,以进一步了解数据的构成、分布特征。

矩阵分析法

矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,进而找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。

矩阵以属性A为横轴,属性B为纵轴,组成一个坐标系,在两坐标轴上分别按某一标准(可取平均值、经验值、行业水平等)进行刻度划分,构成4个象限,将要分析的每个事物对应投射至这4个象限内,进行交叉分类分析,直观地将两个属性的关联性表现出来,进而分析每一个事物在这两个属性上的表现,因此它也称为象限图分析法。

综合评价分析法

综合评价分析法是针对事物不同方面的数量特征,运用数学、统计等方法,得出综合数量水平的一种分析方法。综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。如不同国家的经济实力,不同地区的社会发展水平,各企业经济效益评价、企业内各员工绩效评价等,都可以运用这种方法。进行综合评价分析,主要有5个步骤:

步骤1:确定综合评价指标体系,即包含哪些指标;

步骤2:收集数据并进行不同计量单位的数据标准化处理;

步骤3:确定指标体系中各指标的权重;

步骤4:对经过处理后的指标进行汇总计算综合得分;

步骤5:根据综合得分对参评对象进行排序,得出结论。

数据分析方法第2篇

[关键词]财政收入;GDP;面板数据

中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01

在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。

二、实证分析

(一)单位根检验

Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。

(二)协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。

三、建立模型

混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。

在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。

四、结论

通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。

参考文献:

[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.

[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.

数据分析方法第3篇

【关键词】环境监测数据;分析;重要性

1.环境监测数据的特征及重要性

1.1环境监测数据的特征

环境监测数据规定了每一次监测获得的数据的可使用范围,超出该范围得出的数据就被视为是不合格的。这是因为监测数据是具有局限性的,这种局限性是为了保证监测数据的准确性与可靠性。同时,对于监测获得的数据要求具有完整性,不应该有缺失或是遗漏的现象。对于在规定范围内的监测数据,如果这些数据不仅具有代表性,还具备完整性,那么就达到监测的目的了[1]。

1.2环境监测数据的重要性

环境监测的重要性在于它能为环境的管理、规划、评价等提供科学、有力的依据。出于对我国正处于经济高速发展阶段的考虑,我们对环境监测应给予更高的重视。一般来说,环境监测数据的质量以及分析能力的高低可以反映出一个监测站工作能力,也体现了该监测站在环境保护工作所处地位的高低。

2.对环境监测数据的填制及整理要求

对于监测获取的相关图标和原始数据,要进行适当的整理和归类,以便后面的工作可以更加有利地开展与进行。在填制监测数据时就应该选取标准的记录表格,在填写时要尽量的专业化、规范化,并且要保证书写清晰、准确。对于原始数据的检查,要逐个地进行、确认,将那些不能真实地反映监测情况的数据去掉。这样做的目的是为了将数据整理得更有条理,更有实用性,减免不必要的反复检查,影响工作效率的提高。同时,还有一个问题需要注意,那就是作为监测数据确认的负责人不可以直接参与监测数据的采集工作[2]。

3.对环境监测数据的分析

环境监测是一种以环境作为对象,运用物理、化学和生物等技术手段,对污染物进行定性、定量和系统的综合分析,它是环境评价中的重要环节,贯穿环境影响评价的整个过程。

3.1利用统计规律进行分析

环境监测是以统计学为基础的,因此,这种分析方法经常被监测人员采用。这种分析方法包含了对环境要素的质量进行各种数学模式评价方法对监测数据进行解剖,利用它的内在规律性进行分析和利用,进而得出相关的论断。这种方法在环境规划、环境调查和环境评价的工作中使用较多[3]。

3.2通过对污染源的监测值来分析

监测人员可以通过对污染源的监测数据进行分析。其实,对污染物的监测对象不仅仅限于空气、地下水、土壤等,还有一个人们经常说的工业污染源。工业污染是有多种的,不同行业的工业就会有其不同的污染物产生。比如,对于化工行业来讲,它排出的有机物含量种类就较多多,而金属物质相对就较少一些;金属行业排出的污染物是有机物含量较少而金属物质含量较多等。如果在一个金属行业排除的废弃物中监测得出的结果显示是具有较多有机物的,那么对于这组监测数据应该重新考虑和分析,并从中找出原因。这也说明了一个问题,那就是监测人员在日常的工作当中要对管辖区内的生产企业相关情况进行了解,要根据不同的行业有针对性地选择相应的监测项目来监测这些污染企业,实行对他们的有效监督[4]。

3.3根据事物之间的相关性原理进行分析

这种分析法主要是基于事物本身具有的相互关系的原理来来进行的。一般来说,两个或者两个以上的监测数据之间往往会存在某一种的固定联系,监测人员可以根据这种固定的联系去分析数据之间的相关联系,也可以对单个已经实行控制质量措施的监测数据进行检测,验证是否正确。而对于一些例行的监测数据,则可以得出较为直观的判断。比如,氟含量跟硬度之间的关系。由于F与Ca、Mg形成沉淀物得容积度比较小,所以,在中性和弱碱性的水溶液当中,如果氟含量是在(mg/ L )级的,那么它的氟含量与Ca、Mg的含量就是呈显负相关的现象,也就是说跟硬度值是负相关的。因此,在高氟区内得出的水质监测结果显示的硬度监测值一般会比较低。如果获得的氟含量较高,得出的硬度监测值也很高,那么这类监测数据就需要进行重新分析[5]。

4.结语

随着我国环境保护的不断深入,监测人员要在使用各种分析方法的同时不断地去提尝试新的分析方法,要在原来的基础水平上更进一步地提高自己的综合分析能力,对提供的监测数据要有一种精益求精的精神,争取提供的数据更可靠更合理,业务技能不断地有新的进步。由于获取的环境监测数据与区域的过去和现在都有密切的联系,因此,监测人员要对监测区域的过去和现在的环境状况都要进行深入的了解和分析,在了解的基础上展开全面的探讨,这样才可以保证获取的监测数据更全面,更有说服力,质量更有保证。

参考文献

[1]叶萍.浅论环境监测数据的综合分析方法[J]中国环境管理干部学院学报, 2009, (01) .

[2]郭琦.环境监测在环境影响评价中的意义与建议[J].科技风, 2010, (15)

[3]孙晓雷.我国环境监测质量管理体系研究[J].科技传播, 2010, (15)

数据分析方法第4篇

【关键词】数据比对;数据整合;主数据;业务流程

1.介绍

随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;关于数据整合的重要性、数据整合的工具有很多论著[1-5]。数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。

每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。

本文先定义了一种以主数据定义和分析主数据流为主线的数据比对方法。结合实际项目案例给出具体比对过程。

2.数据比对过程和方法

本文介绍的数据比对方法,以原因分析为重点,强调不匹配数据的原因分析并结合业务逻辑,对历史数据和增量数据给出整改方法。

数据比对的过程可以分为以下7个步骤分别是:数据获取、主数据定义、主数据流分析、程序比对逻辑、人工比对逻辑、原因分析、处理建议。

2.1 数据获取

从两个(或多个)源系统中获得待比对的原始数据。需要注意的是每个信息系统均为运行的系统,数据会产生变化。因此应该首先统一数据获取的时间。如获取截止到2008年10月1日24:00止的数据。并对该时间点之后的增量数据做标记,以备后续的数据比对。

2.2 主数据定义

按照新系统或数据比对的业务要求,定义比对的关键数据项(数据字段)。确定这些数据项的含义、来源(以哪个系统数据为准)、在各自系统中的名称、各自系统中对应的数据项(数据字段)。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和身份证号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。

在定义好主数据之后,需要视具体应用系统情况而定,对原始数据进行数据清洗。以便剔出非法数据,降低人工比对的工作量和提高数据比对的成功率。数据清洗工作一般由计算机程序进行。

2.3 主数据流分析

根据具体的业务逻辑和业务流程,确定所有主数据在相关信息系统中的生命周期。需要明确以下内容:

(1)主数据的责任部门或责任人:是谁在何时创建、修改、交换或删除主数据;

(2)主数据的相关系统:相对于主数据生命周期的每个阶段,分别在哪个信息系统中保存,系统间接口关系。

(3)主数据流与业务流程的关系:新增流程、修改流程、删除流程对主数据的影响。

本步骤主要是关注主数据的修改记录。

2.4 程序比对逻辑

数据比对的第一阶段,一般通过计算机程序处理进行。需要整理出程序比对的逻辑,尽可能分析各原始数据的业务逻辑,寻找尽可能多的数据对应关系。有些数据只能通过唯一的标识进行比对,如人口信息通过身份证号码进行比对或者通过联合身份证号码和姓名一起进行比对;有些数据可以有多种程序比对逻辑,如电路数据中第一种程序是电路编号相同,第二种程序是工程编号相同,第三种程序是电路两端地址均相同。

2.5 人工比对逻辑

由于信息系统建设的时间不同、业务流程与IT系统的结合程度不同、部分业务数据不完整等情况,程序比对往往达不到100%。因此在程序比对后产生的遗留数据必须由人工来完成。

在人工比对过程中,需要整理出人工比对的方法。如人口数据比对中,不同身份证号码相同配偶名称和身份证号码,则可以认定为同一个人。

2.6 原因分析

对于人工比对的数据,我们需要分析数据不匹配的原因。可能是由于无业务流程或纸制流程的问题,可能由于流程与IT系统衔接的问题,可能由于系统间数据交换导致的数据不完整的问题,可能是人工输入错误的问题等等。

在分析的过程中需要考虑哪些原因影响存量数据,只影响到历史数据并且修正后不会再次出现;哪些原因是由于业务流程导致的,在修正该业务流程之前还会再次出现。

数据不匹配的原因分析是一项具有挑战性的工作,同时也是一项有意义的工作。通过原因分析,可以对业务部门的工作进行评价考核,对业务流程进行梳理改造,对业务与IT系统结合给出完善意见。

2.7 处理建议

人工比对的数据,按照不同的原因提供不同的处理意见。直接修改:对于不影响业务流程、不影响业务操作的数据,按照主数据的定义和责任直接在相关系统中修改;

业务部门尽快修正:对于一些影响正常业务操作的数据,如帐务系统中应收帐而未收帐数据、财务系统中存款或余额不一致、资源系统中应使用而未用资源等情况,由相关业务部门牵头尽快改修正。

制定细致解决方案:对于原因比较复杂的、涉及到业务流程的数据,则需要招集各相关部门研究,制定细致的解决方案。由于业务流程导致的数据不匹配,需要给出流程改进的建议。不匹配数据的修改越快越好。

3.项目案例数据比对

下面以实际项目作为例,介绍数据比对的过程。

某通信运营商大客户网管系统中包含传输专业、交换专业和数据专业(IP、ATM、DDN)总计五种电路数据。需要从前端CRM中获取客户名称和电路编号(简称前端电路);从后端NetMaster资源系统中获取电路编号和电路状态等详细信息(简称后端电路)。以下数据是20家样本大客户的传输专业电路数据(简称样本数据)的比对结果。

3.1 数据获取

截止时间为2013年10月30日24:00,分别获取了样本数据的前端电路总计2110条,后端电路总计2428条。前端电路根据客户名称以及客户层次关系获取,后端电路的客户名称没有层次关系因而采用客户名称的关键字模糊查询进行获取。

3.2 主数据定义

如表1所示,样本数据的主数据为:客户名称、电路编号、电路A端地址、电路Z端地址。

3.3 主数据流分析

该通信运营商传输业务分为本地业务和长途业务,本文只介绍本地业务流程。由于目前传输本地业务的拆机和移机流程未固化到信息系统,因此本文分析了早期的新增电路流程(如图1所示)。

(1)政企客户部负责受理大客户的传输电路业务;

(2)政企客户部通过CRM系统录入客户的名称、电路甲端地址、电路乙端地址以及其他数据并保存;

(3)由CRM系统自动产生客户编号;

(4)由CRM系统调用97系统产生电路编号,同时记录到CRM系统和97系统中;

(5)业务流程流转到NetMaster系统,由网络运行部录入A端地址、Z端地址,报完工;

(6)完工信息经97系统流转到CRM系统,完成开帐。

3.4 程序比对逻辑

(1)CRM中的资产编号和NetMaster系统中的链路编号相同的,程序比对成功。

(2)CRM中的电路一端地址中记录相关长途电路编号,而且和NetMaster系统中的链路编号为长途电路编号相同的,程序比对成功。

(3)程序比对结果:

前端电路:电路总数2110条,程序比对成功总数1614条,程序比对成功76.49%。

后端电路:电路总数2428条,程序比对成功总数1838条,程序比对成功75.70%。

3.5 人工比对逻辑

由于传输电路业务开展时间较长,并且信息系统建设情况比较复杂,因此出现了部分程序比对不成功的电路数据。经过各相关部门的人工比对,整理出以下人工比对逻辑:

前端电路存在,查找不到后端电路:

(1)根据前端电路编号在长途资源库中查找对应的的后端电路的链路编号(电路编号);

(2)前端电路中部分电路是郊区电路,暂时未整合在一起。

可以不计在前端电路中;后端电路存在,查找不到前端电路:

(1)根据后端电路的工程编号在CRM中查找对应的前端电路资产编号(电路编号);

(2)根据后端电路的两端地址、电路类型、客户经理保存资料等信息在CRM中查找对应的前端电路的资产编号(电路编号);

(3)后端电路中部分电路是局内中继电路,不属于大客户的保障电路。可以不计在后端电路中;

经过程序和人工比对传输电路数据比对结果总匹配率为98.33%,如下:

前端电路:电路总数2110条,程序比对1614条,人工比对445条,总成功率97.58%。

后端电路:电路总数2428条,程序比对1838条,人工比对565条,总成功率98.97%。

3.6 不匹配数据原因

经过分析得知,导致数据比对不成功的原因如下:

(1)部分后端电路保存在长途资源库中,未保存在NetMaster系统中。记录数28条。

(2)前后端记录相同工程编号,而不同电路编号,记录数14条。

(3)部分前端电路保存在大客户一站式受理系统中,未保存在前端CRM系统中,记录数12条。

(4)部分后端电路属于总头客户,不保存在前端CRM中。不计在20家大客户电路中,记录数3条。

(5)CRM中电路状态不匹配(正常流程中),分别为未报完工、移机未报完工和拆机,记录数8条。

(6)其他未知原因,记录数8条。

3.7 处理建议

针对数据不匹配的原因分析,我们给出的处理意见如下:

第一,对不匹配数据的处理意见。

(1)对于配置类错误数据直接修改。

这些数据包括由于客户名称不一致、电路编号不一致而导致数据比对不成功;此类数据的修改对业务运行以及各业务系统的数据完整性不产生影响。由相关部门按照主数据的定义规则直接修改。

(2)不属于大客户保障范围电路做标记。

这些数据本不应该属于大客户保障范围电路,应该在系统中对这些电路做标记。

(3)对于其他复杂原因,招集相关部门讨论解决。

第二,对业务流程的改进意见。

(1)传输专业“移机流程”和“拆机流程”的完善。

“拆机流程”未固化到系统中,“拆机流程”以“先装后拆”代替。因此会产生导致早期数据完整性错误,现已完善业务流程。

(2)长途电路的流程存在缺陷,会导致前后端电路编号不一致。需要尽快招集相关部门讨论解决方案。

4.总结

通过对样本大客户电路数据比对过程的研究,总结了程序比对和人工比对的方法,发现了业务流程上的少量问题。为下一步大批量数据比对提供参考,有效提高程序比对、人工比对、数据修正的工作效率;同时为完善IT系统、加强业务流程和IT系统之间的配合提供了参考依据。

参考文献

[1]Monge,A.E.Matching algorithm within a duplicate detection system.IEEE Data Engineering Bulletin,2000, 23(4):14-20.

[2]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081.

[3]田芳,刘震.数据仓库清洗技术讨论[J].青海师范大学学报(自然科学版),2005(4):50-53.

[4]王新英,陈语林.数据抽取、转换、转载综述[J].企业技术开发,2004,23(8):3-5.

数据分析方法第5篇

[关键词]大数据;市场分析;方法

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

[1]王云蔚.大数据背景下的消费市场研究[J].北京印刷学院学报,2014(1).

数据分析方法第6篇

关键词:网络舆情;大数据;舆情分析方法

中图分类号:TP393.08

随着网络技术的高速发展,网络自媒体的数量庞大,网民人数的不断增多,互联网资源数量呈现指数型的增长,网络已经成为民众获取信息的最主要渠道。网络在传达社情民意方面的优势也逐步显现出来,成为反应社会舆情的主要载体之一,在表达民众心声、反映社会舆论方面发挥极其重要的作用。

在海量数据中,通过探测并发现网络舆情中的热点话题,有助于梳理舆情监控的思路,抓住纷繁的监控工作中的重点,从海量的互联网信息中找到目标信息,将有限的人力物力用到关键的地方,提高工作的针对性和有效性,更好地应对网络舆情。

而如何对网络舆情加以有效的监督和引导,积极化解网络舆论危机,使和谐的互联网环境为维护社会稳定、促进国家发展、构建社会主义和谐社会发挥重要作用,不仅具有重要的现实意义,也已经成为网络舆情工作面临的一个重要课题。基于上述分析,我们认为网络舆情数据越来越呈现出大数据特征。

1 问题与挑战

大数据环境下的网络舆情分析和挖掘方法具有如下挑战:

1.1 为了得到更准确的舆情信息,所需要的数据量大幅膨胀。随着数据生成的自动化以及数据生成速度的加快,自媒体时代的到来,为了获得准确的网络舆情信息需要处理的数据量急剧膨胀。一种处理大数据的方法是使用采样技术,通过采样,把数据规模变小,以便利用现有的技术进行数据管理和分析。

1.2 数据深度分析需求的增长。为了从数据中得到准确的舆情信息进而指导人们的决策,必须对大数据进行深入的分析,这些复杂的分析必须依赖于复杂的分析模型。所以对网络舆情信息的分析还需要路径分析、时间序列分析、图分析、What-if分析等。

1.3 自动化和可视化分析需求的出现。在TB级的复杂舆情信息环境下,网络舆情系统应该能根据网站的内容自动构造查询,自动提供热点推荐,自动分析数据的价值并决定是否需要保存。

2 大数据技术的主要进展

针对传统分析技术的局限性,研究者提出了一些试验性的解决方法和途径。R是开源的统计分析软件,IBM公司研究人员致力于对R和Hadoop进行深度集成,把计算推向数据并且并行处理,使Hadoop获得强大的深度分析能力,为应用开发者提供了丰富的数据分析功能。

针对频繁模式挖掘、分类和聚类等传统的舆情分析方法,研究人员也提出了相应的大数据解决方案。如,Iris Miliaraki等人提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖据的算法[1],Alina Ene等人用MapReduce 实现了大规模数据下的K-center 和 k-median聚类方法[2],Kai-wei chang 等人提出了针对线性分类模型的大数据分类方法[3]。U kang等人使用“BP算法”处理大规模图数据发掘异常模式。Jayanta Mondal等人[4]提出了一个基于内存的分布式数据管理系统来管理大规模动态变化的图以支持低延迟的查询处理方法。Shengqi Yang等人[5]对基于集群上的大规模图数据管理和局部图的访问特征进行研究,为了在图查询处理中减少机器间通讯,提出来分布式图数据环境。Jiewen Huang等人提出了一个多节点的可扩展RDF数据管理系统,比目前系统的效率高出3个数量级。

3 网络舆情分析发展方向

3.1 实现更加复杂和更大规模的分析和挖掘是网络舆情分析未来发展的必然趋势。在大数据新型计算模式上实现更加复杂和更大规模的分析和挖掘是网络舆情分析未来发展的必然趋势,需要进行更细粒度的仿真、时间序列分析、大规模图分析和大规模社会计算等。

这些舆情主体间频繁联系、相互影响,在这个过程中涌现出一些大V,他们左右着其他主体的舆论方向,最终影响整个舆论场。同时,关注点相似的舆情主体间也自觉或不自觉地形成了一些联系相对紧密的子群体,在子群体中信息传播速度更快。要管理和引导网络舆情,就必须对网络舆情主体和舆论子群体进行研究,而社会网络分析方法就是有效的手段。

3.2 网络舆情信息的实时分析和挖掘。面对海量数据,分析和挖掘的效率成为网络舆情分析领域的巨大挑战。尽管可以利用大规模集群并行计算,但在数10TB以上的数据规模上,分析和发掘的实时性受到了严峻的挑战,而查询和分析的实时处理能力,对于舆情运用个体来说及时获得决策信息,做出有效应对是非常关键的前提。

3.3 关联不同领域数据进行舆情分析,非结构化大数据处理分析成为难点和重点。网络上的信息是千千万万的人随机产生的,从事网络舆情研究要从这些看似杂乱无章的数据中寻找有价值的信息。网络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、失效性、社会性、突发性和高噪音等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。网络数据的采集相对科学数据的采集成本较低,网上许多数据是重复的或者没有价值的,价值密度低。一般来说,网络舆情的数据分析及预测,比科学实验的数据分析更困难。所以我们不要一味的追求获取越来越多的数据,而是数据的去冗分类,去粗取精,从数据中挖掘有用信息,减少不必要的数据采集。

3.4 词汇理解的复杂性研究。既考虑词汇的情感倾向性,又权衡语义模式对评论的情感倾向值的影响,能比较全面地分析突发事件网络舆情的态势。但是词典的构建与语义模式的建设需要人工参与,个人的主观性影响比较大,机器学习的能力不强,准确度不高。另外,由于网络语言表达的灵活性,技术的发展速度跟不上社会话语变迁的复杂性。在国内的网络语境中,谐音、暗语是常用的表现手法,借古讽今、借外讽内是常用的叙事手段,隐喻、借代是常见的修辞。现有技术还不能完全准确地判定句子的情感倾向性,机器对词汇的理解能力需要进一步研究。

4 结束语

随着大数据时代的到来,我们要不断改进舆情的分析方法,将大数据思维及方法运用到网络舆情分析中去。首先要开始关注大数据分析,其次不再仅仅依靠语义分析,而是求诸于自动化的数据分析,再次要关联不同领域数据进行舆情分析,等等。总之,我们要突破传统,将舆情分析向大数据分析的方向创新。

参考文献:

[1]Miliaraki I,Berberich k,Gemulla R.Mind the gap:large-scale frequent sequence mining.SIGMOD’13,2013:797-808.

[2]Ene A,Im S,Moseley B.Fast clustering using MapReduce. KDD’11,2011:681-689.

[3]Chang K,Roth D.Selective block minimization for faster convergence of limited memory large-scale linear models.KDD’11,2011:699-707.

[4]Mondal J,Deshpande A.Managing large dnamic graphs efficiently.SIGMOD’12,2012:145-156.

[5]Yang S,Yan X,Zong B,e.Towards effective partition managenment for large graphs.SIGMOD’13,2012:517-528.

数据分析方法第7篇

关键词:大数据;分析模型;房价

中图分类号:TP399 文献标识码:A 文章编号:1007-9416(2017)03-0137-02

1 引言

大数据分析首先要建立一个分析模型,分析模型是大数据分析的基石,只有先建立了模型才能对大数据进行分析。构建大数据分析模型传统的方法很难实现,大数据非结构化、属性很难预知,通过数学、统计学等方法构建大数据分析模型都比较困难,机器学习是构建大数据分析模型最有效的方法之一。机器学习通过不断地学习优化、不断地迭代逼近所要的模型。

2 训练数据准备

机器学习构建大数据分析模型的方法是通过训练数据将模型训练出来。从要研究的大数据对象中找出训练集。机器学习分为监督学习和非监督学习,监督学习需要教师,监督机器学习的结果,事先设定好学习目标,期望的结果。非监督学习的数据一般都无标签,学习结果事先也无法预知,通过数据可视化等方法观察学习结果。

房价大数据分析模型机器学习属于监督学习,期望预测值极大地逼近真实值。首先需要采集房价数据作为训练数据,然后设计房价大数据分析模型机器学习算法,计算机通过机器学习算法和学习路径学习训练数据,学习目标是预测的结果极大地逼近真实数据,通过反复迭代,不断地接近目标,训练出所希望的模型。

3 数据清洗

清洗后的训练数据如下:

间数(x1) x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2

面e(x2) x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77

价格(y1) y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335

4 房价大数据分析模型机器学习算法

机器学习首先要设计机器学习学习算法,设计机器学习学习路径,机器学习解决的问题通常可分为预测和分类两类问题。首先我们分析一下要解决的问题是属于预测问题还是分类问题,然后选择相应的学习算法,设计学习路径,通过训练数据训练和机器学习构建大数据分析模型。模型通过训练数据训练出来以后,对模型进行检验,然后不断进行优化,以达到我们所期望的精度。

以下是梯度下降机器学习算法和学习路径:

首先建立一个估值函数(模型)如下:

x为自变量(特征参数),h(x)为应变量(房价的估值),希望求出此函数的系数θ0、θ1,构成一个完整的函数,此函数就是我们要构建的大数据分析模型。

我们建立一个成本函数,希望预测值与真实值的差趋近于0,也就是成本函数值趋近于0。

J(0, 1)=

其中:

X(I)表示向量X中的第i个元素;

Y(I)表示向量Y中的第i个元素;

表示已知的假设函数;

m为训练集的数量;

Gradient Descent梯度下降方法机器学习步骤:

(1)先随机选定一个初始点;

(2)确定梯度下降方向;

(3)通过实验确定下降步伐,学习率Learning rate;

(4)通过不断地递归,收敛到极小值;

通过梯度下降法使成本函数趋于0,在此条件下求得自变量的系数θ0和θ1,将此θ0和θ1带入到函数中得到我们要的模型。

下面是介绍如何运用梯度下降法,经过反复迭代求出θ0和θ1:

梯度下降是通过不停的迭代,最后沿梯度下降到最低点,收敛到一个我们满意的数据,误差趋近于0时迭代结束,此时的θ0和θ1正是我们要求的函数自变量的系数,有了θ0和θ1,这个假设的函数就建立起来了,这个函数就是我们要建的大数据分析模型。

梯度下降法分为批量梯度下降法和随机梯度下降法,批量梯度下降法速度较慢,每次迭代都要所有训练数据参与;随机梯度下降精度差一些,容易在极值周围震荡;房价大数据分析模型采用的是实时数据梯度下降法(Real Time Online Gradient Descent),可以随着房价的变化随时修正模型的参数。

5 构建房价大数据分析模型

通过数据可视化,我们可以看到房价数据趋于线性,所以我们采用线性回归构建房价大数据分析模型。采用监督学习,先给定一个训练集,根据这个训练集学习出一个线性函数,然后检验这个函数训练的好坏,即此函数是否足够拟合训练集数据,不断优化模型减少残差,最大限度地接近真实值。

假设房价大数据分析模型:

y=aX1+bX2

通过梯度下降法,不断递归,最后使假设值与实际值之差趋近于0,求得此时的模型变量系数a、b,构建线性函数(房价大数据分析模型)。模型通过回归诊断、交叉验证不断进行优化,直到误差达到要求。

以下是采用机器学习算法构建的房价大数据分析模型,用R语言编写房价大数据分析模型程序如下:

令:a=q1;b=q2;

将训练数据以数据框的形式存储。

pricedata

x1

x2

y

造梯度下降算法函数,初始点q1=0、q2=0;下降速率d=0.0001。

grd2

q1=0;

q2=0;

d=0.0001;

i=0;

m=9;

plot(y~x1+x2,data=pricedata,pch=16,col='red');

通过反复迭代得出估值函数系数q1、q2。

while (i

{

i=i+1;

q1=q1-d/m*(q1*x1+q2*x2-y)*x1;

q2=q2-d/m*(q1*x1+q2*x2-y)*x2;

}

return(q1);

return(q2);

}

grd2();

model2

summary(model2);

通过summary(model2)汇总出模型变量系数。

数据分析方法第8篇

环境监测数据可以反映出某一区域内的环境质量状况、污染物的排放情况以及环境受污染的程度。各项数据的不断汇总并分析为各级环保主管部门以及相关机构做决策提供了技术依据。因此,采用健全的质量保证体系以及方法来保证数据的分析质量很有必要。首先,我们先来了解监测数据分析的方法。

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际全面分析数据的合理性,这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部全面优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的准确性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要准确调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

三、结束语

数据分析方法第9篇

Abstract: This paper describes several commonly used in environmental monitoring data analysis method of monitoring data, the comprehensive analysis is very important.

关键词:环境监测;质量浓度;数据;分析;方法

Key words: environmental monitoring; mass concentration; data analysis; method;

中图分类号:X83文献标识码:A 文章编号:2095-2104(2012)

一、监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测质量好坏集中反映在数据上,准确、可靠、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性和定量结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策的转变。环境监测数据综合分析是环境监测过程中环节的重要环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

2.1 统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

2.2 合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

2.2.1 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如CO、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2 与H2O所消耗的氧量平;BOD5是指在水温为20℃的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律:COD>BOD5,COD>CODMn。三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2.2.2 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

2.2.3 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10 一定大于L50、L90、Leq,在实际监测中如果出现Leq 大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

2.2.4 通过了解污染源对监测值进行判定

监测数据是多种多样的,不仅仅包括环境空气、地表水、地下水等等,也包括点源,如我们常说的工业污染源。工业污染源多种多样,不同的行业有不同的污染物产生,多数行业都有自己的特殊污染物产生,化学需氧量和氨氮只是多数工业污染源的共性污染物。因此,要在日常工作中对辖区内的污染源或者是重点污染源有所了解,根据行业的不同,选择有针对性的监测项目来监督污染企业。如国家最新颁布执行的制药行业六项标准,就是根据制药行业不同工业生产工艺和污染治理技术的特点,分别制定了《发酵类制药工业水污染物排放标准》、《提取类制药工业水污染物排放标准》、《化学合成类制药工业水污染物排放标准》、《中药类制药工业水污染物排放标准》、《生物工程类制药工业水污染物排放标准》、《混装制剂类制药工业水污染物排放标准》。国家对这些行业制定了最多25项污染物监测分析排放标准,最少11项污染物监测分析排放标准,其中有共性的污染物,也有特殊的污染物,根据特殊的污染物是否存在,就可以判定是哪类制药行业。又如对化工行业来说,有机物含量种类较多,重金属比较少;对于重金属行业来说,有机物含量较少;造纸行业主要是有机污染等。如果在一个生产有机化工的企业,废水监测出高质量浓度的重金属,则监测数据应重新考虑,需按照综合分析方法分析其原因。

2.3 效益分析

环境监测数据有例行监测、环评监测、验收监测、监督监测等等。对于监督监测来说,分析数据相对较少,数据合理性比较好判断;而对于数据较多的例行监测、环评监测来说,在较短时间内判断数据是否准确、合理、可靠,上述综合分析方法提供了简单、明了的依据,在实际工作中能够及时为环境管理提供准确的监测信息,减少企业不必要的重复工作,在有效的时间内提供更优质的服务。