欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

统计学中常用的基本概念优选九篇

时间:2023-09-27 16:09:36

统计学中常用的基本概念

统计学中常用的基本概念第1篇

1.要把注意力放在基本概念上部分学生只重视知识体系中的重点、难点,而不重视基本概念和基础知识。如果教师直接告诉学生重点内容,在应试教育的背景下,学生会直接去复习重点而忽略基础知识的重要性。心理统计学是一门非常注重理解基础概念的课程,重点、难点都是建立在对基本概念的把握的基础上,是对基本概念的整合与深入,如总体、样本、平均数、方差、标准差等基础概念是房屋的地基,重点、难点如方差分析、两独立样本t检验等是房梁,地基与房梁都很重要,不能拆开,心理统计学的这种特点是由统计学科的逻辑性决定的。在心理统计学教学实践过程中经常发现,有些学生平时在课堂上表现很好,最后的考试成绩却不好,理解的也不好。经总结发现这些学生就是对基本概念的理解不到位,课堂上的所谓“表现好”只是记忆的表现,知识没有经过加工进入长时记忆,从而产生了一种学生在课堂上好像是对知识理解很好的假象。所以在心理统计学的课堂上,学生一定要放弃在高中时只重视重点、难点那种学习方法,要把基本功扎扎实实地打好。

2.加深对统计符号的记忆与理解心理统计学也是一门符号学,对不同符号所代表的意义的记忆与理解是很重要。心理统计学课程越到后期,教师在讲授的过程中运用专业术语越多,用符号也越多。如果学生忘记了前面学习的符号所代表的意义和功能,后面的课就听不下去。教师在讲解基本概念、统计符号所代表的意义时要放慢速度,让尽量多的学生参与到对基本概念的理解中来,对后面的教学工作有着不可估量的意义。

二、注重掌握各种统计方法

使用的条件学生在解决具体的心理统计学问题时,经常不能够准确地判断使用什么统计方法。如在解题时学生经常不能判断出在什么情况下使用独立样本t检验、在什么情况下使用相关样本t检验。究其原因还是对独立样本t检验及相关样本t检验的使用条件不清楚。所以在教学过程中,教师要经常强调各种统计方法使用前提条件的重要性。在什么前提条件下使用什么心理统计学方法是对马克思主义理论“具体问题具体分析”的最好体现。

三、注重及时复习

统计学中常用的基本概念第2篇

摘要:对《概率论与数理统计》教学内容进行三个模块的教学实施,就是让教材立体化后对课程系统认识,对教学大纲、基本概念、重点难点、应用案例分析等方面进行教学提高。

关键词:概率统计 模块 教学

前言

《概率论与数理统计》是学生由确定性思维进入随机性思维的入门课程,也是大学进行随机思维培养和训练的课程。要让教材立体化就是要清楚课程的背景与概况;清楚课程的指导思想;教学理念;教学目标;对难、重点进行深度剖析,明确解决问题的思路;对教学内容的剖析有新的认识。教学实践中将本门课程内容分为:概率论,随机变量的函数及其分布,数理统计初步三大模块进行。

第一模块 概率论

针对大三学生在系统学习概率论与数理统计之前已对概率有所了解,但从实际的随机现象中把问题数学化,运用数学符号表示随机现象是第一模块学习内容的难点,这部份内容是整个概率论的基础。所以教学具体实施分三步:第一步,从常见随机想象出发,引导学生用数学语言描述随机现象,补充大量用数学语言描述随机现象的实际练习训练 ,用集合的概念来表述随机事件;第二步,结合随机事件运算规律学习概率定义的发展规律,了解概率的公理化体系;第三步,对要掌握的条件概率,全概公式,贝叶斯公式等内容,无论是教师讲授演算、还是学生做作业都要求在解题时认真书写每一个题目的详细解题步骤,严格的书写过程方可让学生达到逻辑性地对问题的逐步认识深度,这是非常重要的一个基础训练要加强实施 。

第一模块“概率论”中要抓住对概念的引入和背景的理解。如,概率公理化定义引入的背景是:在概率论的发展史上曾经有过概率的古典定义、概率的几何定义、概率的频率定义和概率的主观定义,这些定义各适合一类随机现象,为了给出适合一切随机现象的概率的最一般的定义,前苏联数学家柯尔莫哥洛夫在1933年提出了概率的公理化定义,该定义既概括了上述几种概率定义的共同特性,又避免了各自的局限性和含混之处。概率的公理化定义刻画了概率的本质:概率是集合(事件)的函数。对概率的公理化定义的深度剖析是公理化定义未确定概率,它只是规定了概率应该满足的性质,在公理化定义出现之前的古典定义、几何定义、频率定义和主观定义都在一定的场合下给出了各自的确定概率的方法,因此有了概率的公理化定义之后,把它们看作确定概率的方法是恰当的。

一模块中需要重点讲授概念的直观含义或实际意义的有;事件的概率与频率;条件概率;事件的独立性;全概率公式;需要多媒体课件的有效辅助实际教学,充分利用图形演示功能帮助直观理解。对概率论中涉及的众多例题和习题,应理解题目所涉及的概念及解题的目的,而具体计算技巧在在高等数学已学过,因此概率论学习的关键不在于多做习题,而要理解不同题型涉及的概念及解题的思路。

第二模块 随机变量的函数及其分布

随机变量的函数及其分布包括一维随机变量与多维随机变量,要求学生认识到分布函数、分布律和概率密度函数是揭示随机现象本质规律的重要工具。对概率分布函数,连续性随机变量概率密度函数的准确理解以及会计算随机事件的概率是本模块的重点,掌握常见的离散型和连续型随机变量,数学期望、方差、协方差和相关系数,并应用这些概念解决实际问题。

分布函数、随机变量的独立和不相关等概念要仔细推敲概念的内涵和相互联系、差异,例如,随机变量概念的内涵是一个从样本空间到实轴的单值实函数X(w),但它不同于一般的函数,定义域是样本空间,不同随机试验有不同的样本空间。而它的取值是不确定的,随着试验结果的不同可取不同值,但是它取某一区间的概率又能根据随机试验予以确定的。

第二模块计算难点有二维随机变量的边缘分布,事件B的概率P((X,Y)∈B),卷积公式等的计算,它们形式简单,但f(x,y)通常是分段函数,真正的积分限并不再是(-∞,∞)或B,如何正确确定事实上的积分限就成了正确解题的关键,所以要综合运用极限、连续函数、导数、极值、积分、广义积分及级数等知识去解决问题,课程进行之前一定要复习相关知识并练习一定量的习题作保障。

二模块中需要重点讲授概念的直观含义或实际意义的有;概率密度的几何意义及均匀分布与正态分布;几类常用随机变量的数学期望;相关系数概念。这些概念的引入需要多媒体课件的有效辅助利用图形演示功帮助学生直观理解。

第三模块 数理统计初步

概率论是研究揭示随机现象所隐含的本质规律,反映在课程内容上就是随机变量分布函数、分布律和概率密度函数的寻求以及研究它们的数字特征;统计是以概率论为基础,利用实验数据对分布函数,概率密度函数进行估计和检验,第三模块主要讲授参数的点估计和区间估计,参数的假设检验,尤其要熟悉正态总体均值和方差的区间估计方法,假设检验方法。重点是极大似然估计思想和假设检验思想的介绍。

统计学中常用的基本概念第3篇

概率统计的社会科学理念已经渗透到生产管理、技术革新、工艺改造等各个方面。概率统计是研究大量随机现象规律性的一门科学,对其它各学科的发展都有不同程度的影响。提高人们的概率统计社会科学理念已成为国家工业发展、经济发展的方向之一。我国2010-2020年的《中长期教育改革和发展规划纲要》把提高公众科学素质,培养创新人才放在了重要的位置(陈来成、徐燏,2012:55)。概率统计社会科学理念是科学发展中的重要组成部分,而高职理工科人才科学素质的培养离不开概率统计科学理念。因此培养高职理工科人才,提高其概率统计的社会科学理念是国家的需要。概率统计的社会科学理念包涵了活跃的思维意识、严谨的逻辑思考方式和对自然规律的解释,是高职理工科学生的专业基础课,该理念的培养是高职理工科学生基础知识的要求、专业的需求以及社会的需求。

(1)高职理工人才基础知识的要求不同层次理工科学生的培养对其基础知识的掌握有不同的要求:本科阶段的理工科基础知识偏重于理论的研究,为学生进一步深造打下科学基础;高职阶段的理工科基础知识则侧重于基本理论和对相关技术的应用。概率统计知识是高职阶段理工科基础知识的重要组成部分。高职理工科的基础课程有高等数学(数学分析)、线性代数(高等代数)、工程图学(机械制图)、大学物理学、概率论与数理统计等,数学类课程在其中占据了极其重要的比例。其中,概率统计类课程通常为48或51个课时。众多高职理工类专业都开设有概率统计类课程,如电子信息、环境科学、专业建筑学、城市规划、土木工程、建筑环境与设备工程、给水排水工程等专业。由此可见,概率统计社会科学理念的培养是高职理工科学生基础知识的要求。

(2)高职理工人才的专业需求高职理工科很注重培养学生的专业实践能力和动手能力,概率统计社会科学理念有助于增强这方面的能力。在制造类工业生产方面,人们常运用参数估计与假设检验等概率统计的科学知识解决生产中的实际问题,例如常被用于进行矿砂样品的测定、机床加工精度的分析、轮胎耐磨性的检验、电子管平均寿命的测量等。在高职理工科的专业设置中,制造大类的专业布点占高职招生计划专业总数的百分之二十,远远地超过了电子、财经类等热门专业。因此,概率统计社会科学理念的培养将有助于优化高职生,尤其是理工类高职生的专业知识结构。

(3)高职理工科学生教育的社会需求我国高职教育是社会经济发展的产物,是为适应社会对生产第一线的技术人才的迫切需要而发展起来的(尹雨琴,2012:19)。高职理工科人才的培养更多地是面向社会的需求。根据全国高等学校教学研究中心的专家分析,理工科的人才培养有两类,高职的理工科人才培养属于第二类“从事各类应用性研究以及面向生产管理部门的应用型理科人才”(夏鲁惠,2006:6),其中“面向生产管理部门”就是要紧扣社会的需求。概率统计的科学知识常被运用于生产管理的各个环节,社会各生产管理部门通过对生产数据的收集、整理、描述和分析,以此在生产运作中做出合理的推断和预测,最终做出生产决策。此外,社会的各方面信息也离不开概率统计的科学知识。读懂国家统计局公布的中国国内生产总值、人均国内生产总值等数字,合理分析国家统计局对工农业总产值和劳动就业的调查报告,这些都离不开概率统计的科学知识。因此,概率统计社会科学理念的培养将有助于提高高职理工科学生的社会意识,应用意识,帮助他们完善自我,更好、更快地满足社会的需求。

二、高职理工科学生的培养方式探索

理清了培养的重要性,从教学和人才培养的意识上确立了概率统计社会科学理念的地位之后,探讨培养的方式方法显得尤为重要。结合上文提到的,概率统计社会科学理念的培养是高职理工科学生基础知识的要求,专业的需求以及社会的需求,本研究对高职理工科学生概率统计社会科学理念的培养方式做出三方面相应的分析:

(1)结合高职理工科学生基础知识的水平,降低概率统计社会科学理念的难度高职学生数学基础知识较弱,概率统计的课程学时少,按照51或48学时的授课计划计算,连概率的基本思想内容介绍都无法完成,加强统计方法在社会实践方面的应用更是空想。因此,针对高职理工科学生的培养方案必须考虑这些实际的教学现状和问题,结合高职理工科学生基础知识的水平,降低概率统计社会科学理念的难度。在培养高职理工科学生概率统计社会科学理念的过程中,首先,要掌握高职理工科学生的学习心理。高职高专入学分数较低,文化基础弱,对各门学科的学习信心不足,稍稍遇到困难就很容易退缩,接受概率统计的科学理念又需要一定的数学基础,所以在学习的初始,应先复习中学的概率统计知识,教学内容应该在高等教育和中学教育之间有良好的过度和衔接,帮助学生树立学习的自信心。其次,概率统计社会科学理念作为高职理工科基础学科知识的一部分也应重基础,减少大而且深的理论教学,多教授生产中能应用到的函数公式,尽量减少函数曲线的抽象性,以此减低概率统计科学知识的教授难度。此外,在培养过程当中,也要慎重选择教材和教学辅助材料,许多概率统计的教材是针对本科生编写的,内容全面,但具体的概率统计应用方式介绍不够突出,讲解过于学术,不适合高职高专的学生使用,令学生阅读教材时即对概率统计的科学知识望而生畏,因此,要降低概率统计课程的难度,首先要降低教材的难度。只有全面考虑高职高专理工科学生的基础知识结构特点,才能取得概率统计社会科学理念培养方面的突破。

(2)结合理工科专业知识,细化概率统计社会科学理念概率统计社会科学理念是一个很宽广的范围,包括概率论和统计学两个方面,其中有随机思想的理念、公理化系统的理念、数形结合的思维结构、统计推断的科学理念等等。这些概率统计社会科学理念的分类都是比较宽泛的,不利于专业针对性较强的高职理工科学生在学习中接受。概率统计社会科学理念作为高职理工科基础学科知识的一部分也应重基础、重应用,与具体的理工科专业知识相互结合。例如,对于电子信息专业的高职理工科学生,可以在理念培养的过程中适时引进基于概率统计论的网络技术。研究人员徐海湄、齐守青、卢显良和韩宏曾在2009年立项的国家973计划项目中研发一种新的基于概率统计论的P2P网络信任模型。该模型运用了最大似然估计、假设检验等方法,这种经典案例极好地结合了理工科的专业知识,同时又细化了宽泛的概率统计社会科学理念。再如,对于土木工程专业的高职理工科学生,也可在学科专业培养中渗透概率统计的科学思想。重庆大学土木工程学院、研究防灾减灾工程及防护工程的学者曹晖和林秀萍曾于2010年在理工科类的核心期刊《振动与冲击》中《结构损伤识别中噪声的模拟》。文中提到,可以用概率统计方法,借助统计量和假设检验方法确定土木工程结构的损伤判别临界值,并给出检验的判错概率。总而言之,概率统计社会科学理念的培养需要紧密结合高职理工类学生的学科专业知识,培养方向应具体化,概率统计社会科学理念要在相应专业的应用方面增加深度和广度。

(3)利用STS活动、结合社会实践,将概率统计社会科学理念具体化科学、技术和社会联合式教育活动是现今高职人才培养的重要教学活动之一,STS(ScienceTechnologyandSociety)是它的英文名称。这种教学活动形式以学生为主体,在培养学生的过程中强调走出课堂,走产学研相结合的道路,主张开展“校企合作”密切联系生产管理、实体操作第一线。STS模式的应用有利于提高学生运用概率统计社会科学理念解决实际问题的能力。概率统计的科学理念本身就与社会实践活动息息相关,STS注重科学和技术在社会实践中的应用,因此,通过STS教学活动,组织学生分组协作,亲身体验企业在理工科专业领域中的生产运作,然后进行相关的模拟练习,利用概率统计的相关知识解决模拟练习中出现的生产管理问题,以此促进学生的动手能力,拉近学生与社会生产生活的距离,将概率统计社会科学理念在社会实践中具体化。在培养过程中,教学部门还应组织相应的学科竞赛,指导并鼓励学生运用所学的概率统计科学知识提高自己的专业水平。将概率统计社会科学理念具体化需要全方位的教学活动的配合,这也是高职理工科人才概率统计社会科学理念的培养方式之一。

三、结论

统计学中常用的基本概念第4篇

大学教育最主要的功能是专业教育,即培养学生树立牢固的专业思想,掌握本专业的基本理论和基本技能,为将来进一步深造或从事专业工作做好充分的准备.大学教育虽然是一种综合素质的培养,但这种综合素质的培养必须靠专业来支撑.任何一个专业目标的实现都必须通过一系列既相互联系,又有明确分工的课程来完成.这一系列课程构成一个完整的系统,而每一门课程自身也是一个系统,它们由自成体系又相互联系的章节,相互联系的一系列概念、判断、推理所构成.于是大学的课堂教学就与中小学有了本质的不同.大学教师不论采用什么模式,什么方法进行教学,都必须坚持一条准则,那就是帮助每一个学生建立自己的知识体系.如果教师仅仅是照本宣科的讲一些条条框框,学生背一些概念、公式、做几道习题,那就根本达不到对知识融会贯通,更谈不上将知识转化为能力,灵活的运用知识.而这基本上是当前大学概率统计教学的实际情况.为扭转这种局面,笔者认为教师在课堂教学中必须把深度和广度结合起来,使学生不仅是了解每门课程内在的知识结构,而是能深刻领会课程所揭示的基本原理,逻辑联系和理论依据;不仅要学好每一门课程,而且能把各门课程知识融会贯通和重组,打下牢固的专业基础;不仅能掌握教科书知识,而且能够以此为基础和线索拓展自己的知识领域,并且具有运用这些专业知识解决实际问题的能力[3].

每一章结束或课程结束的习题课上,教师要将所学的相关知识进行系统复习.抓住这一机会,组织学生画概念图,通过画概念图使学生既能将所学知识系统化又能培养学生系统化掌握知识的能力,从而有利于大学概率统计教学根本任务的完成.所谓概念图是用来组织和表征知识的工具,它通常是将有关某一主题不同分支和不同级别的概念置于方框中,再以各种连线将相关的概念连接,这样就形成了关于该主题的概念网络,以此形象的说明概念的内涵和相互关系[4].例如,利用概率统计概念图可使学生很好的掌握这两个数学分支的研究对象、研究条件、研究内容和思想方法的不同(见图1).学生很长一段时期的认识主要局限于对具有因果关系的确定性的把握,而对揭示偶然世界规律的随机变量了解的总是很肤浅.教师可以通过下面两个概念图让学生深刻理解与掌握概率统计中这一最重要的概念.对于随机变量概念图中的每一个概念还可以画出它的微观概念图,比如“离散型”概念为主题的微观概念图,如图3所示.习题课上往往是教师提供一个不完整的概念图,要求学生给与完善(见图4).(参考答案是:①随机变量序列的算术平均收敛于其期望的算术平均;②是特例;③是特例;④n重贝努力试验;这样学生所学到的知识会更加系统,可以建立起自己的完善认知结构.在概率统计习题课中经常让学生自己画概念图或自己完善概念图,可以使学生形成系统的知识结构,培养学生的高级思维和创造性思维,提高学生运用概率统计知识分析和解决实际问题的能力.

概率统计习题课的任务不仅是要引导学生系统的掌握概率统计的基础知识,还要激发学生学习概率统计的兴趣.培养数学思维能力和提高运用概率统计知识分析和解决实际问题的能力.数学的价值之一是应用价值,它能激起学生的学习欲望.为此,我们在习题课上尽可能的选择一些既能引起学生兴趣又能培养学生解决实际问题能力的习题.如在学习古典概率时,我们选择了抓阄获取一张电影票与顺序无关的实际问题,进而推广到其它抽奖活动与顺序的无关性;学习数学期望和方差时,我们引入了投资风险问题及体育彩票中奖问题;在学习正态分布时,让学生做设计公交车门的高度的实际问题;在学习贝叶斯公式时,我们让学生解决这样的问题:某同学在超市买了一杯酸奶,饮用后出现中毒症状,送医院经抢救脱险,花费医疗费1万元.该同学要求超市赔偿医疗费用,而超市要追究三个厂家的责任.已知超市从三个厂家进货的比例分别为50%,30%,20%,各厂家的次品率分别为2%,4%,5%,由于杯盖上的商标撕掉了,无法辨认是哪个厂家生产的.如果超市想让三个厂家共同支付医疗费用,问三个厂家各支付多少医疗费用才比较合理?这样的问题学生很感兴趣.通过这样的实际问题,学生不仅掌握了一些抽象概念,而且提高了运用概率统计解决实际问题的能力.

在学习数理统计时,可以出一些实际的小问题让学生解决.例如:统计某门课的期末成绩,看其是否符合正态分布,并求出获得优秀、良好等级的概率,进而评价考试的合理性;利用拟合检验考察系别对英语过级率的影响;学习回归分析时让学生记录年级学生的身高及其父母的身高,分析父母身高对子女身高的影响,并预测未来子女的身高,等等.通过这些改革,学生们的概率统计成绩得到明显提高.所学到的知识不仅更加系统,而且会用这些知识去观察社会,极大的提高了他们解决实际问题的能力.(本文作者:丛玉华、殷烁单位:通化师范学院数学学院)

统计学中常用的基本概念第5篇

关键词:课堂教学;概率论与数理统计;应用能力;教学模式 

概率与数理统计是实际应用性很强的一门数学学科,它在经济管理、金融投资、保险精算、企业管理、投入产出分析、经济预测等众多经济领域都有广泛的应用。概率与数理统计是高等院校财经类专业的公共基础课,它既有理论又有实践,既讲方法又讲动手能力。然而,在该课程的具体教学过程中,由于其思维方式与以往数学课程不同、概念难以理解、习题比较难做、方法不宜掌握且涉及数学基础知识广等特点,许多学生难以掌握其内容与方法,面对实际问题时更是无所适从,尤其是财经类专业学生,高等数学的底子相对薄弱,且不同生源的学生数理基础有较大的差异,因此,概率统计成为一部分学生的学习障碍。如何根据学生的数学基础调整教学方法,以适应学生基础,培养其能力,并与其后续课程及专业应用结合,便成为任课教师面临的首要任务。作为我校教学改革的一个重点课题,在近几年的教学实践中,我们结合该课程的特点及培养目标,对课程教学进行了改革和探讨,做了一些尝试性的工作,取得了较好的成效。

1 与实际结合,激发学生对概率统计课程的兴趣

概率论与数理统计从内容到方法与以往的数学课程都有本质的不同,因此其基本概念的引入就显得更为重要。为了激发学生的兴趣,在教学中,可结合教材插入一些概率论与数理统计发展史的内容或背景资料。如概率论的直观背景是充满机遇性的赌博,其最初用到的数学工具也仅是排列组合,它提供了一个比较简单而非常典型(等可能性、有限性)的随机模型,即古典概型;在介绍大数定律与中心极限定理时可插入贝努里的《推测术》以及拉普拉斯将概率论应用于天文学的研究,既拓广了学生的视野,又激发了学生的兴趣,缓解了学生对于一个全新的概念与理论的恐惧,有助于学生对基本概念和理论的理解。此外,还可以适当地作一些小试验,以使概念形象化,如在引入条件概率前,首先计算著名的“生日问题”,从中可以看到:每四十人中至少有两人生日相同的概率为 0.882,然后在各班学生中当场调查学生的生日,查找与前述结论不吻合的原因,引入条件概率的概念,有了前面的感性认识后学生就比较主动地去接受这个概念了。

在概率统计中,众多的概率模型让学生望而生威,学生常常记不住公式,更不会应用。而概率统计又是数学中与现实世界联系最紧密、应用最广泛的学科之一。不少概念和模型都是实际问题的抽象,因此,在课堂教学中,必须坚持理论联系实际的原则来开展,将概念和模型再回归到实际背景。例如:二项分布的直观背景为 n重贝努里试验,由此直观再利用概率与频率的关系,我们易知二项分布的最可能值及数学期望等,这样易于学生理解,更重要的是让其看到如何从实际问题抽象出概念和模型,引导学生领悟事物内部联系的直觉思维。同时在介绍各种分布模型时可以有针对性地引入一些实际问题,向学生展示本课程在工农业、经济管理、医药、教育等领域中的应用,突出概率统计与社会的紧密联系。如将二项分布与新药的有效率、射击命中、机器故障等问题结合起来讲;将正态分布与学生考试成绩、产品寿命、测量误差等问题结合起来讲;将指数分布与元件寿命、放射性粒子等问题结合起来讲,使学生能在讨论实际问题的解决过程中提高兴趣,理解各数学模型,并初步了解利用概率论解决实际问题的一些方法。

2 运用案例教学法,培养学生分析问题和解决问题的能力

案例教学法是把案例作为一种教学工具,把学生引导到实际问题中去,通过分析与互相讨论,调动学生的主动性和积极性,并提出解决问题的基本方法和途径的一种教学方法。它是连接理论与实践的桥梁。我们结合概率与数理统计应用性较强的特点,在课堂教学中,注意收集经济生活中的实例,并根据各章节的内容选择适当的案例服务于教学,利用多媒设备及真实材料再现实际经济活动,将理论教学与实际案例有机的结合起来,使得课堂讲解生动清晰,收到了良好的教学效果。案例教学法不仅可以将理论与实际紧密联系起来,使学生在课堂上就能接触到大量的实际问题,而且对提高学生综合分析和解决实际问题的能力大有帮助。通过案例教学可以促进学生全面看问题,从数量的角度分析事物的变化规律,使概率与数理统计的思想和方法在现实经济生活中得到更好的应用,发挥其应有的作用。

在介绍分布函数的概念时,我们首先给出一组成年女子的身高数据,要学生找出规律,学生很快就由前面所学的离散型随机变量的分布知识得到分组资料,然后引导他们计算累积频率,描出图形,并及时抽象出分布函数的概念。紧接着仍以此为例,进一步分析:身高本是连续型随机变量,可是当我们把它们分组后,统计每组的频数和频率时却是用离散型随机变量的研究方法,如果在每一组中取一个代表值后,它其实就是离散型的,所以在研究连续型随机变量的概率分布时,我们可以用离散化的方法,反过来离散型随机变量的分布在一定的条件下又以连续型分布为极限,服装的型号、鞋子的尺码等问题就成为我们理解“离散”和“连续”两个对立概念关系的范例,其中体现了对立统一的哲学内涵,而分布函数正是这种哲学统一的数学表现形式。尽管在这里花费了一些时间,但是当学生理解了这些概念及其关系之后,随后的许多概念和内容都可以很轻松地掌握,而且使学生能够对数学概念有更深层次上的理解和感悟,同时也调动了学生的学习积极性和主动性,培养了他们再学习的能力。

3 运用讨论式教学法,增强学生积极向上的参与和竞争意识

讨论课是由师生共同完成教学任务的一种教学形式,是在课堂教学的平等讨论中进行的,它打破了老师满堂灌的传统教学模式。师生互相讨论与问答,甚至可以提供机会让学生走上讲台自己讲述。如,在讲授区间估计方法时,就单双边估计问题我们安排了一次讨论课,引导学生各抒己见,鼓励学生大胆的发表意见,提出质疑,进行自由辩论。通过问答与辩驳,使学生开动脑筋,积极思考,激发了学生学习热情及科研兴趣,培养了学生综合分析能力与口头表达能力,增强了学生主动参与课堂教学的意识。学生的创新研究能力得到了充分的体现。这种教学模式是教与学两方面的双向互动过程,教师与学生的经常性的交流促使教师不断学习,更新知识,提高讲课技能,同时也调动了学生学习的积极性,增进师生之间的思想与情感的沟通,提高了教学效果。教学相长,相得益彰。

保险是最早运用概率论的学科之一,也是我们日常谈论的一个热门话题。因此,在介绍二项分布时,例如一家保险公司有1000人参保,每人、每年12元保险费,一年内一人死亡的概率为0.006。死亡时,其家属可向保险公司领得1000元,问:①保险公司亏本的概率为多大?②保险公司一年利润不少于40000元、60000元、80000元的概率各为多少? 保险这一类型题目的引入,通过讨论课使学生对概率在经济中的应用有了初步的了解。

4 运用多媒体教学手段,提高课堂教学效率

传统上一本教材、一支粉笔、一块黑板从事数学教学的情景在信息社会里应有所改变,计算机对数学教育的渗透与联系日益紧密,特别是概率论与数理统计课,它是研究随机现象统计规律性的一门学科,而要想获得随机现象的统计规律性,就必须进行大量重复试验,这在有限的课堂时间内是难以实现的,传统教学内容的深度与广度都无法满足实际应用的需要。在教学中我们可以采用了多媒体辅助手段,通过计算机图形显示、动画模拟、数值计算及文字说明等,形成了一个全新的图文并茂、声像结合、数形结合的生动直观的教学环境,从而大大增加了教学信息量,以提高学习效率,并有效地刺激学生的形象思维。另外,利用多媒体对随机试验的动态过程进行了演示和模拟,如:全概率公式应用演示、正态分布、随机变量函数的分布、数学期望的统计意义、二维正态分布、中心极限定理的直观演示实验等,再现抽象理论的研究过程,能加深学生对理论的理解及方法的运用。让学生在获得理论知识的过程中还能体会到现代信息技术的魅力,达到了传统教学无法实现的教学效果。

5 改革考试方式和内容,合理评定学生成绩

应试教育向素质教育的转变,是我国教育改革的基本目标。财经类专业的概率与数理统计教学,除了在教学方法上应深入改革外,在考试环节上也需要进行改革。

考试是教学过程中的一个重要环节,是检验学生学习情况,评估教学质量的手段。对于数学基础课程概率与数理统计的考试,多年以来一直沿用闭卷笔试的方式。这种考试方式对于保证教学质量,维持正常的教学秩序起到了一定的作用,但也存在着缺陷,离考试内容和方式应更加适应素质教育,特别是应有利于学生的创造能力的培养之目的相差甚远。在过去的概率与数理统计教学中,基本运算能力被认为是首要的培养目标,教科书中的各种例题主要是向学生展示如何运用公式进行计算,各类辅导书中充斥着五花八门的计算技巧。从而导致了学生在学习概率与数理统计课程的过程中,为应付考试搞题海战术,把精力过多的花在了概念、公式的死记硬背上。这与财经类培养跨世纪高素质的经济管理人才是格格不入的。为此,我们对概率与数理统计课程考试进行了改革,主要包括两个方面:一是考试内容与要求不仅体现出概率与数理统计课程的基本知识和基本运算以及推理能力,还注重了学生各种能力的考查,尤其是创新能力。二是考试模式不具一格,除了普遍采用的闭卷考试外,还在教学中用互动方式进行考核,采取灵活多样的考核形式。学生成绩的测评根据学生参与教学活动的程度、学习过程中掌握程度和卷面考试成绩等综合评定。这样,可以引导学生在学好基础知识的基础上,注重技能训练与能力培养。

实践表明,运用教改实践创新的教学模式,可以使原本抽象、枯燥难懂的数学理论变得有血有肉、有滋有味,可以激发学生的求知欲望,提高学生对课程的学习兴趣。在概率统计的教学模式上,我们尽管做了一些探讨,但这仍是一个需要继续付出努力的研究课题,也希望与更多的同行进行交流,以提高教学水平。

参考文献

[1]陈善林,张浙.统计发展史[M].上海:立信会计图书用品社,1987:119-151.

[2]姜启源,谢金星,叶俊.数学模型(第三版)[M].北京:高等教育出版社,2003.

[3]肖柏荣.数学教学艺术概论[M].合肥:安徽教育出版社,1996.

统计学中常用的基本概念第6篇

【关键词】义务教育; 统计; 概率。

一、义务教育阶段增设统计与概率内容的意义。

在义务教育阶段增设统计与概率知识,很有必要,这是因为:

( 1) 统计与概率的基本思想方法和基本知识在日常生活中具有广泛的应用性。

信息社会,常常需要在不确定情境中根据大量无组织的数据做出合理的决策,如天气预报、购买彩票、摸奖、买卖股票收益、统计部门大量的数据统计及决策等等。而统计与概率正是通过对数据的收集、整理、描述和分析以及对事件可能性的刻画来帮助人们做出合理的推断和预测。由此可见,这二者与人们的日常工作和社会生活密切相关。

( 2) 统计与概率的基本思想方法对于培养“数学智力”起着重要作用。

我们知道义务教育阶段的统计和概率分别属于描述性统计学范围和初等概率范围。描述性统计学在中小学只是初步介绍数据的收集、整理、描述和分析,当然,这种收集、整理、描述和分析不可能离开思维而进行。概率和思维有不可分割的联系,一般说来,中小学阶段的概率教学比统计教学能够提供更多的培养数学思维的机会,所以,初等概率也应成为所有人学习的内容。

( 3) 与国外相比,我国中小学阶段在这方面已明显落后。

自 20 世纪 80 年代以来,全球范围的把统计与概率的基本思想方法和基本知识作为数学基本修养的一部分而引入中学,甚至小学课程,这一运动逐渐形成并蔓延开去。目前,许多发达国家的课程标准对这部分内容都有比较详细的要求,且已形成一个完整的体系。相比之下,我国对此处理已明显落后,体现在内容设置过少,脱离实际,教学要求偏低等。

二、对义务教育阶段统计与概率定位的一些认识。

笔者认为对我国义务教育阶段统计与概率的定位应是以发展学生的统计观念为主,并培养学生的随机性意识以及在此基础上促进学生思维的发展。具体说就是:

( 1) 发展学生的统计观念。统计观念是否得到发展主要体现在以下三个方面:

① 使学生具有从统计角度去思考与数据有关的问题的意识。

也就是当遇到相关问题时能想到去收集数据、整理数据、分析数据,具有这种意识是十分重要的。这样,即使你不懂或忘记了具体收集和分析数据的方法,但只要具有这种意识,你便会去请教专业人士,在他们的帮助下做出比较合理的判断。

② 使学生能通过分析数据做出合理决策。对与数据有关的问题,要想对其做出合理判断,不但要有收据、分析数据的意识,还要有一些普遍使用的思考问题的方法。运用数据做出的判断,虽然不像逻辑推理那样有 100% 的把握,但它能使我们在常识范围内不能做出抉择处做出某种决策,而且为我们提供足够的信心。

③能对得到的结论进行合理的质疑。对所得结论进行质疑的前提之一是能读懂数据,理解它所代表的含义。对此,我们既要能从大量的数据及其统计图表中获得尽可能多的有用信息; 还要保持理智心态,对数据的来源,收集数据的方式,数据的呈现方式及得出的结论进行合理的质疑。

( 2) 培养学生的随机性意识。。

具有良好的随机性意识对中小学生今后的学习、工作、生活都是很有帮助的。中小学概率内容应以对随机事件的描述和刻画为主线,设立“对概率的认识”; “随机事件的概率”等内容。“对概率的认识”主要是阐明概率是刻画随机事件发生可能性的数学模型。

“随机事件的概率”使学生对等可能事件,互斥事件,相互独立事件等日常生活中常见事件发生的可能性有所认识。

( 3) 促进学生思维的发展。。

《标准》中明确提出使学生具有用样本估计总体的思想。简而言之,即是具有由部分推断总体的思想。这种推断实质上是一种归纳推理,推理的结果是不能进行严格证明的,其准确性和可靠性纯粹是概率意义下的,这与确定性数学中的演绎推理及归纳推理完全不同。但事实上这种推理( 思维方式) 在生活中却有着广泛的应用,如天气预报、病情诊断等。对中小学生来说,这种推理虽是一种全新的思维形式,但也包含有逻辑推理的成分。因此,概率中的推理一样有助于促进学生思维的发展。

三、对义务教育阶段统计与概率呈现方式的一些认识。

( 1) 在学生已有经验的基础上,以直观为主,重在突出基本概念和基本思想方法。

在统计与概率内容设计时应向学生提供丰富的直观背景材料,使学生获得大量的感性认识。在此基础上,着重向学生揭示统计与概率的基本概念和基本思想方法。

( 2) 尽可能多地为学生提供实践活动,并注重探讨交流和学生的主动参与。

统计与概率的内容具有丰富的实际背景。因此,在统计与概率内容的呈现中,要给学生提供大量的实践机会,并让他们主动参与,只有这样,才能使他们更为深刻地体会到统计与概率的基本思想以及提高他们应用统计与概率知识解决实际问题的能力,从而使自身得到不同的体验和发展。实践活动可通过“看一看、做一做、想一想、议一议”,“写调查报告”等形式提供给学生,由于好多实际问题的解决需要较长时间; 同时,实际问题具有复杂性,工作量大等特点,所以实践活动的提供必须课堂与课外相结合,学生独立思考,自主探索与学生之间的交流合作相结合,动手操作与探索研究相结合。

【参考文献】

统计学中常用的基本概念第7篇

关键词: 性别差异 概率认知 心理分析

1.引言

当今社会随着信息化时代的到来,数学与其他学科的相互交叉,使得人们越来越认识到数学的重要性。各学校相继加强数学教育,以便增强学生的数学思维能力。概率与统计在数学知识中占有十分重要的地位,它可以培养学生随机性数学思维,培养学生通过发现问题、解决问题的形式,达到对现实世界的空间形式和数量关系的本质的一般性的认识的思维过程[1]。用概率与统计的知识预测随机事件发生的可能性,在日常生活中、自然界中甚至在科技领域中都有着广泛应用,它也是我们解决一些日常生活中的实际问题所必不可少的知识。特别是在当今社会,我们处在一个大数据时代,所以概率与统计显得尤为重要。学习概率与统计的知识,无论是对参加社会实践活动还是今后继续深造都是十分必要的。

概率认知在概率学习中占有十分重要的地位,认知障碍是高中生概率学习的障碍之一。教师只有真正了解学生认识概率、认知概率的情况,才能更好、更有效地开展概率教学。学生只有真正了解自己学习概率统计的认知障碍才能更好地学习概率统计。所以本文通过对高中生在概率学习中认知情况的调查分析,探讨性别差异在高中生概率学习认知过程中主要有哪些差异。本研究对学生学习和教师教学都具有重要的实际价值。

2.数据来源与研究方法

(1)测试对象

参加调查的被试学生采用整体随机抽样方式产生,是从南宁市一所示范性高中和一所普通高中随机抽取四个班级的学生,其中高一高三均两个班,被试学生共有262名,其中男生132人,女生130人。对被试学生实施测试,回收问卷和测试卷后逐份检查,凡有漏选题项及所选题项答案为同一性者一律视为无效剔除,其中测试卷有效问卷256份,问卷有效率97.7%,调查问卷有效问卷247份,问卷有效率94.2%。

(2)研究方法

为了确保选取的试题具有科学性、实用性和有效性,在深入研究高中数学概率统计内容[2]的基础上,采用测试题和调查问卷。所选的题目类型涉及频率的定义、古典概型、互斥事件、对立事件、中位数、平均数、频率、数学期望、分层抽样、系统抽样共10道题。

(3)测试过程

测试时间为40分钟,学生统一匿名答卷。在施测过程中有任课老师的积极配合与帮助。

3.问卷结果及其分析

为了了解性别差异在高中生概率认知中的影响情况,从南宁一所示范性高中所有平行班中随机选取的两个班级学生和一所普通高中所有平行班中随机选取两个班级的学生共计四个班级的学生进行测试。发放测试卷262份,全部收回,其中有效试卷256份,包括男生128人,女生128人,问卷有效率97.7%。

在测试卷中,其中第1、2、6、7、8、9题是考查概念与公式的辨析与转换障碍、概率模型构建或转化障碍的测试,第3、5题是概率模型构建或转化障碍的测试,第4题是关于言语信息中对关键词、概念表征障碍和概率事件的描述或表示障碍的检验,第9题、第10题是思维的批判性与片面[3]。

第1-8题调查结果如下:

题1是一道关于古典概型与几何概型的题目。从表一中可以看出关于古典概型与几何概型这方面的知识,高中生大都掌握得比较牢固,大多能准确地区分出古典概型和几何概型,并且进行计算。从表一出还可以看出,关于古典概型与几何概型,男生的整体掌握情况略好于女生。

题2是一道关于互斥对立事件的概率表征障碍的题目。从表一中可以看出,关于这部分的知识高中生整体掌握情况较差,大多不能不能正确区分出对立与互斥的联系。其中男生整体掌握水平略差于女生。

题3是一道关于概率模型构建或转化障碍的测试。从表一中可以看出高中生关于概率模型建构的整体掌握情况较差,他们大多不能正确建构概率模型。从表中可以看出其中男生掌握的整体水平略高于女生。高中女生解题时,由于自身思维特征,不善于概括题目中的关键点和以往的学习经验,考虑问题不全面,只会生硬地套用公式、定理[4],因此更容易先入为主。

题4是一道关于考查概率统计中概念辨析的题目。从表一中可以看出,关于概率统计基础概念意义,高中生大多掌握得比较牢固,他们大多能准确地掌握到基础概念的意义。其中在基础概念意义的辨析方面女生要略好于男生。

题5是一道关于概率统计的图表题目。考查学生对概率统计的概念的理解掌握并能准确的在图形中识别出来。从表一中可以看出关于概率统计基础概念意义并识图高中生大多掌握得比较牢固,他们大多能准确掌握概念的意义并在图中识别。其中女生掌握的整体水平略高于男生。

题6是一道关于求样本容量的题目,考查学生对基础概率统计概念公式的辨析。从表一中可以看出高中生在对基础概率统计概念公式的辨析方面掌握得比较好,其中男生掌握的情况略好于女生。

题7、题8是关于分层抽样和系统抽样的题目,考查学生是否能准确区分分层抽样和系统抽样等概念的辨析。从表一中我们可以看出,高中生大多能准确算出分层抽样的题目,掌握情况比较好,其中女生掌握情况略好于男生。但是关于题8的系统抽样的题目,高中生的普遍掌握情况比较差,其中男生的掌握情况要略好于女生。通过翻阅大量试卷的分析,笔者发现是因为题8系统抽样的题目最后的答案计算完成之后不是整数,而正确答案是需要取整数,所以大多数学生不会取关于系统抽样的最终结果的整数,这反映出一部分学生掌握的基础知识不够牢固。

题9是一道关于中位数与平均数的题目,调查结果如表二。在第一问中,求给出的16个数据的中位数与平均数,从表二中可以发现高中生整体掌握水平较一般,其中女生掌握的整体情况普遍比男生好。经过对比试卷发现,这些学生大多给出了正确的公式步骤,但是最后的结果往往算错。笔者认为这些学生大部分是因为计算能力不扎实而导致算错,或者是粗心等原因,而女生比男生细心,所以会呈现女生整体水平高于男生的结果。在第二问中,问这两种数字特征哪一种描述这个数据更合适并给出理由,从表二中可以发现,选择平均数的学生较中位数更多,其中选择中位数的学生大多给出的原因是每个数字相差太大,平均数不能正确地表达这组数据。而选择平均数的同学认为只有平均是比较公平,才能准确地表达这组数据。从表二中可以看出,男生与女生在选择哪种数字特征中没有差异,都是63.28%。

题10是一道关于求给出4组数据求概率与分布列和数学期望的应用题类型的题目,调查结果如表三。从表三中可以看出,高中生在关于应用题目的概率统计的题目掌握得比较差,通常他们不会解答。大部分学生不明白数学期望的意义,教师在授课应该让学生清楚数学期望,方差等都是数。它们没有随机性(分布也是如此)。它们是用来刻画随机现象的。这和样本的数字特征、样本均值、样本方差等完全不同,样本数字特征是随机的,它们是用来估计随机变量的数字特征的[5]。从表三中还可以发现男生关于应用题中的概率统计的题目的解答情况比女生好。

4.案例结果的进一步讨论

为了进一步了解性别差异在高中生概率统计认识的影响,对262名学生分发了调查问卷,发放调查问卷262份,全部收回,调查问卷有效问卷247,包括男生130人,女生117人,问卷有效率94.2%。调查结果如下:

在被调查的262名高中生中,有14.17%的学生表示对概率统计非常感兴趣,其中男生有8.09%,女生有6.07%,可以看出男生对概率统计感兴趣的人数稍多于女生。有50.20%的学生表示他们能够完全理解概率统计中的一些关键名词,其中男生有51.53%,女生有48.71%,可以看出男生对概率统计名词的理解稍强于女生。有10.93%的学生表示他们完全可以灵活掌握应用概率统计中的相关公式和概念,其中男生有12.30%,女生有9.40%。有6.47%的学生表示知道概率统计的相关题目所包含的数学思想,其中男生有10.00%,女生有2.56%。

5.结论与讨论

经过上述的调查分析,不难发现高中生受性别差异影响,对概率学习的认知不存在显著差异,只是在一些方面存在差异,而且男女生各有优劣。可以发现高中生受性别差异影响,对概率学习的认知存在以下差异:

(1)男生掌握的相关公式概念优于女生,而女生的公式辨析能力优于男生。

(2)男生对概率统计题目中包含的数学思想的掌握情况优于女生。

(3)在概率统计相关的计算能力方面,女生优于男生。

(4)在概率模型的转换能力方面,女生优于男生。

概率统计现在已经成为高中课程中重要的一部分,特别在新课标中又有加强,首先加强了体会数据的随机性,其次是增加了一些教学案例[6]。在具体的教学实施中,要解决上述存在的问题:(1)教师要改变教育观念和教育方式,要用现代的教育观念树立与新课程标准相符合的教育观念教育学生。因为概率统计中包含了大量的生活实践内容,所以教师需要从知识的传授者转变为参与者、引导者与合作者。(2)教学中教师要善于结合教学内容巧妙地设计教学环境,使学生能够更容易地接受概率统计中的思想。教师可以挖掘数学史,渗透数学文化,还可以应用数学软件促进课程实施。(3)在教学中教师要力求讲清概念,使学生能够把握概念的本质,懂得相近概念的联系和区别,在讲授概率公式及其应用时,力求讲清每个公式成立的前提条件,以便使学生能准确无误而又合理地使用这些公式进行各种运算。(4)针对一些概率图表题目,教师可以应用现代教育技术手段,如采用多媒体进行讲解。(5)教师要注重培养学生养成善于思考、善于动手的能力。思考每一道题目中所包含的思想,动手练习每一道计算题目,做到速度与准确率都达标。对男生来讲,要多进行动手能力的培养,努力做到速度与准确率都达标,还要注重基本概念、基本名词、基本公式的辨析;对于女生来讲,要注重课本知识牢记公式概念,并且要多关注实际,做到理论联系实际。最后男生与女生都要养成课后总结反思的习惯,多对学习过的内容进行总结概括,逐渐加强对知识点的理解,才能更好地学习概率统计。

参考文献

[1]张德然,茹诗松.高中概率统计教学中关于随机性数学思维的培养[J].课程・教材・教法,2003,9;39-42.

[2]普通高中课程标准实验教科书数学3(必修).北京:人民教育出版社,2006.

[3]王连国.高中生概率学习认知障碍分析及对策研究[D].济南:山东师范大学,2011:4-10.

[4]何小亚.数学学与教的心理学[M].广东:华南理工大学出版社,2003:204-207.

[5]张怡慈.新课标理念下高中概率和统计内容的定位和教学[J].数学通报,2005,44;1-6.

统计学中常用的基本概念第8篇

关键词: 自然语言理解; 语义相似度; 全文检索; 在线答疑系统

中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2015)05-10-03

Abstract: The similarity calculation based on natural language understanding is still a research content of the computer language processing technology. Based on the knowledge representation of "HowNet", considering the both factors of depth and density, by using a more sophisticated multivariate semantic similarity algorithm, and with a full-text search matching technology, an online answer system in the limited field is designed and implemented. The experimental results show that, the system is reliable, the answer effect is more obvious, and the desired goal is achieved.

Key words: natural language understanding; semantic similarity; full text retrival; on-line answer system

0 引言

随着计算机网络技术的飞速发展,传统的教学手段已不能满足当前大信息量的教学内容需求,因此,创造一个在教师指导和引导下学生自主式学习的智能系统平台很有必要。智能的网络答疑系统可以利用自然语言处理技术对学生的疑问进行自动匹配处理,它的出现为网络教学提供了交互的情境,成为支持网络教学顺利进行的重要条件。智能网络答疑系统是传统课堂教学的重要补充,并逐渐在学生学习、认知、再学习这样一个闭环的学习过程中发挥着举足轻重的作用[1]。

1 设计思想及算法原理

基于计算机自然语言处理技术,充分利用校园网络资源,通过人机互动等丰富信息表现形式,实现一个智能的、高效的基于自然语言理解的专业课程自动答疑系统。系统设计的关键是如何实现快速、高效的智能搜索答案。该过程实际上类似于一个搜索引擎,其核心就是构建一个结构合理、具有完整丰富内容的知识库,并能够在自然语言理解的基础上,快速、准确的完成自动答疑工作。基于自然语言理解的在线答疑系统中两个关键技术分别是:中文分词技术和相似度计算。

1.1 中文分词技术

自然语言理解(Natural Language Understanding,简称NLU)研究如何让计算机理解和运用人类的自然语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过人机对话(man-machine dialogue)的方式,用自然语言进行回答。为了使计算机系统能够较好地理解用户提出的问题,首先需要对问题进行处理,这一过程最先用到的最为关键的技术就是分词技术【2,3】。由于中英文之间的语言组织、词法结构不同,使得中文分词一直以来成为制约中文自然语言处理的主要因素。而中文文本中,只是字、句和段之间可以通过明显的分界符来简单划界,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成,并且语句是连续书写的。这就要求在对中文文本进行自动分析之前,先将整句切割成小的词汇单元,即中文分词(或中文切词),相比英文语句处理,中文分词难度更大。

从算法处理上看,目前主要有三种【4-6】:一是基于词典的分词方法,它使用机器词典作为分词依据,分词效率高,目前应用范围较广;二是基于统计的分词方法,它是利用统计方法,通过对大规模文本的统计,让计算机自动判断的方法,该方法使系统资源开销较大;三是基于人工智能的分词方法,如专家系统和神经网络分词方法等,这类方法目前尚处于实验室阶段,尚未投入实际应用。

1.2 相似度处理技术

相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用[7]。其计算方法按照基于规则和统计分为两种情况:一是根据某种世界知识(如Ontology)来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度[8];二是利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据[9]。

⑴ 常用语义词典

对于基于语义词典的相似度计算方法,由于存在计算简单、基础条件低、假设条件易于满足等优点,受到越来越多研究者的欢迎。常用语义词典主要有[10-12]:WordNet、FrameNet、MindNet、知网(HowNet)、同义词词林、中文概念词典(CCD),以及叙词表、领域概念网、概念图等概念网络结构。本文对于相似度的计算主要是基于知网(HowNet)结构。其概念结构如图1所示。

⑵ 相似度计算

与概念相似度密切相关的一个概念是语义距离(semantic distance)。在一棵树形图中,任何两个节点之间有且只有一条路径,在计算语义相似度的时候,这条路径的长度就可以作为这两个概念的语义距离的一种度量,通常认为它们是概念关系特征的不同表现形式,两者之间可以建立一种简单概念词相似度用来描述概念树中两个节点之间的语义接近程度,一般最常用的是刘群提出的以《知网》为基础的相似度计算方法[13]:

式⑴中,p1和p2表示两个概念节点,dis(p1,p2)是树状结构中两节点间的最短距离,α是一个调节参数,表示相似度为0.5时的路径长度。

文献[14,15]综合考虑深度与密度因素,提出了多因素义原相似度计算方法:

式⑵中,h为义原树深度,l为LCN层次,LCN为最小公共父节点。

文献[16]认为该方法存在两点不足:一是该式仅把相似度取为密度、深度因素的算术平均值,显然对于概念节点分布不均的情况不够合理;二是该式没有对密度、深度两者的影响程度进行分析,这样对他的使用范围受到了限制。基于此考虑,提出了改进的语义相似度计算方法:

式⑶中,l(p1,p2)为分别遍历概念网中节点p1,p2到达其最小公共父结点所历经的父结点(包括最小公共父结点)数的最大值。w(p1,p2)为p1,p2所在层概念数的最大值。算法关键部分引进了一个调节参数λ(p1,p2),并保证在该参数的作用下,当节点p1,p2所在层概念数较多,即w(p1,p2)增大时,密度因素对相似度的贡献值大;而当p1,p2离最小公共父结点较远,即l(p1,p2)增大时,深度因素对相似度的贡献值较大。同时算法约定,当p1,p2的父结点和最小公共父结点相同,且同层只有p1,p2两个节点时,调节参数为0.5。该方法即为本文在相似度计算方面采用的算法模型。

2 模型设计

下面我们参考文献[17],按照一般教师对于问题的处理方式,在上述概念语义相似度计算的基础上,从计算机建模层面上给出计算机自动答疑模型的建模过程。

Step1:计算条件

已知标准问题库A可以表示为关键词序列:A=(a1,a2,…,an);学生提问B可以表示为关键词序列:B=(b1,b2,…,bn)。

Step2:相似度计算

⑴ 知识点关键词信息提取

该问题的处理主要通过提取学生问题中每一个关键词,对照系统知识库,从底层开始遍历搜索,当找到对应的概念节点时,提取该节点的高度、密度等属性信息,并保存起来,搜索完成后即可参加相似度的计算。

⑵ 概念相似度求解

概念相似度的计算采用语义相似度技术,设标准问题库A可以表示为知识点的一个向量组A=(a1,a2,…,an),循环遍历每一个学生输入的问题关键词序列,通过概念语义相似度算法可得到任意两概念之间的相似度Sim(ai,bj),其中i=1,2,…,m,j=1,2,…,n。

Step3:匹配结果输出

前面已经完成了输入问题和标准问题库之间的循环相似度匹配计算,为了将需要的信息提取出来,模型还需要设置一个阀值δ。通过阀值δ这个关卡,将相似度结果大于δ的问题提取出来,并按照降序排列输出即可。论文答疑系统模型建模流程如图2所示。

3 系统实现与验证

系统设计环境为Visual Studio 2005,数据库服务器为SQL Server 2000。采用B/S网络模型进行构架设计,按照系统功能需求划分为用户表示层、应用逻辑层和数据访问层三个层面。系统测试界面如图3所示。

如图3所示,在答疑系统界面中输入问句:“计算机包含哪些硬件?”,系统自动分词后生成的关键词语汇单元为:“计算机;硬件”(其中“包含;哪些”等作为停用词已经被过滤掉了),然后系统自动在数据库中检索匹配,最终反馈了12条相关结果,图3为部分结果截图。这里说明一点,反馈结果的多少取决于阀值δ,测试中我们选取的阀值δ为0.8,一般我们取阀值δ在0.8左右即可。

为了进一步验证系统的查询能力,我们将刚才的问句调整为:“计算机包含?”,这时系统自动分词后生成的汇单元只有一个关键词“计算机”,最终匹配结果如图4所示。

这里读者或许会发现,系统反馈回来的结果与问题毫不相关。其实,这并不是系统出错,而是“知网”概念网络中“计算机”与“硬件、软件”两个概念关系比较密切,表现为在概念网络中的节点位置较为接近,匹配结果相似度值较高,因此才有了上述的结果。也就是说,也许在某些时候当查询某个概念时,相近的结果就会被检索出来(或者当不确定查找的问题时,只需输入相近的问题,也会查询到想要的答案),这就是基于自然语言理解的语义相似度计算模型优势所在。

4 结束语

由于汉语词汇表达的复杂性和词汇语义概念较强的主观性,以及具体应用领域的专业性等因素影响,目前基于自然语言理解的相似度计算仍是计算机语言处理技术需深入研究的内容。本文在“知网”知识表示的基础上,充分考虑“知网”深度和密度因素影响,基于全文检索匹配技术,设计并实现了一个限定领域内的在线答疑系统,大量的运行结果证明了该系统是可靠的,达到了系统设计的目的。但在准确性方面还存在不足,从第一个测试中可以看出,提问人员真正需要的是:“计算机的硬件组成”。其重点关注的是计算机、硬件,而答案给出了太多的“计算机特点,计算机发展”等其他一些与“计算机”有关的匹配答案,其原因是关键词权重的影响因素没有体现出来,离真正的自然语言理解还存在一定的距离,这是系统下一步有待改进的地方。

参考文献:

[1] 冯志伟.自然语言问答系统的发展与现状[J].外国语,2012.35(6):28-30

[2] 黄,符绍宏.自动分词技术及其在信息检索中的应用研究[J].现代图书情报技术,2001.3:26-29

[3] 沈斌.基于分词的中文文本相似度计算研究[D].天津财经大学,2006:12-17

[4] 张波.网络答疑系统的设计与实现[D].吉林大学,2006:30-31

[5] 张丽辉.计算机领域中文自动问答系统的研究[D].天津大学,2006:14-18

[6] 朱.中文自动分词系统的研究[D].华中师范大学,2004:12-13

[7] 周舫.汉语句子相似度计算方法及其应用的研究[D].河南大学,2005:24-25

[8] 于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002.16(4):13-21

[9] 胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002.4:40-45

[10] Miller G A, Fellbaum C. Semantic network of English [M]//Levin B, pinker S. lexical & conceptual semantics. Amsterdam, Netherlands: E lsevier Science Publishers,1991.

[11] Baker C F. The Berkeley frameNet project [C]//Proceeding ofthe COLING -ACL.98.Montreal, Canada,1998:86-90

[12] 黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004.11:260-262

[13] 刘群,李素建.基于“知网”的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会论文集,2002:59-76

[14] AGIRREE, RIGAU G. A Proposal for Word Sense Disambigua-tion Using Conceptual Distance[EB/OL],1995:112-118

[15] 蒋溢,丁优,熊安萍等.一种基于知网的词汇语义相似度改进计算方法[J].重庆邮电大学(自然科学版),2009.21(4):533-537

统计学中常用的基本概念第9篇

关键词:本体学习;自动化;本体构建

一、本体的定义

本体一词来源于哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来越多。在人工智能界,Ontology被定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在信息系统、知识系统等领域,最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。W.N.Borst对该定义进行了引申“本体是共享的概念模型的形式化的规范说明”。Fensel对这个定义进行分析后认为Ontology的概念包括4个主要方面:

概念化(conceptualization):客观世界的现象的抽象模型。

明确(explicit):概念及它们之间联系都被精确定义。

形式化(formal):精确的数学描述。

共享(share):本体中反映的知识是其使用者共同认可的。

目前,关于本体的公认的定义是Gruber在1994年提出的:“本体是关于领域共享概念的一致的形式化说明”。这个定义包含3层含义:

共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议以及用于表示特定领域的理论的共同约定等。

本体必须是一致的,即本体概念和关系不能出现逻辑上矛盾的陈述或推理上的逻辑矛盾。

本体的描述是形式化的,支持对领域概念和关系的推理。

二、基于本体学习的自动或半自动本体构建方法

由于人工的方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。

国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动的从已有数据资源中获取渴望的本体。根据源数据结构化程度,可以将本体学习技术分为以下类别:

(一)基于结构化数据的本体学习

结构化数据主要是包括关系数据库或面向对象数据库中的数据。现在的应用大多采用关系数据库来组织和存储数据。但是关系模型有一个致命弱点,即它不能用一张表模型表示出复杂对象的语义。

基于结构化数据的本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映像到本体中的相应部分。

从数据库中抽取本体,一般的做法是:利用数据库的逆向工程或映射技术将关系模型转换为一种中间模型,然后将该中间模型转换成本体。

例如,Johannesson提出了将关系模型转换成一个概念模型,该概念模型实际上是扩展的实体――关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本体。

Rubin等人提出了一种使用关系数据库中的数据来丰富指定本体中的实例,并自动获取这些实例在相应属性上值的方法。Stojanovic等人使用映射技术将关系数据库模式映射为本体。通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则,在根据这些规则的基础上能够直接获取候选本体。由于关系模式中蕴涵的语义十分有限,所以只适合构建轻量级的本体。Kashyap提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质量。Astrova通过对数据库中的元组的分析,得到了概念间的继承关系。

(二)基于非结构化数据的本体学习

非结构化数据是指没有固定结构的数据,例如纯文本、Web网页、Word文件和PDF文件等。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本中获取本体。由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出需要的知识,必须利用自然语言处理(Natural Language Process,NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识,重点是从文本抽取领域概念、实例,并发现概念之间的关系。

对于概念的获取,常用统计方法是计算概念在文本集中出现的频率,如果该频率大于指定的阀值,则将其作为领域本体中的概念。对于概念间关系的获取有基于模式,概念聚类,关联规则挖掘的方法。基于模式的方法需要判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的关系。概念聚类的方法是利用概念之间的语义距离,对概念进行层次聚类,聚类的结果就是概念间的分类关系。关联规则挖掘的方法常用来获取概念间的非分类关系,其基本思想是,如果两个概念经常出现在同一文档(或段落,句子)中,则这两个概念之间必定存在关系。

目前,从纯文本中获取概念和概念间分类关系的研究比较多,但对概念间非分类关系的获取,大部分方法都停留在判断两个概念之间是否存在关系的层次。该方法需要人工预先制定模板。

(三)基于半结构化数据的本体学习

大量的XML格式和HTML格式的网页,以及它们遵循的文档类型定义(XML Schema或DTD)等具有隐含结构的数据都是半结构数据。本体学习的方法是利用一些映射规则从中获取本体。

另外,机器可读的词典也是一种特殊的半结构化数据,通常使用语言学分析,语义分析和模式匹配等方法来获取特定领域的概念及概念之间的关系。鉴于传统字典对于每个字词所定义的同义词、字根、原形等关系,该建构方法就是利用这种词汇与词汇之间的关系――上位词、下位词来确定概念的阶层关系。基于字典的建构方法是其他建构方法的基础,然而以此方法建构的本体通常为一般性的描述,并不是与特定领域相关的本体,因此必须结合其他方法以及由领域专家的参与才能形成有意义的本体架构,故此方法无法独立使用。该建构方法不仅受限于字典本身的范围大小,而形成不同范围的子领域,还存在无法适应环境变化的要求而造成遗漏信息。

Papatheodorou等人提出了一种从XML或RDF格式的文档中获取概念间分类关系的方法;Modica等开发的OntoBuilder工具能够用户浏览行为从XML和HTML标记的半结构化数据源中生成本体的功能。2003年,Volz等人提出了一种基于XML Schema和DTD的本体学习方法。该方法依赖于一组从源数据到本体的映射规则或模式匹配规则,如何获取这些规则就成为关键。

总之,采用本体学习技术,虽然可以简化人工构建本体的工作量。但在实际的知识获取过程中,有些知识虽然人能理解,但很难确切地表达出来,比如很多隐含的概念和概念间的关系,这些关系都是隐含在人的头脑中或者是文档中的。另外这些隐含的概念及概念间的关系要用形式化的方式确切地表示出来更加困难。

参考文献:

1、邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报(自然科学版),2002(5).

2、Thomas R,Gruber.Toward Principles for the Design of Ontologies Used for Knowledge Sharing[J].Revision,1993(23).

3、Fensel D,Harmelen F Vl.OIL:An Ontology Infrastructure for the Semantic Web.IEEE Intelligent Systems,2001(2).

相关文章
相关期刊
友情链接