欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

计算机视觉研究内容优选九篇

时间:2023-12-20 10:48:55

计算机视觉研究内容

计算机视觉研究内容第1篇

[关键词]计算机视觉 视觉框架 三维表示

中图分类号:TP338.6 文献标识码:A 文章编号:1009-914X(2015)47-0133-01

1 计算机数字视觉技术研究的地位

长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,这些努力的阶段性理论研究成果已经在人们的生产生活中发挥了不可估量的作用。计算机视觉(CV)研究的主要内容是通过计算机分析景物的二维图像,从中获得三维世界的结构和属性等信息,进而完成诸如在复杂的环境中识别和导航等任务。计算机视觉研究的重要性是不言而喻的,会产生深远的经济和科学的影响。

20世纪下半叶以来,很多研究者都曾试图通过视觉传感器和计算机软硬件模拟出人类对三维世界图像的采集、处理、分析和学习能力,以便使计算机和机器人系统具有智能化的视觉功能。今天,数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使数字视觉技术的革新。数字视觉技术的应用十分广泛,如数字图像检索管理、医学影像分析、智能安检、人机交互等。

数字视觉技术是人工智能技术的重要组成部分,也是当今计算机科学研究的前沿领域,经过近年的不断发展。已逐步形成一套以数字信号处理技术、计算机图形图像、信息论和语义学相互结合的综合性技术,并具有较强的边缘性和学科交叉性。

2 计算机数字视觉技术研究的核心问题

视觉问题复杂性的本质在于相对声音等物理信号的描述,视觉信号充满了非常丰富的信息,描述起来也更加困难。如何攻克图像信息提取过程中的各种难题一直是当今计算机图像学研究的热点问题,而且在科学家们还未完全破译生物视觉系统的奥秘的前提下,大多数问题只能采用逆向推导机制,依据已知或假设的关联将视觉系统的输入数字图像和输出语义描述对应起来。基于概率论和数理统计的数学模型是最适合解决这类逆推问题的工具,这也是目前领域普遍采用各种统计模型和机器学习算法的本质原因。

物体的三维表示是计算机视觉研究的一个关键问题。八元树(octree)表示法是一种紧凑、简洁的物体三维表示法,近年来这种表示法被广泛地应用到计算机视觉的研究领域。广义八元树表示法的优点是不受视图个数的限制,通过增加观察方向可以计算出更加精确的物体三维表示。主要缺点是需要进行多次坐标变换,在计算机上实现时需要研究相应的离散技术。线性八元树(linearoctree)是较八元树更加简洁的表示形式。

3 计算机视觉技术结构及其研究基本框架

计算机视觉技术内在的逆推机制决定了其在系统开发时必须将原始图像数据与其蕴含的知识之间的语义鸿沟加以弥补,在满足特定应用需求的前提下进行合理的图像内容简化和假设,形成目前普遍使用的计算机视觉系统结构:即图像数据层、图像特征描述层及图像知识获取层。由于各种图像特征都有其优点及不足之处目前趋势是结合不同种类的特征对图像内容进行综合表述,以建立较为可靠的图像信息模型,比如利用时空体数据结构 对人体行为等视频内容进行描述。

计算机视觉技术的研究主要围绕着四个基本理论框架:以Marr视觉计算理论为核心的深度重建框架;以感知特征群集为主线的基于知识的视觉框架;以“感知一动作”为基础的主动视觉理论框架;以综合集成理论为指导的视觉集成框架。其中,视觉集成理论框架是计算机视觉研究中一个较新的理论框架,并越来越多地受到cv研究者的关注。视觉集成理论的研究内容大致可以分为三个方面,第一方面的研究内容是关于视觉信息与其它类型信息的集成。第二方面的研究内容是关于视觉表示和视觉模型的集成。视觉表示方法主要分为三类:图像表示、表面表示、物体表示。视觉模型王要分为图像模型、结构和形状模型、运动和动态模型、不确定性模型。集成的视觉系统应该能够充分利用这些方法的优点。第二方面的研究内容是系统的集成。

4 计算机视觉的发展历程及其趋势

一般认为,计算机视觉技术研究始于20世纪50年代中期,当时的努力主要集中在二维景物图像的分析。区别在于,图像处理的目的是通过处理原始图像得到在某一方面更有利的新图像。模式识别关心的则是将一些模式归入预先定义的有限类别中,主要研究的是二维模式。而计算机视觉主要考虑的是对三维世界的描述和理解。

一般来说,比较一致的观点认为,计算机视觉的研究起始于1965年Rboesrt开创性的工作。Rboert对“积木世界”研究取得的成功激起了人们很高的期望。

60年代末70年代初期,计算机视觉研究领域的很多工作是关于低层视觉处理,从图像中提取重要的强度变化信息――边缘检测。然而,人们很快就认识到很多重要的物体属性无法只通过分析图像的灰度变化得出。到了70年代初期,问题更加明朗化,低层视觉处理无法从单幅图像中普遍地获取对景物的有用描述,计算机视觉的研究领域普遍地发生危机。为了摆脱困境,计算机视觉迫切地需要有一个统一的理论框架作指导。70年代中期到80年代初期,计算机视觉的研究领域首次出现了一个理论框架:视觉计算理论框架,将视觉系统从概念上分成几个独立的模块。80年代后期,计算机视觉的研究领域出现了主动视觉(`vtievsiino)的理论框架。

近年的研究结果表明,单一的图像特征描述机制,无论是对底层像素级特征的描述还是顶层语义特征的描述。都仅能在有限范围内对图像的内容进行建模。巧妙融合多种图像特征因此成为近年图像信息描述方面的主要趋势,近年来,计算机视觉的另一个理论框架――视觉的集成方法越来越多地受到重视。一个重要的趋势是用于识别真实世界中较为复杂的图像内容的技术,适合描述真实场景的各种特征不断得到发展。随着目前互联网络技术的不断发展,另一个值得重视的趋势是计算机图像技术与互联网技术、社交媒体技术等其它计算机技术的融合。

6 结语

计算机视觉识别技术虽然是一门新兴学科。但应用前景十分广阔,对其技术的有效性、易用性、实时性及稳定性能等方面有着较高的要求。因此。其技术面临着前所未有的机遇和挑战,该领域的发展亦有过激烈的争论和反思。但是,不可否认的是,计算机视觉技术研究在许多应用领域的应用前景都是广阔的、不可估量的。

参考文献

[1] 马玉真,陶立英,王新华.计算机视觉技术的应用[J].试验技术与试验机.2006(01)

[2] 潘春洪,张彩霞.计算机视觉简述[J].自动化博览.2005(05)

[3] 孙瑾,顾宏斌.计算机视觉系统框架结构研究[J].计算机工程与应用. 2004(12)

[4] 王天珍.计算机视觉研究进展[J].武汉汽车工业大学学报.1998(01)

计算机视觉研究内容第2篇

【关键词】课程 计算机视觉 图像检索

1.课程设置、建设与改革自述

1.1 综合基础与应用,精选教研内容

从专业学位教育的高层次应用型人才培养目标出发,我以学生专业应用能力的培养作为教研的重点,同时,考虑到“计算机视觉”是一门数学要求较高、理论性较强的专业基础课程。课程的基础理论教研十分重要,我在规划教案时,综合安排基础理论与应用实践的教研内容。

1.2 强调学生应用能力,优化教研方法

将启发式教研方法融入到整个教研过程中,将课堂讲授的重点放在问题由来、概念形成、研究思路与方法上,并通过介绍人工智能与计算机视觉学科交叉中出现的最新研究与应用。把新理念、新思路、新方法和新问题引入课堂,调动学生学习的积极性和主动性,拓宽他们视野和思路。

通过较为熟悉的分析,“计算机视觉”课程中的教研方法较为新颖,使他们从一开始就建立了所学理论与实际工程控制问题的联系。

按“计算机视觉”的基础理论和知识内容分环节来实施教研,每个环节以实际工程问题开始,以理论学习为基础,各教研环节之间既是工程问题的系统化深入,也是理论知识体系的循序推进。

按“计算机视觉”的基础理论和知识内容分环节来实施教研。每个环节,以理论学习为基础,以提出和解决实际实验案例中的识别问题为结束,各教研环节之间既是三维重建问题的系统化深入,也是理论知识体系的循序推进。

他们都十分赞同我以强调学生自主学习和应用能力为目的的启发式和交互式教研方法。尤其是以论文报告和答辩形式提交作业。强调了理论和应用的结合。每一次的作业贯穿整个教研环节,使他们对问题的发现、理解和解决成为一个逐渐明确、细化和深入的过程,因此。虽然作业要求较高、工作量较大,但做起来并不会感到压力和困难。同时,他们大多之前没有撰写科研论文和报告的经历,通过作业也可以使他们在这方面的能力得到锻炼和提高,最后考试结业。

与此同时。研究生们也畅谈了他们对课程教研中一些问题的看法.研究生们十分重视专业应用能力和实际动手能力的培养与提高。也非常看重扎实理论基础的必要性,都认为理论学习与专业应用能力培养应该没有矛盾,但在有限的2年时间内,如何实现两者的全面提高,他们大多存在疑虑。同时,他们也认为目前大多数的课程教研具有明显的理论或实践的偏向性,缺乏科学合理的平衡。

针对我在教研中所提出的案例和问题,学生们反映,尽管十分熟悉,但对问题的本质和要求仍只是停留在理性认识上。无法建立与实际对象的对应关系。另外,他们提出,案例仅从单一课程角度讲授,在有限课时内难以从多学科的角度介绍滤波,三维重建,运动恢复,图像检索案例,虽然是实际科研项目,但课堂不可能展示整体实物,学生缺乏工业现场的实际感受。使得学生对案例的整体理解难以跳出课堂的思维界域。

针对此,我计划在加强现代化教育手段方面进行一些建设与探索,努力向学生提供信息容量大、表现形式丰富的综合性辅助认识手段。考虑到“计算机视觉”通常需要运用计算机技术解决工程问题,我们将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我们也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管采用了多媒体教研。计划在以后的教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。这些工作都需要我们在教研和科研工作之余投入大量的热情和精力。

2.教研手段(课程建设中积极营造数字化、信息化环境和外语教研环境,网络教研和网上教研资源的开发与建设情况)

2.1本课程的主要特色

体现机器视觉与机器听觉融合。①机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。②机器听觉:听觉计算模型、语音信号处理、口语信息处理。此外还在同济大学开设计算机视觉,和图像处理方面课程,该课程构成本课程基础, 及对大量应用实例介绍设计方法,系统性能,并对结果进行祥细分析和点评。学生通过听课可以跟随教师本人了解和掌握计算机视听觉。充分领略数字技术用于语音通信这一广阔的领域神奇魅力。脑、 机接口的研究有广阔的应用前景, 正成为脑科学、康复工程、神经工程及人机交互( puter interface, HCI) 领域的一个研究热点。

2.2本课程的建设总目标和成果

以后开展图像,图形,语音处理,多媒体的内容的检索,三维景物物体的重建,自然语言理解的研究方向:视觉与听觉的生理学和心理学基础,从生理与心理学的角度探索视觉与听觉的感觉和知觉机理,为视觉与听觉信息处理提供基本理论和方法,完成同济大学研究生精品课程建设。以近几年为研究生讲授“计算机视觉”课程讲义的电子教案为基础,结合开发科研项目,并参考相关文献资料和最新动态编写计算机视听觉电子教案,和教材。

机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。

机器听觉:听觉计算模型、语音信号处理、口语信息处理、自然语言处理、智能人机交互。

2.3 本课程的建设分年度目标和步骤

教材内容:针孔摄像机,辐射学术语;局部影调模型,点,线和面光源,光度学体视;颜色;线性滤波器,平滑抑制噪音,边缘检测;纹理,用滤波器输出表示统计量,纹理量,纹理合成,由纹理推断形状;基本的多视角几何,立体视觉;用聚类实现分割;拟合直线与曲线,用最大似然率进行拟合,鲁棒性;隐变量与EM;用卡尔曼滤波来跟踪,数据相关;摄象机标定;使用特征对应和摄像机标定的基于模型的视觉;使用分类器的模版匹配;基于关系的匹配;在数字图书馆中检索图像,基于图像的绘制。

准备离散时间语音信号处理的原理,介绍语音信号处理研究及其应用方面的最新动态,其中包括语音处理,语音时频分析以及非线性声学语音产生模型,而这些讲授内容在以往任何一本语音信号处理教科书都不曾提及,深入介绍以下内容:语音编码,语音增强,语音综合,说话人识别,语音信号恢本复,动态范围压缩语音信号处理基础,语音的时域的分析语音信号频域分析,语音信号线性预测分析,矢量量化,语音编码,语音合成,语音增强,说话人识别。

3.构建研究实践型模式,探究研究生指导

通过研究生指导模式的学习,两种指导方式之一是对传统面对面的与基于网络两种指导方式的混合。师生之间定期与不定期面对面的交流对于保证研究生指导质量提高有着重要关系。互联网突破时空限制为高校师生提供一个开放的、共享、个性化、多维交互的教与学的平台。我提供优秀研究资源,学生也可以通过网络共享研究资源。师生都可以Web对于优化研究资源的共享、促进师生之间的社会互有着重要作用使得研究生指导模式充分发挥面对面指导。研究生指导主要注重科研素养培养。研究生培养根本目标发展能力。课程学习对于系统提高研究生对专业关心课程学习状况必要,要为学生提供学习方法指导与建议,要鼓励学生结合课程学习进行相关讨论。

基于自主与协作的探究性学习是研究生学习的主体地位,发挥作用。我在教研中培养研究生发现问题、分析问题、解决问题的能力正是为了支持研究目标在于获得亲身参与研究探究体验:培养“教研模式中”包括个人理解专业研究领域相关问题的内涵与特征。旨在使学生能够切实掌握专业与研究领域所涉及基本原理与能够利用这些原理与方法分析确定方案实施、“know“know 是相互交织相互作用的层面,主要是为了增强指导以便根据不同层包括若干个问题常常需投人较多的精力与时间。应该安排较长时间且要充分利用网络技术平台支持。提升研究质量有效地避免传统指导误区。在指导时过于强调研究生所获取学术成果而忽视指导过程体现在两方面:一目标评价标准单一往往给研究生层面:①面向研究生个体的“个别指导”;②面向小组集中:③自主调控评价,必须与教师、同伴、专家进行交流、协作才有可能真正地提高效率,实现学习目标,培养学团队意识,其次要帮助研略,在各层面都有明确的目标相应指导内容,并要注意这三个层面整合。使之过程得到全面发展。养成科学态度和科学道德。“科研能力发展、轻综合素质培养”,研究生导师不但应该是研究生的指导者。指导教师可以按“科研项目一要问题一具体任务”的层次。以教师的、助学促学”尽可使每个研究生都能达到预期培养目标。评价要更关注总结性评价”与“过程性评价”工具以丰富研究生指导过程中教研交互的教育学中社会互。传统环境下的社会互往往是面对面的交互。网络平台可以利用构建社会网络支持社会交互。强调的研究科研成果而深层次交流方式不同指导目标、不同指导层次整合,指导教师角色转变,变革评价方式,丰富指导教师来促进“自主一协作”探究学习,对研究生“混、他评”与“自混评关注教研评价的。”教研模式下网络技术与内涵表现在:①利用技术促进教研资源的整合,优化教研资源管理,教研资源共享,促进师生与教研内容的交互;②利用Web工具,有效地整合现实交互空间虚拟交互空间另外还地加速或加强人际联系,帮助师生了解探究式应用实践探索。

研究生是否发表了高水平的科研成果,研究生入学初期,以Web的应用为核心的互联网络不但为高校师生的交流提供了新的沟通与互动方式。以独特高校师生的思维方式生存方式发生了系列改变。也成为高校师生教研与生活中的重要信息工具为研究生指导提供了丰富的资源与多维立体环源。网络平台也用于共享、深化面对面交流中所总结形成相关观点与资料。要求其他每位学生都至少要提一个问题所提出问题进行进一步的讨论。了解专业研究领域的基本问题、核心问题与前沿问题研究生自己在调研基础上提出研究进行独立自主的探究。所以除了关注在专业领域内研究能力的发展之外还要注意教育科研能力的培养引导学关注“专业发展”。 用于规划了解学生的已有基础,以帮助后期制定更为合理个别指导计划:第二,通过召开定期的讨论会、师生个别交流,包括两种类型:①旨在提高新生适应研究生学习与生活的适应性:②面向科研任务的研究小组。面向任务方式冲击着高校师思维方式与文化理念,非常重视网络平台研究指导中的应用,建立了向团队公用资源平台教研主要采用研究式教研方法, 要求研究生自学其基本原理, 然后利用实际数据,由导师提供或从期刊文献中获取,完成数据预处理、计算、结果表达、解释的全过程, 并以论文形式提交给教师, 同时在课堂上向大家介绍自己的研究成果。这样做一方面提高了学生应用知识的能力以及研究成果的文字组织和语言表述能力。 另一方面, 研究生的每篇习作就是一个很好的实例, 教师可以从中发现学生对知识理解的偏差, 及时予以纠正, 使学生对方法的掌握更加准确和牢固。将网络共享平台中上传所有研讨记录训练,将研究分个层面:①选择专业研究内的基本问题或重要问题或热点问题对之进行深入探究。掌握本专业领域基本研究方法;②以自己课体依托,在课题下设置子课根据研究与研究兴趣跨年级构建小组,每个小组负责不同的子课题与任务③鼓励研究途径。一年级开始参与课题研究,二年级学期要求开始提出自己一些问题或鼓励结合确定毕业论文选题使他们在更大程度职业能力发展;推荐专业相关资料;对(共8人)进行指导,效果较明显。在学习方面,24名本科生通过毕业答辩。研究生八人以学生身份公开发表学术科研论文。 他们在这方面的能力得到锻炼和提高。

通过"混合型-探究式"研究生指导模式的学习实践三个维度的"混合":对传统面对面的与基于网络的两种指导方式的整合,对提升研究生课程学习绩效、促进研究生科研能力发展、促进研究生职业能力发展三个指导目标的整合,对个别指导、小组集中指导、团队集中指导三个指导层面的整合;说明了该模式中三个层面的"探究":对专业问题的探究,对专业与研究领域内基本原理的探究,对综合科研任务的探究;同时介绍了在实践层面应用"混合型-探究式"研究生指导模式的实际效果。以重点学科为依托,吸取国内外大学研究生培养经验,对创新型研究生培养模式方法进行探索,在研究生培养模式改革中,提出“四个转变”的指导思想,即变“单人指导”为“团队指导”,变“单一培养模式”为“多元培养模式”,变“以教师为中心”为“以学生为中心”,变“面向培养结果”为“面向培养过程”。形成以研究生为中心的培养模式,突出研究生探索精神、科学思维、创新意识的培养。切实 行的措施 引导 究生遵守科学 道德,保持科学冲动,增强创新意识,提高科学能力。

考虑到“计算机视觉教研探究研究生指导”通常需要运用计算机技术解决工程问题,我将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管我采用了多媒体教研。我计划在教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。

参考文献:

[1]David A.Forsyth and Jean Ponce , Computer Vision-A modern Approach

[2]贾云得.机器视觉.电子工业出版社,1999

[3]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004

[4]Shapiro.L.G and stockmen,G.C,计算机视觉.北京-机槛工业部,2001

[5]Haralick,R.,1992/1993 Computer and Robot vision ,volume I and II

[6]张雄伟,陈亮等.现代语音处理技术及应用.机械工业出版社,2003

[7]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004

[8]郑燕林等“混合型-探究式”研究生指导模式的构建与实践,学位与研究生教育,2010

计算机视觉研究内容第3篇

关键词: 计算机 视觉注意机制 计算机视觉注意模型

1.引言

随着信息技术的不断发展,数据处理量剧增,以及用户不断扩大的个性化需求,对计算机信息处理能力提出了越来越高的要求。如何在场景中快速准确地找到与任务相关的局部信息,即物体选择与识别,已经成为计算机信息处理领域的一个研究热点。随着在心理学领域注意机制研究的不断发展,将注意机制引入信息处理领域来解决物体识别问题,已经不再是纸上谈兵。

人类视觉系统进行视觉信息处理时,总是迅速选择少数几个显著对象进行优先处理,忽略或舍弃其他的非显著对象。进入人类视野的海量信息,通过注意选择机制进行筛选,就能使我们有选择地分配有限的视觉处理资源,保证视觉信息处理的效率,这就是视觉选择注意机制的原理。依据人类视觉选择注意的基本原理,开发能够进行智能图像信息处理的计算机系统,就成为一大任务。我们研究的主要方向是使计算机处理对象时,能够具备与人类相似的视觉选择注意能力。

2.视觉注意机制

研究视觉注意机制是个多学科交叉的问题,目前多个领域的研究人员都取得了研究成果,并且对视觉注意的理论都形成了一些共识。目前普遍认为注意既可以是按自底向上(自下而上)的图像数据驱动的,也可以是安自顶向下(自上而下)的任务驱动的。其中,自下而上的研究主要来自图像中物体数据本身的显著性。例如,在视觉搜索实验中,显著的物体会自动跳出,如图1中的圆点通过特征对比,以形状跳出的形式获得注意。自上而下的引导主要来自当前的视觉任务,以及场景的快速认证结果,即我们可以“故意”去注意任何一个“不起眼”的物体,如我们可以在图书馆浩如烟海的藏书中,找到自己感兴趣的那本书。

研究视觉注意机制的重要方法是研究眼睛在搜索目标时的表现。显著图中的各目标在竞争中吸引注意点,注意点在各个注意目标间转移。根据注意点转移时是否伴随眼动,视觉注意也分为隐式注意和显式注意。隐式注意的中央凹不会随着注意点的转移而移动,而显式注意的中央凹随每次注意点的转移而运动。

对视觉注意机制的研究为计算机视觉的发展提供了可能。计算机视觉借鉴人类视觉的注意机制,建立视觉注意的计算模型。通过“注意点”的选择与转移,实现对复杂场景中任务的搜索与定位,最终来实现实时信息的响应处理。在计算机视觉的研究中,显式注意应用较多。

3.计算机视觉注意模型

从人的角度来看,人类视觉系统通过视觉,选择注意在复杂的场景中迅速将注意力集中在少数几个显著的视觉对象上。从场景的角度来看,场景中的某些内容比其他内容更能引起观察者的注意,我们称之为视觉显著性,两者其实是从不同的角度对视觉选择注意过程的描述。

我们把引起注意的场景内容定义为注意焦点FOA(Focus of Attention)。Treisman的特征整合理论中将视觉信息处理过程划分为前注意和注意两个阶段,各种视觉特征在前注意阶段被以并行的方式提取出来,并在注意阶段以串行方式整合为视觉客体,即注意的特征和客体是通过不同方式进行的。在注意焦点的选择和转移上,Koch[2]进行了深入的研究,他提出注意焦点FOA的变化具有四个特征,即单焦点性:同一时刻只能存在一个FOA;缩放性:FOA的空间范围可以扩大或者缩小;焦点转移性:FOA能够由一个位置向另一个位置转移;邻近优先性:FOA转移时倾向于选择与当前注视内容接近的位置。同时注意焦点具有抑制返回的特点,即FOA转移时抑制返回最近被选择过的注视区域。在此基础上,视觉注意的研究人员提出了多种视觉注意模型。

4.视觉注意模型的研究现状

人类的视觉注意过程包括两个方面:一方面是对自下而上的初级视觉特征的加工,另一方面是由自上而下的任务的指导,两方面结合,共同完成了视觉的选择性注意。与此对应,当前的计算机视觉注意研究也分为这两个方面。

4.1自下向上的数据驱动注意模型研究及分析

在没有先验任务指导的情况下,视觉注意的目标选择主要是由场景中自下而上的数据驱动的,目标是否被关注,由它的显著性决定。现在,自下而上的注意研究主要基于Treisman的特征整合理论和Koch&Ullman的显著性模型,Itti、satoh等人均在此基础上提出了自己的研究模型,并做了一些模型的改进研究。自下而上的研究方法通过对输入图像提取颜色、朝向、亮度等方面的基本视觉特征的研究,形成各个特征对应的显著图。另外,一些研究者采用基于局部或全局对比度的方法,来得到图中每个像素的显著性,进而得到显著图。

现有的自下而上的视觉注意计算模型中,Itti的显著图模型(简称Itti模型)最具代表性。该模型主要包含3个模块:特征提取、显著图生成和注意焦点转移。模型通过初级特征的提取,将多种特征、多种尺度的视觉空间通过中央―周边算子得到的各个特征的显著性图合成一幅显著图。显著图中的各个目标通过胜者为王的竞争机制,选出唯一的注意目标,其中注意焦点的转移用的是禁止返回机制。但该模型也有一些缺点,如显著区与目标区域有偏差、计算量较大、运行时间较长、动态场景中实时处理不平等。

在动态场景之中,由于Itti模型很难满足实时性的要求,科研工作者们正在努力研究动态场景的特性,并建立相应的动态模型。如Wolfe[1]指出,影响前注意的特征包括颜色、方向、曲率、尺寸、运动、深度特征、微调支距、光泽、形状,等等,其中又以运动特征最为敏感。而You等采用了一种空间域特征和时间域特征相结合的视觉注意模型,该模型假设当场景中存在全局运动时,视觉注意对象将极少做运动。然而,许多真实的场景并不能满足这个假设,限制了模型的适用范围。Hang等人提出了一种运动图的计算方法,并把运动图作为特征之一,与颜色、亮度、方向等特征结合。这些研究关注了运动特征对视觉的影响,但是均存在一定的局限性,对于复杂的运动场景的注意焦点计算很难取得良好的效果。

我国研究者也在Itti注意模型的基础上研究了适合动态场景中的注意模型,形成了一些理论成果。如曾志宏[2]等人提出注意焦点计算模型,郑雅羽[3]等提出基于时空特征融合的视觉注意计算模型。这些模型都能较好地提取动态场景下的视觉目标。

4.2自上而下的任务驱动的注意模型研究及分析

自上而下的注意即任务驱动的注意,通过目标和任务的抽象知识,在一定程度上指导注意焦点的选择。在自上而下注意模型的研究方面,Laar(1997)提出了一个用于隐式视觉注意的模型,该模型通过任务学习,将注意集中于重要的特征。Rabak[4]提出了基于注意机制的视觉感知识别模型,该模型在定义目标显著性时,通过语义分析对其他三个自下向上的视觉控制参数项进行线性组合。Salah将可观测马尔科夫模型引入到模拟任务驱动的注意模型研究中,并在数字识别和人脸识别的实验中取得了很好的效果。Itti提出以调节心理阈值函数的形式来控制视觉感知。

目前对自下而上的数据驱动方面的研究较多,而对自下而上的任务驱动方面研究较少。因为任务驱动的注意与人的主观意识有关,同时受到场景的全局特征影响。自上而下的注意涉及记忆、控制等多个模块的分工协作,其过程非常复杂。

5.计算机视觉注意模型研究的趋势

自底向上和自顶向下的加工是两种方向不同的信息处理机制,两者的结合形成了统一的视知觉系统。人类的视觉信息处理系统只有遵循这样的方法,才能有效地实现视觉选择注意的目的。

实践证明,把自底向上和自顶向下的研究相分离的研究方法并不能很好地解决计算机的视觉注意过程。要想使计算机能够准确模拟人类的视觉注意过程,实现主动的视觉选择注意的目的,采用两种研究方法相结合的形式势在必行。自底向上的视觉注意计算往往离不开与自顶向下的有机结合,实现二者的优势互补是以后计算机视觉注意研究的一个趋势。

参考文献:

[1]Wolf J M,Cave K R.Deploying visual attention:the guided search model.In:Troscianko T,Blake A,eds.AI and the Eye.Chichester,UK:Wiley press,1990.

[2]曾志宏,周昌乐,林坤辉,曲延云,陈嘉威.目标跟踪的视觉注意计算模型[J].计算机工程,2008,(23).

[3]郑雅羽,田翔,陈耀武.基于时空特征融合的视觉注意模型[J].吉林大学学报,2009,(11).

[4]Rabak I A,Gusakova V I,Golovan A V,et al.A model of attention-guided vision perception and recognition.Vision Research,1998,38.

计算机视觉研究内容第4篇

关键词:计算机视觉;研讨式教学;小组探讨;课前回顾

作者简介:陈芳林(1983-),男,湖南株洲人,国防科学技术大学机电工程与自动化学院,讲师;周宗潭(1969-),男,河南洛阳人,国防科学技术大学机电工程与自动化学院,教授。(湖南 长沙 410073)

中图分类号:G643.2 文献标识码:A 文章编号:1007-0079(2013)26-0065-02

进入21世纪,创新型人才的培养成为各国政府和高等教育界关注的一个焦点。世界各国研究型大学的共同特点是在研究生教育阶段致力于培养富有创新意识和创新能力的高级人才。[1]研讨式教学是培养研究生创新精神、科研能力的有效途径,教师讲解与学生探讨两部分相结合是研讨式教学采用的主要模式。[2]将课程分成两部分之后,教师讲解的时间就必须压缩,教师一方面需要思考如何在较短的时间内完成课程的讲解,同时还需要考虑课程讲解要与学生探讨部分紧密结合。因此,如何上好研讨式教学教师讲解这部分课,越来越受高等院校的重视。本文针对笔者教授工科研究生课程“计算机视觉”的实践与经验,阐述了笔者对于如何上好研讨式教学教师讲解这部分课的个人体会。总结为两点:第一,首先要充分做好课程准备;第二,上课环节采取回顾—案例—小结的讲解方式。下面从课程准备、课前回顾、课程讲解、课后小结四个方面分别阐述(如图1所示)。

一、“计算机视觉”课程准备

要上好一门研讨式教学的课程,一定要结合该门课程的特点,量身定制课程内容,进行精心准备。本节先介绍“计算机视觉”课程的特点,然后结合该门课程的特点,介绍笔者对于“计算机视觉”的课程准备。

1.“计算机视觉”课程特点

“计算机视觉”是“数字图像处理”和“模式识别”等课程的后续课程。该课程重点在于图像或者图像序列的分析理解。课程知识在机器人导航、侦查、测绘、测量、精密加工和目标跟踪等多个领域都有广泛的应用。[3]近年来基于视觉信息的控制反馈也开始受到广泛关注。国内高校一般都为研究生开设了此门课程。

计算机视觉技术应用广泛、算法原理涉及面广:涉及到概率与数理统计、信号与系统、图像等基础知识。“计算机视觉”是一门重要的控制类、电子类及计算机类专业研究生的选修课程,它内容广泛、综合性强,研讨能力的培养显得非常关键。

2.课程准备

首先,结合“计算机视觉”课程内容广泛、技术日益更新和丰富的特点,将课程36学时分为12次课,每次课为3小时,每堂课教师讲解一个专题。这种设计,一方面可以更广地涉及计算机视觉的各个领域;另一方面以专题的形式来讲解,可以将学生带入到该专题,介绍基本背景、理论、知识和方法,让学生有一个初步的了解,方便课后学生对感兴趣的专题进一步深入挖掘与研究。

其次,在课程开始之前,教师仔细统筹,安排好每次课的专题,这样既方便学生一开始对整个课程有一个整体的了解,也方便学生选择课堂研讨的题目与内容。根据12个专题,将各个专题讲解的内容与课件在开课之前准备好,这样有利于把握各个专题之间的前后承接关系。例如,“区域”与“分割”是既有区分又有联系的两个专题,在课程开始之前,将课件准备好,就有利于宏观把握,在“区域”专题提到的分割算法,就不需要在“分割”专题再次重复,而在“分割”专题可以结合前面“区域”专题进行互相补充,以帮助学生融会贯通。

最后,在每个专题上课之前,再对课件进行精雕细琢,主要是对内容分好层次,对方法进行分类,力图在较短的时间内,让学生对该专题有较全面的认识。例如,在讲解图像分割时,由于图像分割方法非常多,可以将分割方法分为若干个大类,每个大类只讲1~2个方法。这样既可以尽可能涉及更广的领域,又可以提高讲解的效率。

二、“计算机视觉”课前回顾

课前回顾是指每堂课的前面一小段时间用来回顾上一堂课的内容。虽然课前回顾时间非常短,一般为3~8分钟,但是课前回顾是课堂教学中的一个重要环节。课前回顾可以帮助学生加强将要学习的内容与已学过内容之间的联系。通过课前回顾,学生可以回忆前续课程所讲解的概念、理论、算法的步骤等内容,有助于解决新问题或者理解新知识。

课前回顾最重要的是既要复习前续课程的内容,又要注意将前续内容与当前内容联系起来。由于讲解时间有限,要使研讨式教学的教师讲解部分效率高,教师帮助学生回忆上堂课的概念、模型、算法等内容,就变得非常重要。如果不做课前回顾,那么当讲到某处新知识时,往往需要停下来,将前续课程再讲一遍,否则学生无法理解新的知识,这样就降低了教学的效率。

课前回顾的时间,一般以3~8分钟为宜。课前回顾的形式可以多样化,如讲解课后作业、回顾概念、提问等。笔者认为应根据当天课程与前续课程的关系,采取合适的方式。各种方式结合使用,提高课前回顾的效率。

三、“计算机视觉”课程讲解——案例教学

案例教学已经成功地应用于数学、计算机科学等领域的教学。通过案例,学生可以很快地掌握相应的概念、算法的步骤等,从而提高教师讲解部分的效率。[4]例如,在讲解马尔科夫随机场时,笔者通过案例式教学,将马尔科夫随机场用一个生活中的例子来向学生解释。首先,将马尔科夫随机场分解成两个重要的概念,分别是随机场与马尔科夫性,然后将它们对应到例子中,帮助学生理解。

随机场包含两个要素:位置(site)和相空间(phase space)。当给每一个“位置”中按照某种分布随机赋予“相空间”的一个值之后,其全体就叫做随机场(如图2(a))。[5]这个概念非常抽象,难以理解。笔者应用案例式教学,拿庄稼地来打比方。“位置”好比是一亩亩农田,“相空间”好比是种的各种庄稼。给不同的地种上不同的庄稼,就好比给随机场的每个“位置”,赋予“相空间”里不同的值。所以,可以形象地理解随机场就是在哪块地里种什么庄稼的布局(如图2(b))。

马尔科夫性指的是一个随机变量序列按时间先后顺序依次排开时,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。为了更直观地理解马尔科夫性,笔者仍然拿庄稼地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其他地方的庄稼的种类无关,这种性质就是马尔科夫性。

符合上述两个特征,那么这些地里种的庄稼的集合,就是一个马尔科夫随机场。通过案例式教学,笔者发现可以加深加快学生对课程内容的理解,提高教师讲解环节的效率。

四、课后小结

课后小结指的是一堂课将要结束时,教师对本堂课进行一个简短的总结。许多成功的教师都会在其教学中坚持课后小结这个环节,给学生一个总体的印象,以帮助学生消化本次课程的内容。

研讨式教学教师讲解部分的课后小结与普通教学方式应有所区别。笔者认为这主要是因为通过课后小结可以将本次课程所讲内容与学生的研讨环节结合起来,而不仅仅是对内容进行简单的总结。

为了达到课后小结使本次课程内容与学生探讨环节建立联系的目的,笔者在教学中常采用如下方式:首先,像普通教学方式一样,总结本次课程内容;然后,在此基础上,抛出若干问题,这些问题,不需要学生马上解答,而是留给学生课后思考,提供他们选择研讨主题的素材;最后,介绍其他在本次课程中没有涉及到的前沿知识、方法与理论,拓宽学生的视野,从而增加学生选择探讨主题的覆盖面。

通过应用这种方式,笔者发现学生的思维更开阔,在探讨环节,学生往往可以选择一些比较新颖的主题(例如视频中不动点的检测等),而不仅仅局限于教师所讲内容,从而提高了研讨式教学的效果。

五、结论

在“计算机视觉”课程中引入研讨式教学,通过总体设计规划好整门课程内容,课堂讲解注意采用回顾—案例—小结的方式,笔者对如何上好研讨式教学教师讲解这部分课进行了个人经验的总结。通过本次教学改革,笔者体会到如果要提高教学效果,一定要注意教师讲解与学生探讨两个环节的紧密结合。

参考文献:

[1]侯婉莹.我国研究型大学本科生科研研究[D].济南:山东大学,

2009.

[2]张晴,李腾,韦艳,等.研讨式教学模式的理论研究[J].中国科技纵横,2011,(10).

[3]D.H .巴拉德.计算机视觉[M].北京:科学出版社,1987.

计算机视觉研究内容第5篇

增强现实虚拟现实实现过程研究内容

1虚拟现实技术

虚拟现实技术(virtual reality,简称VR)是由美国VPL公司创始人加隆.拉尼尔在二十世纪八十年代提出的,它指的是综合利用计算机图形系统和各种显示和控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术,其中计算机生成的、可交互的三维环境被称为虚拟环境(Virtual Environment,简称VE)。虚拟现实的三个基本特征是沉浸(Immersion)、交互(Interaction)和构想(Imagination)。与其它的计算机系统相比,虚拟现实系统能提供实时交互性操作、三维视觉空间和多通道的人机界面;目前虚拟现实主要限于视觉和听觉,但触觉和嗅觉方面的研究也取得了很大的进展。

2虚拟现实技术的具体形式之——增强现实技术

虚拟现实技术按照系统功能和实现方式的不同,又可以分成以下四种具体类型:沉浸式虚拟现实、桌面虚拟现实、分布式虚拟现实和增强现实。

增强现实(Augmented Reality,简称 AR)技术,是在二十世纪九十年代由波音公司的考德尔及其同事在设计一个辅助布线系统时提出的,它是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。随着随身移动电子设备运算能力的不断提升,增强现实技术的用途将会越来越广。

目前人们对于增强现实有两种通用的定义。一是北卡罗来纳大学的Ronald Azuma于1997年提出的,他认为增强现实包括三个方面的内容:Combines real and virtual(将虚拟物与现实结合);Interactive in real time(即时互动);Registered in 3-D(三维)。

另一种定义是1994年保罗·米尔格拉姆(Paul Milgram)和岸野文郎(Fumio Kishino)提出的现实-虚拟连续统(Milgram's Reality-Virtuality Continuum)。他们将真实环境和虚拟环境分别作为连续统的两端,位于它们中间的被称为“混合实境(Mixed Reality)”。其中靠近真实环境的是增强现实(Augmented Reality),靠近虚拟环境的则是扩增虚境(Augmented Virtuality)。

3增强现实系统的实现过程

虽然增强现实系统不需要显示完整的场景,但由于需要通过分析大量的定位数据和场景信息来保证由计算机生成的虚拟物体可以精确地定位在真实场景中,增强现实系统中一般都包含以下几个基本步骤:获得真实场景的信息;对真实场景和摄影机的位置信息进行分析;生成虚拟的景物;合并视频或直接显示,即图形系统首先根据摄影机的位置信息和真实场景中的定位标记来计算虚拟物体坐标到摄影机视平面的仿射变换,然后按照仿射变换矩阵在视平面上绘制虚拟物体,最后通过头戴式可视设备(Head Mount Display)直接显示或与真实场景的视频合并后,一起显示在显示器上。成像设备、跟踪与定位技术和交互技术是实现一个基本的增强现实系统的支撑技术。

4增强现实技术的具体研究内容

由于人们对增强现实技术的需求不断增长,研究人员对基于视觉的增强现实技术进行了很多研究,这些研究内容包括——增强现实系统中虚拟物体与真实场景融合技术的研究包括:3D虚拟物体注册技术、摄像机标定技术、摄像机的跟踪技术和基于视频的实景空间的建模技术,融合技术的研究主要包括:虚拟对象和真实场景的配准以及虚拟物体与真实场景之间的动态一致性、虚实物体之间的几何一致性和光照一致性——使得增强现实技术获得了飞速的发展。

5增强现实的应用

增强现实技术已经被逐步应用到了很多行业当中,逐渐进入到我们的生活当中,典型的案例包括:

医疗方面——北卡罗莱纳大学的AR辅助B超检查和胸部活组织切片;伦敦Guy’s医院MAGI项目协助医生从耳道中取出神经瘤;卡内基梅隆大学的“魔眼”工程;布朗大学的外科手术培训系统。

教育方面——欧洲计算机工业研究中心的机械模型注解。

工业方面——SONY公司TransVision增强现实样机系统。

商业方面——微软推增强现实技术——新应用-记事帖;日本新宿高岛屋百货公司内的数字化妆镜。

文化方面——希腊、土耳其的历史古迹数字重建;“数字敦煌”工程。

6总结

增强现实(Augmented Reality,AR)技术是近年来的研究热点,它是将计算机生成的虚拟物体或其它信息叠加到真实场景中,从而实现对现实的“增强”,它是虚拟现实技术(Virtual Reality,VR)的一个重要分支。增强现实综合了计算机图形、光电成像、融合显示、多传感器、图像处理、计算机视觉等多门学科。

参考文献:

[1]郭天太,王引童.虚拟现实技术与增强现实技术.机械制造,2003,41(6):7-9.

[2]维基百科.

[3]R. Azuma, A Survey of Augmented Reality.Presence: Teleoperators and Virtual Environments, pp. 355–385, August 1997.

[4]P. Milgram and A. F. Kishino, Taxonomy of Mixed Reality Visual Displays.IEICE Transactions on Information and Systems, E77-D(12), pp. 1321-1329, 1994.

计算机视觉研究内容第6篇

1.1自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚20多年,但是发展很快。

2.1计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图象处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco.J[15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。MertensK等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3计算机视觉技术在检测食品中微生物含量的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar.B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有,对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征和微生物数量进行识别,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。GokmenV等[33-34]通过对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率的关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等[35]人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等[36]人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大[37]。例如,Davenel等[38]通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花萼和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer[39-40]等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是,同一套系统和设备很难用于其它种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等[41]利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等[42]利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3检测性能受环境制约

计算机视觉研究内容第7篇

关键词:计算机软件;课程教学;CorelDRAW

中图分类号:J05 文献标识码:A 文章编号:1005-5312(2013)24-0161-02

一、计算机软件CorelDRAW的课程教学目标

根据视觉设计专业人才培养方案,计算机软件CorelDRAW的课程教学目标为,熟练掌握软件的操作技巧,能够运用CorelDRAW软件绘制艺术化的矢量图形图标和编排有艺术效果的图文版面。

二、计算机软件CorelDRAW课程教学中的常见问题

CorelDRAW是一款专业的矢量图形绘制软件,有强大的矢量图形绘制功能和便捷的图文编排工具。目前课堂教学中常见的问题主要集中在,一是没有根据所学专业详略得当地安排教学内容,每种工具命令都泛泛而讲,不利于学生对重点知识的熟练掌握和深入探究;二是课堂练习安排没有层次性和趣味性,重复枯燥的练习不仅磨灭学生的学习积极性,也扼杀了学生的创造力;三是学习效果反馈缺乏及时性和针对性,没有因材施教的课堂不能保证教学的质量和效率。

三、视觉设计专业的计算机软件特色课程模式研究——以CorelDRAW课程教学为例

根据教学中存在的问题进行课程模式的思考探索,认为课程教学第一个关键点是要有专业针对性,要根据视觉设计专业重点运用的领域安排教学内容和组织课堂教学,所以提出针对性强、循序渐进和因材施教的渐层型课程模式;第二个关键点是要有教学效率和教学效果,所以提出能激发学生专业热情和培养学生专业能力的效能型课程模式。

(一)渐层型课程模式——关于课程内容学习的探索与实践

“渐层型课程”是指在本专业计算机软件教学中,教师引导学生进行循序渐进不同层次的迁移应用和绘制要求,其理论依据是斯金纳(BurrhusSkinner)程序教学模式,这种教学模式具有极强的操作性,有利于学生系统掌握知识和技能、循序渐进地学习,并能及时反馈强化所学知识,同时培养学生的自学能力。

1.渐层型课程模式专业针对性强

渐层型课程模式的构建思路是针对专业特点来设置教学内容和用80%的时间熟练掌握20%的重点知识。

视觉设计专业学生的核心课程一般为文字设计、版式设计、海报设计、书籍设计、包装设计和品牌推广等,所以CorelDRAW课程教学,应将这些设计类别需要用到的计算机辅助领域作为教学重点,用80%的课程时间来熟练掌握视觉设计专业辅助设计常用到20%的重点知识,并将后续专业学习的实际设计项目作为课堂练习和考核的重点内容。

2.渐层型课程模式遵循渐进规律

在CorelDRAW课程教学中,教师通过知识新授、牵扶帮学和延伸自学来循序渐进安排课程教学,能有效优化课堂教学质量。

知识新授环节要注重培养学生对指定目标的学习能力,首先以温故知新和思维启发为切入点,用三遍不同层次的讲解演示和学生独立操作相配合来达到新授、巩固、强化重点难点的学习效果。

牵扶帮学教学阶段根据具体实际情况,可以通过教师出示图文说明的操作提示帮助学生掌握重点和突破难点,也可以通过放手学生独立操作后的师生共同讨论及解题新思路的探索来深化学生的操作技术。

延伸自学的教学阶段要善于创设自学延伸的学习情境。具体措施有:在自学基础上进行举一反三的延伸学习;也可以先不看教程自学探索,之后再将自己的操作和教程操作进行对比分析来深化对技巧的理解;或者提供高质量的图形案例和更多自学网站自学书籍的信息,让学生在更加深广的学习情境中充满学习热情地自由驰骋。

3.渐层型课程模式注意因材施教

因材施教的课堂实施手段主要包括:一是教师逐个当堂反馈学习效果,这利于调动学生学习积极性、有利于教师掌握学生实际学习能力来与学生开展良性互动、有利于落实学生的当堂学习情况集中讲解容易出现的问题,保证教学质量;二是分层次针对有差异的个体开展学习引导,这能有效避免有的学生觉得练习太容易,完成后无事可做,有的学生则畏难不愿学习,失去学习兴趣的情况;三是根据个体差异来设置具备必选标准性和可选自由性的作品考核形式,能更真实地考核学生实际操作能力,激发学生的学习主动性,还能再一次大幅度提升学生软件操作技巧,为后阶段的专业课程学习和毕业设计积累丰富的计算机造型技术。

4.渐层型课程模式的实践效果

渐层型课程模式首先从课程内容安排上体现出针对性强和重点突出的渐层性,其次在课堂教学中体现出循序渐进符合学生认知规律的渐层性,最后在课堂教学反馈和课程考核差异性设置中体现出渐层性,渐层型课程模式由浅入深,由表及里,让CorelDRAW的课程教学充满学习的乐趣和努力的进阶,学生不仅能学会课程知识,还能提高举一反三的思维水平和开发探索研究的自学潜能。

(二)效能型课程模式——关于专业素质养成的探索与实践

采取效能型课程模式来进行CorelDRAW的课程学习,是关于专业素质养成的探索与实践。根据奥苏贝尔(DavidAusubel)有意义的接受型学习教学理论和先行组织者教学模式,提出视觉设计专业计算机软件的教学特色研究方向“效能型课程”模式,是指高效高能的课程模型,“高效”即课堂效率高,“高能”即学生能力强。

视觉设计专业的学生要具备高素质的专业素养和独特的创意能力,计算机软件教学在培养学生专业能力,掌握数码造型技术的同时,也应该注意激发学生的专业热情。

1.效能型课程模式能激发学生的专业热情——高效

简化创作流程和细化制作任务这两种教学措施能有效提高计算机软件教学的课堂效率,让学生乐学愿学,从而激发学生对本专业的学习热情和学习期待。

简化制作流程是简化学生概念创意的难度,但同时又给予学生根据设计实例自由发挥的空间,不仅能保证作品的视觉美观度,还能有效启发学生的设计创造力和对专业的学习热情。二年一期的学生并没有进入核心设计课程的学习,所以不具备很专业的设计创意能力。在CorelDRAW的课程学习中,如果按照一般的创作流程,让学生先创意再画草图,然后制作电子稿,不仅和其他类型课程的考核内容重复,也没有达到计算机软件以技术考核为主的课程重点,同时学生因为没有很好的创意和设计技巧,即使软件操作能力很强,绘制的作品也往往不具备一定程度的审美水平,视觉效果不美观的软件绘制作品会夸大学生现阶段较薄弱的设计能力,这种挫败感往往伤害到学生对视觉设计专业的热情。所以,通过简化创意过程,强调制作技术和对已有案例进行延续设计的作品考核方式,能在保证作品审美水平的前提下更大程度激发学生探索运用软件设计制作的学习热情。

细化制作任务能保证学生一步一步落实学习目标,最终高质量完成学习任务。以课程考核为例,将制作VI手册这个整体目标,逐个分解细化,每个任务难度合理把握在学生跳一跳能完成的程度,学生通过一次次努力累积最终如期完成体现自己最大制作能力的课程考核作品,这一学习过程能极大鼓舞学生的学习热情和对专业设计课程的期待与向往。

2.效能型课程模式能培养学生的专业能力——高能

在计算机软件的课程学习中培养学生专业能力主要有两种教学措施,一是强化重点知识,二是深化操作技巧。

强化重点知识要求不仅是课程作品考核,包括整个课堂讲授和课堂练习都要围绕这些操作重点合理设置,展开教学。CorelDRAW的工具命令进行初级操作比较简单,但是熟练掌握就需要反复练习和不断强化,而要达到灵活运用的程度则需要通过恰当的教学方法进行引导,才能真正深化学生的操作技巧。

深化操作技巧主要运用对比分析、迁移应用等教学措施来实现。如特效文字的操作技巧就是用对比分析法来深化学生对操作技巧的理解,案例用一段文字和正圆形的融合为切入点,运用不同的工具编辑文字和正圆,能产生多种不同的视觉效果,通过对比分析能有效深化学生的操作技巧。再如用三种软件绘制同一对象的练习,就是采取迁移应用的教学方法来弱化学生对画面变化的关注度,从而增强学生对软件工具深入理解和综合应用的关注度。深化学生对重点工具的探索运用还可以用系列案例剖析、不同案例对比、案例自学和已有案例延续设计等教学手段来实现。

3.效能型课程模式的实践效果

效能型课程模式的具体教学实践环节不仅能使学生熟练基本操作知识,提升重点制作技巧,同时还能协调学生软件制作能力和实际创作水平的差异,提高课堂效率,潜移默化为学生铺垫良好的审美趣味和准确的专业素养,增强专业课程的整体持续性和纵向联系度。

四、视觉设计专业计算机软件特色课程模式探索与实践研究的意义和作用

(一)对本门课程产生的意义和作用

综上所述,计算机软件特色课程模式——渐层效能型课程研究是针对视觉设计专业学生的软件学习现状提出的,在CorelDRAW的课程教学实践中,呈现专业特色突出,课堂操作可行,教学效果明显的实际应用意义。

(二)对横向课程产生的意义和作用

视觉设计专业学生需要掌握的计算机软件包括4门静态图像造型软件和2门动态图像造型软件。视觉设计专业计算机软件特色教学研究项目——渐层效能型课程模式,能规范本专业多门计算机软件课程的整体教学模式,能提高学生的学习效率,缩短学习周期。

(三)对纵向课程产生的意义和作用

渐层效能型课程模式能继续深化纵向的课程延伸,以儿童视觉产业为例,渐层效能型特色课程模式可以纵向应用在儿童产品软件课程的教学中,并进一步发展延伸到儿童产品设计的媒体技术开发中。

五、结束语

视觉设计专业计算机软件特色课程模式——渐层效能型课程模式,构建了视觉设计专业计算机软件教学的有机课程体系,提供了规范的课程模块,同时为视觉设计专业其他课程开拓了更多横向和纵向的教学研究方向。

注:1.本文为长沙师范学院课题项目经费支持,项目名称为:视觉设计专业计算机软件教学特色研究——渐层效能型课程模式,编号:XXZD201105;2.本文为湖南省教育科学“十二五”规划项目研究,名称为:基于数码造型平台的艺术设计类课程有效教学研究。

参考文献:

[1][捷克]夸美纽斯.大教学论[M].傅任敢译.北京:人民教育出版社,1984.

计算机视觉研究内容第8篇

【关键词】多媒体技术 发展 应用

多媒体技术作为20世纪80年展起来的新兴技术,大大改变了人们处理信息的方式。早期的信息传播和表达信息的方式,往往是单一和单向的,后来随着计算机技术、通信和网络技术、信息处理技术和人机交互技术的发展,拓展了信息的表示和传播方式,形成了各种媒体进行综合、交互处理的多媒体技术。多媒体技术的研究领域非常广泛,几乎遍布各行各业以及人们生活的各个角落。由于多媒体技术具有直观,信息量大,易于接受和传播等显著特点,因此该领域的拓展十分迅速。今年来多媒体技术已经成功的涉足以下几个领域:

一、教育培训

教育领域是研究多媒体技术较早的领域,也是进展最快的领域,多媒体技术的各种特点被广泛应用与即时与领域。也是进展最快的领域,多媒体技术的特点最适合教育。人们以最自然,最直观,最容易的多媒体形式接受教育,不但增加了信息丰富性,提高了知识趣味性,而且还增加了学习主动性,提高了科学准确性。

(一)计算机辅助教学。计算机辅助教学是多媒体技术在教育领域中研究典型范例。它是新型教育技术与计算机应用技术结合的产物,其核心内容是以计算机多媒体技术为教学媒介而进行的教学活动;它利用数字化的声音、文字、图像、视频及动画,展现各个学科的可视化内筒,展示形象的、逼真的自然现象,客观规律,科普知识以及各个领域里的尖端技术等,目的在于强化形象的思维模式,使性质和概念更容易接受。

(二)计算机化教学。计算机化教学是近年来发展起来的,它是多媒体技术研究的一个重要方面。它的研究使得计算机教学手段从“辅助”变成前台,成为主角,这也比较成为教育方式的主流和方向。计算机化教学的主要特点有:充分利用计算机技术将全部教学内容融入到计算机所做的工作中,为受教育者提供海量信息,这也就是常说的多媒体教学的概念。

(三)计算机化学习

(四)计算机辅助训练

(五)计算机管理教学

二、休闲旅游

多媒体技术的引入使人们的娱乐观念发生了很大变化,随着多媒体统一技术的不断发展和完善,今天人们所能享受到的由多媒体带来的娱乐和其他传统娱乐方式相比已不可同日而语了。多媒体技术为旅游业带来的变革也是显而易见的,例如,宣传方式已经从传统的印刷品到有大量逼真的图片,动听的解说,实时的录像所组成的数字化载体来实现的。使消费者如身临其境,很大程度上促进了旅游业的发展

三、商业广告

多媒体广告不同于平面广告,当多媒体技术应用于商业广告时,几乎使人们的视觉、听觉和感觉全部处于兴奋状态。多媒体技术在商业广告领域中的特点:直观,易于接受,在视觉、听觉、感觉等方面宣扬广告意图;提供交互功能,使消费者能够了解商业信息及其他相关信息;提供消费者的反馈信息;提供商业规范咨询,并设置在线咨询,问题解答等服务。

四、影视娱乐

随着多媒体技术的发展逐步趋于成熟,影视娱乐业是一个非常有前途的研究领域,使用先进的计算机技术已经成为一种趋势,大量的计算机上效果注入到影视作品中,从而增加了艺术效果和商业价值。

五、电子出版

多媒体技术为报纸,杂志及图书的出版带来了勃勃生机,各种各样的电子出版物应运而生。电子出版物以其信息容量大、易于检索、成本低等优点得到了迅速的法杖,并取代了一些传统的出版物。百科全书、电子词典、技术手册、电子书刊等采用关盘坐在提,观看、收藏都及为方便

综上所述,无论从哪个方面来看,拓宽计算机处理信息类型来看,利用多媒体是计算机技术发展的必然趋势。多媒体技术的发展方向我们可以概括为以下两个方面:

(一)智能化。多媒体的基本应用是利用多媒体传递信息,而计算机与报纸、广播、电视最大的区别应该是它的交互性。图像理解、语音识别、多媒体检索、虚拟现实等基于内容管理的技术正在蓬勃发展。未来的计算机不仅能够传递多媒体信息,而且能够识别多媒体信息、理解多媒体信息。它能够知道语言的含义,能够认识图像的含义,能够在基于计算机网络的分布式数据库中找到用户想要的多媒体信息。人们与计算机的交互方式可以通过语言、行为等人与人交往的自然方式进行。

(二)立体化。随着技术的发展,多媒体技术的应用已不限于在个人计算机上的处理和表现,许多家电设备、工业控制系统、现场监视系统也正在实现数字化,随着多媒体信息的识别技术、网络技术和通信技术的发展,它们将构成一个立体画的网络系统,而人机交互的媒体将是多媒体信息。

六、多媒体计算机的发展趋势

(一)完善计算机支持的协同环境。计算机支持的协同工作是一个非常热门的研究课题。这是一个跨学科的研究领域,它涉及计算机科学、信息科学、社会学、心理学及人类学等多种学科,研究工作目前还没有一个确切的定义,有人认为,计算机支持的协同工作致力于研究协同工作的本质和特征,探讨如何利用各种计算机技术设计出支持协同工作的信息系统。由于计算机支持的协同工作系统能够适应信息化社会中人们工作方式的群体性、交互性、分布性和协作性的特点,所以它发展的特别迅速。目前,世界上很多研究者正在从事该系统的有关研究工作。例如,群体协作理论的研究;协同工作的本质和特征的研究,也就是呀牛个人和群体的行为特点,协作的目的、意义和手段;有效的协作方式和协作模型;协作的支持技术。

(二)增强计算机的智能。可以进一步解决如文字、语音的识别和输入,汉语自然语言的理解和翻译,图形的识别和理解,解决知识工程及人工智能中的一些课题,从而使多媒体技术应用更加广泛。

计算机视觉研究内容第9篇

说起来,英特尔很早便开始关注 VR 了。从 2016 年开始,雷锋网发现,他们对外发布过 Project Alloy VR 硬件参考开放平台(今年 9 月宣布放弃该计划),2017 年年初的 CES 上展示过一段六自由度视频,六月份的 E3 大展期间亮相过 VR 无线方案,甚至还宣布将为多届奥运会进行 VR 直播,以及还有很多他们没有公布的事情。

雷锋网觉得,对 VR 的研究,英特尔下了不少功夫。而在这次的媒体沟通会上,来自英特尔中国研究院通信架构实验室的研究员详细地介绍了 5G 和 VR 的结合,未来 5G 将如何助力 VR 的发展。

雷锋网将演讲全文整理如下。

通信架构实验室主要是致力于无线通信基础架构的研究,我们主要是采用通信和计算结合的方式打造高效的端到端的通信系统,提升用户体验。今天我给大家介绍的主题主要是汇报我们 5G 和 VR 结合的工作——“通信和计算融合,引领VR未来”。

主要介绍三个部分:

第一,5G 主要面对的数据洪流,从架构上怎么支持 5G 的数据洪流。

第二,介绍研究院对于远程沉浸式互动的愿景。

第三,通信与计算融合解决移动 VR 关键问题。

我们研究工作的重点主要是通信和计算融合的方式,为什么需要通信和计算融合呢?大家如果从互联网厂商的角度可能认为通信系统基本上对我来说是透明的,我不需要知道你通信到底做了哪些事情,只需要把信息从一端传到另一端就可以,为什么通信和计算要结合起来,有什么好处?

5G 如何应对庞大的数据流

主要的出发点是数据,怎么处理数据和传输数据,特别是 5G 将来所要面对的数据洪流。大家肯定都是对摩尔定律非常熟悉,宋院长(英特尔中国研究院院长宋继强)也介绍摩尔定律如何实现每18个月我们芯片的能力翻一番。

而在通信领域,通信系统通信速率的发展以及我们对移动通信数据的需求,甚至是超过了摩尔定律。比如说 2016 年全球的移动数据通信量是增长了 63%,如果按照这个速度下去,两年实际上就翻了 2.5 倍左右。它的增长速率甚至超越了摩尔定律的发展。为什么?借用十九大的一句话,满足我们日益增长的对美好文化生活的需求。这是一个指数定律。

按照这个速率增长下去,到 2020 年 5G 部署的时候我们将面对什么呢?我们将面对 50EB 数据的流量,每个月的移动数据流量在今天的基础上再增长5倍。EB 是 10 的 18 次方。同时,我们知道 5G 支持物联网的应用,特别是我们提的自动驾驶,自动驾驶的汽车每天产生的数据是 4 个 TB,如果大家对硬盘比较熟悉,一天产生的数据容量要充满非常大的硬盘,每年 365 天需要买 365 个硬盘来存储整个自动驾驶的数据。特别是自动工厂智慧城市里的互联工厂,一天的数据量,像芯片厂、封装厂一天的数据流量就是 1TB,一天要买几百块硬盘来装满你的数据。对于 5G 来说我们所要面临的数据洪流是非常巨大,对整个通信系统和计算系统来说都是一个巨大的挑战,当然也意味着巨大的商机。

今天围绕的主题是VR和5G,为什么VR需要特别大的数据容量,为什么VR在数据洪流里会占据大量的流量呢?目前互联网的最主要的传输内容是视频,将来VR是代表更高质量视频的未来。

举个例子,如果大家看一张很高清的图片,放在手机上或者是放在电视上会觉得现在的清晰度已经超出你的想象,非常的清楚。但是如果你把一个同样的图片放在一个VR眼镜上,同样的分辨率会变得非常模糊,为什么?主要是视角的原因,我们在手机和电视机上看图片的时候,你的视角只有10到30度左右,在VR眼镜上拓展到100度、120度、150度,一下子增加了好几倍,纵向还有增加的倍数。为了达到非常好的高清要求,对VR的显示来说需要25倍到40倍的分辨率增加,这样它的流量会变得非常高。

比如我们要打造一个非常好的VR系统,现在的系统是达不到这个要求,你需要16K到24K超级高清的VR。不压缩的话,容量会达到500Gbps,每个月的容量是1Gbps,如果是500Gbps,可能是十几年的容量一秒钟就过去了,即使压缩之后也达到1Gbps,同时VR对显示的延迟非常敏感,对传输的容错性也是非常敏感。所以对5G来说,特别是高质量的虚拟现实和增强现实,对5G的通信系统和计算系统来说都要着力应对。

我们主要研究系统架构,在5G系统架构里面怎么样满足一个速率洪流的要求,主要是采用计算和网络融合的方式,在端到端的部署、计算和网络系统来满足数据处理和传输的要求。

在3G、4G时代,网络是网络,数据和云计算是云计算功能,对于一个云计算的应用来说,网络基本上是透明的,它的传输容量在接入网端的传输容量和核心网的传输容量,骨干网的传输容量是一致的,你发的任何一个请求都会到云计算中心处理,然后再把结果返回给你,这样在整个容量是一个一致的管道的容量。

大家应该都有亲身的体验,如果你宽带扩容了50兆,然后再扩到100兆或1Gbps,其实你的感觉并不明显,你的容量并不是受限于接入网端,而是在核心网、骨干网或者数据中心里面,没有办法支持那么高速率的应用。如果你的小区里面放一个视频服务器,你去访问视频服务器的时候会感觉看起高清大片来特别流畅,主要是因为内容下沉。

在4G的后半期我们已经引入了边缘计算,边缘计算的目的主要是应对在网络边缘的数据传输和处理的要求。我们加入边缘计算,可以对很多边缘产生的数据进行实时的处理和反馈,比如智能汽车产生的数据,智能工厂产生的数据,这样就不需要把所有的数据传到云计算中心再进行处理。它有两点非常明显的好处,第一是时延非常低,满足物联网的应用。第二是减少核心网的带宽。虽然我们的5G会将边缘的容量扩展得很大,比如说100倍到1000倍左右,核心网不可能扩展到1000倍。

在5G和下一代会是什么样?会发生什么呢?在第三阶段的时候,我们认为它的计算能力会进一步的下移到智能终端。比如,车或者手机实际上就是一个智能终端,家里的传感器和路上的传感器很多都可以连到智能终端上,5G的网络会把整个物联网设备、智能终端和边缘计算的能力、云计算的能力统一起来,所以我们能够打造一个端到端的网络,同时也是一个端到端的计算平台,来应对5G的数据洪流。

大家肯定是对AR/VR非常熟悉,我们对未来AR和VR的认识和愿景是什么。我们主要是提出远程沉浸式互动的未来,什么意思?未来,你带着一个VR眼镜,我们可以用5G的网络把你和一个智能的机器人连接起来。

中国研究院也有非常多的智能机器人方面的研究,我们把网络和机器人连接起来,同时机器人能够把360度视频和声音实时的传输到客户端,你可以对机器人进行控制和真实的世界进行互动。这能达到什么效果呢?就好像在任何时间你都会瞬间的转移到世界上任何一个角落,和一个真实的环境进行互动,这是我们设想的一个超越目前AR和VR远程沉浸式互动的未来。

能支持什么样的应用呢?我们觉得非常多的应用,像远程购物,你现在是在北京,你可以一下子就跑到美国的超市里进行购物,从货架上亲自把你想要的东西选下来,你就再也不用担心假货。还有远程的旅游,比如说你在一个你喜欢的时间和地点,比如说慕田峪刚下过雪,或者夕阳西下的时候,一下子跑到那里,可以亲自体验一下那个美景。

还有社交的功能,大家回家都非常少,在外地工作的时候,有了我们这个系统可以瞬间转移到你的家里,和你的父母进行聊天,好像你真的回到家里身临其境一样,这是我们设想的远程沉浸式互动的未来。我们用什么样的技术实现呢?下面跟大家介绍一下。

VR最主要的肯定是要做内容,我们刚才也说目前的VR内容2K、4K,它的清晰度还差得很远,我们怎么样产生高质量VR的内容呢。如果你体验过VR的视频可能会有一些体验,目前的VR视频除了是好莱坞制作的大片,基本上VR视频内容都是2D的,因为3D VR视频生成是非常复杂的,制作难度也大。

所以,我们英特尔中国研究院研究的目标聚焦两点:

第一,3D VR视频能实时合成,能够产生高质量的内容。

第二,怎么实时产生内容满足我们对远程沉浸式未来的要求。

我们的设备大家可以看到它有非常多的摄像头,有17个,每个摄像头是2K的分辨率,为什么需要这么多的摄像头,实际上主要是为了在水平方向能够在任意方向差值生成一个3D的内容,需要每个摄像头之间有比较多的重合区域,所以需要非常多的摄像头。

3D VR的合成算法非常复杂,特别是产生一个没有瑕疵的3D视频,你要消除它的鬼影效应,消除拼接的瑕疵,采用非常复杂的光流算法,即使是目前最强大的服务器和最强大的台式机也很难完成实时性的功能。

我们开发了分布式的处理平台,是非常高密度的分布式处理平台,是2.5U高的机箱,在这里可以插入12个至强CPU卡,同时插入12块FPGA卡,中间有600G左右的互联能力。对视频VR处理来说,对实时合成来说一个主要的功能就是怎么样实现精准的同步,从处理的角度实现精准的同步,这个平台也可以支持。通过我们算法的研究,通过实时处理的加强,希望我们能够真正的达到产生一个非常高质量的,比如说现在产生8K的高清的内容,满足将来的要求。

我们有了内容之后,下一个面临的问题是怎么样把这些内容传输到客户端。刚才说了VR的传输要求是非常高,整个的带宽需要是100兆到1Gbps。同时,延迟需要非常低,只有十几毫秒到二十多毫秒。目前的网络基本上是没有办法满足这个要求,所有移动的网络是有接入网,有核心网,有骨干网,所以在任何的两个用户之间传输,即使你是在离得很近的两个用户传输,实际上要走一大圈,中间需要经过非常多的设备,即使优化得很好,最好的效果只能达到50毫秒到100毫秒。

在这种情况下怎么能够满足VR处理实时性的十几毫秒的要求,特别是移动的时候跟上你的显示速度,这只有十几毫秒。我们提出一种方法——边缘计算,通过通信和计算结合的方法,采用边缘计算的能力能够使VR达到实时传输的要求,解决从显示到头显的要求,解决从带宽到时延的要求。

首先,我们生成VR的视频内容之后,把360度的全景视频通过压缩传到边缘服务器,在边缘服务器端有整个全景的内容,可以同时服务多个用户。每个用户会把自己的视角信息,你在看哪个方向传给边缘服务器,边缘服务器把视角信息的内容发给用户。

这样有两个特别显著的好处:

一是通过通信和计算结合的方式,采用边缘服务器能够显著降低从移动到显示的时延,本来是50到100毫秒,现在只是10到20毫秒。

二是能够大大降低无线通信带宽的需求。如果不采用这种方法需要1Gbps带宽,采用这种方法可以降低2到3倍。通过这种方法我们能够打造一个高效的5G网络传输系统。

还有一点比较重要的:可靠性。因为VR的传输它对数据传输的可靠性要求非常高。一个视频如果离得很远,看电视的时候突然有一些瑕疵可能感觉比较明显,但不会感觉特别不舒服,但是如果一个VR眼镜在显示一个视频的时候,如果突然感觉有一帧丢失了,就需要很长的时间才能恢复出来,这时候会感觉到特别的不舒服。

怎么样满足这个要求呢?当然,如果我们仅仅从通信设计的角度去设计一个速率非常高,延时非常低,同时容错性非常好的系统,这也是可以做得到的,但是整个的成本和效率就会非常低。我们也提出用通信和计算结合的方式,我们把整个头显端的计算功能增强,在头显端做一些容错性处理,比如把异步时间扭曲的功能加到头显端。

举个例子,通过边缘服务器或者是个人的笔记本,把视频、游戏传到头显端,第一帧会正确接收,当第二帧传输失败的时候,头显端会用前一帧的内容根据目前头显的位置信息和视角信息进行旋转,重新生成第二帧的内容,这时候用户对整个传输失败的感觉不会太明显,甚至没有丢失的感觉,这样用户体验会大大提升。我们将这种增强异步时间扭曲的功能加入到移动VR头显端,特别是加入到手机端。通过增强头显端和手机端的功能,提高整个系统的可靠性和体验,显著的降低VR带宽的需求和整个设计的难度。

这是我们录的两段视频,左边是英特尔的移动VR系统,右边是第三方的系统。可以看到左边的系统是我们用手机拍摄下来的,是非常流畅,但是右边因为是完全靠这种PC的功能,手机端的功能比较弱,会显得非常卡顿。

还有另外一点最重要的,也是做研究经常容易忽略的一件事情,你的应用在哪里来。如果我们做了一个VR系统,所有的应用要重新写,所有的内容要重新生成,那是没有办法建立起一个生态系统的。

相关文章
相关期刊
友情链接