计算机视觉专业导论论文

资源描述

1 计算机视觉概述人类对外界世界信息的感知 80%以上是通过视觉得到的。随着信号处理理论与计算机的出现，人们试图用摄像机获取环境图像并将其转换成数字信号，用计算机实现对视觉信息处理的全过程，这样就形成了一门新兴的学科计算机视觉。计算机视觉是一门研究如何使机器“看”的科学，具体的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术是试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉的研究目标是使计算机具有通过二维图像认识三维环境信息的能力。这种能力不仅使机器能感知三维环境总物体的几何信息，包括它的形状、位置、姿态、运动等，而且能对它们进行描述、储存、识别与理解，最终使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。作为一个工程学科，计算机视觉寻求基于相关理论与模型来建立计算机视觉系统。这类系统的组成部分包括：1. 程序控制（例如工业机器人和无人驾驶汽车）2. 事件监测（例如图像监测）3. 信息组织（例如图像数据库和图像序列的索引建立）4. 物体与环境建模（例如工业检查，医学图像分析和拓扑建模）5. 交感互动（例如人机互动的输入设备）计算机视觉同样可以被看作是生物视觉的一个补充。在生物视觉领域中，人类和各种动物的视觉都得到了研究，从而建立了这些视觉系统感知信息过程中所使用的物理模型。另一方面，在计算机视觉中，靠软件和硬件实现的人工智能系统得到了研究与描述。生物视觉与计算机视觉进行的学科间交流为彼此都带来了巨大价值。计算机视觉包含如下一些分支：画面重建，事件监测，目标跟踪，目标识别，机器学习，索引建立，图像恢复等。1.1 计算机视觉与其他科学领域的关系计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域，是一门综合性的学科，其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。在信号处理领域，计算机视觉与图像处理，图像分析，机器人视觉和机器视觉等学科有着紧密的联系。虽然在某些方面各学科之间存在着重叠的方向，但各个领域又存在着差异。计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景，例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容。图像处理与图像分析的研究对象主要是二维图像，实现图像的转化，尤其针对像素级的操作，例如提高图像对比度，边缘提取，去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的具体内容无关。而机器视觉主要是指工业领域的视觉研究，例如自主机器人的视觉，用于检测和测量的视觉。这表明在这一领域通过软件硬件，图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作。同时，模式识别是使用各种方法从信号中提取信息，主要运用统计学的理论。其中一个主要方向便是从图像数据中提取信息。还有一个领域被称为成像技术，它最初的研究内容主要是制作图像，但有时也涉及到图像分析和处理。例如，医学成像就包含大量的医学领域的图像分析。1.2 计算机视觉发展计算机是觉得发展可以追溯到上世纪五十年代，当时模式识别的重要内容是二维图像分析和识别，如光学字符识别、工件表面、显微图片和航空图片的分析和解释等。这是计算机视觉产生的基础。作为一门学科，计算机视觉开始于 60 年代初，麻省理工大学的Roberts通过计算机程序从数字图像中提取出了诸如立方体、楔形体、棱柱体等多面体的三维结构，并对物体形状及物体的控件关系进行描述。这项研究开创了以理解三维场景为目的的三维计算机视觉的研究。 Roberts 对积木世界的创造性研究给人们以极大地启发，使许多人相信，一旦由白色积木玩具组成的三维世界可以被理解，则可以推广到理解更复杂的三维场景。70年代中期，麻省理工大学人工智能实验室正式开设“计算机视觉”课程，由B.K.P.Horn教授讲授。David Marr教授于1973年应邀在MIT的AI实验室领导一个以博士生为主体的研究小组，并于1977年提出了不同于“积木世界”分析方法的计算视觉理论一Marr理论。Marr理论一经提出，便成为了计算机视觉研究领域中的一个十分重要的理论框架。计算机视觉从此获得蓬勃发展，新概念、新方法、新理论、新应用不断涌现，比如，基于感知特征群的物体识别理论框架，主动视觉理论框架，视觉集成理论框架等。1.3 Marr的计算视觉理论Marr 的计算视觉理论立足于计算机科学，系统地概括了心理生理学、神经生理学等方面取得的所有重要成果，是视觉研究中迄今为止最为完善的视觉理论。Marr建立的视觉计算理论，使计算机视觉研究有了一个比较明确的体系，并大大推动了计算机视觉研究的发展。视觉研究的最终目标是要阐明视觉系统究竟是怎样完成视觉任务的。 Marr 理论认为:神经系统所作的信息处理与机器相似。视觉是一种复杂的信息处理任务，目的是要把握对我们有用的外部世界的各种情况，并把它们表达出来。这种任务必须在计算理论、算法和硬件实现这三个不同的层次上来理解。Marr对于计算机视觉理论的贡献不仅在与他将信息处理归纳成为三个层次，同时在于从信息处理的观点出发他将视觉处理的整个理论框架表达了出来。这个框架向我们提供了一个解决视觉问题的新的策略。这个理论框架主要由视觉所建立、保持、并予以解释的三级表象结构组成，即：1. 基元图：由于图像的密度变化可能与物体边界这类具体的物理性质相对应，因此它主要描述图像的密度变化及其局部几何关系。例如，抽取图像中的角点、边缘、纹理、线条、边界等基本特征。2. 2.5 维图：是指在与观测者为中心的坐标系中，由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等，这些信息包含了深度信息，但不是真正的物体三维表示。3. 3 维模型表象：是在以物体为中心的坐标中，由输入图像、基元图、二维半图来恢复、表示和识别物体的三维形状表象。根据 Marr 的观点，各种不同的视觉处理凑在一起产生各级表象，在表象中它们有机地结合起来（如图 1 所示）。把视觉处理看成是一组相对独立的功能块，这一思想特别重要，也特别有用。它不但有计算的、进化论的、方法论的论据支持，而且更重要的是某些视觉功能块已经用实验方法分离出来。主要表象解码处理（视觉功能块）基元图原始的基元图完全的基元图2.5维图3维模型表象提取零交叉点提取（线段）终端萤光透明度符号集群并合体视方向选择性表面轮廓遮挡轮廓表面质地荫影运动结构视动图像自然坐标轴的辨识以观察着为中心的坐标转换成以物体为中心的坐标图 1 视觉信息处理的理论框架Marr 理论是计算机视觉研究领域的划时代成就，但该理论不是十分完善的，许多方面还有争议。比如：视觉处理框架基本上是自下而上，没有反馈同时也没有足够的重视知识的应用。但不可否认，Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法，同时也给计算机视觉研究领域创造了许多研究起点。2 计算机视觉的应用计算机视觉被称为自动化的眼睛，在国民经济、科学研究及国防建设等领域都有着广泛的应用。视觉的最大优点是与被观测的对象无接触，由此对观测与被观测者都不会产生任何损伤，十分安全可靠，这是其他感觉方式无法比拟的。另外视觉方法所能检测的对象十分广泛，可以说是对对象不加选择。理论上，人眼观察不到的范围计算机视觉也可以观察，例如红外线、微波、超声波等人类就观察不到。而计算机视觉则可以利用这方面的敏感器件形成红外线、微波、超声波等图像。因此可以说是扩展了人类视觉范围。另外，由于人无法长时间地观察对象，而计算机视觉则不知疲劳，如始如一地观测，所以计算机视觉可以广泛地用于长时问恶劣的工作环境。计算机视觉已经大量应用于工业生产的各个方面，例如在对烟叶品质进行图像处理过程中，借助 MATLAB 图像处理工具箱和神经网络技术，对各种类型的烟叶的数字图像进行计算机视觉分析，用图像工具箱抽取烟叶数字图像特征，将待测烟叶样本与标准烟叶样本进行对比，最后达到自动识别待测烟叶样本的品质的智能评定。又如在生产线上部件安装、自动焊接，切割加工，大规模集成电路生产线上自动连接引线、对准芯片和封装，石油、煤矿等地质钻探中数据流自动监测和滤波，在纺织、印染业进行自动分色、配色都有着广泛的应用。近年来人脸识别技术在商业上和法律上有大量应用，如身份证、护照、信用卡、驾驶执照与实际持证人的核对，视频监控系统中的人物跟踪、Video图像的实时匹配、公安系统的犯罪身份识别、银行及海关的监控系统和自动门卫系统等。它是利用计算机对人脸图像进行分析，从中提取有效的识别信息，用来 “辨别” 身份的一门技术。它涉及到图像处理、模式识别、计算机视觉和神经网络等。XCT、放射性同位素扫描、B型超声、核磁共振成像，是现代医学的四大成像技术。B超检测系统通过有规律的发射超声波，接受从人体发射回来的声音信号，形成灰度声图像线密度值。XCT根据x射线对人体组织各部分具有不同的透过和吸收作用的性质，利用CT图像重建技术对穿过人体截面的X扫描线进行测量和运算，重建人体内部的立体图像。x光机的图像处理系统可进行导管定标、血管造影及血管动态分析。通过对x光图像的处理，可以分辨关节等部分的细节，甚至人体内的胆结石。利用计算机视觉的方法，对心血管管医学图像进行建模和分析，结合心脏动态特征和临床知识对医学动态图像进行定量的运动分析，为医生的诊断和分析心血管疾病提供了一个有效的工具和途径。发达国家将计算机视觉技术应用于农作物种子质量检验评价，至今已经取得了较大发展。例如，通过计算机视觉技术来评价蚕豆品质的方法。这一理论提出用两种不同的离散方法来区分合格、破损、过小、异类蚕豆和石头。利用彩色图像中提取的 35 个特征参数进行分类，分类结果与判别分析统计分类结果相比有较好的一致度。另外在农业机械自动化方面，计算机视觉系统为蘑菇采摘机器提供分类所需的尺寸、面积信息，并引导机器手准确抵达待采摘蘑菇的中心位置，实现抓取。总之，计算机视觉的应用是多方面的。它已经取得并将继续取得越来越广泛的应用。3 课程感想3.1 基于计算机视觉的人体运动分析近年来，人体运动分析是计算机视觉领域的热点之一，其基本任务是从摄像机摄取的视频图像序列中，跟踪一些关键点或部分（关节），将其转换成有用的数学术语，然后合并恢复人体的结构参数，并对人的行为进行识别、判断、跟踪与理解，进而实现计算机的智能监控、虚拟现实、智能接口、运动分析等应用。基于计算机视觉的人体运动分析大致可分为四个过程：运动目标检测、运动目标分类、人体运动跟踪和行为识别与描述。1. 运动目标检测。运动目标检测的目的是从视频序列中将运动目标提取出来。运动目标的有效提取对于目标分类、跟踪、行为识别与理解等后续步骤十分重要背景图像的动态变化，例如背景小幅度运动（树叶摇晃等）、光照变化、摄像机运动等，都会给运动目标提取带来困难。按照摄像机的运动，可将运动目标检测分为摄像机静止和摄像机运动两类，摄像机静止相对容易处理。主要方法有背景减除法、最小化能量法、时间差分法和光流法。2. 运动目标分类。主要方法有基于图像信息的分类方法和基于运动信息的分类法。基于图像信息的分类方法利用图像的形状、边缘、颜色、纹理等信息从多个运动目标中区分出人体。基于运动信息的分类方法利用人体运动的周期性来区分出人体运动目标。3. 人体运动跟踪。其目的是从图像序列中获得连续的人体位置和姿态信息，人体运动跟踪是行为识别和理解的基础。根据是否建立人体模型，可将人体运动跟踪方法分为无模型跟踪和基于模型的跟踪。4. 行为识别与描述。行为识别是一个模式识别问题，将测试序列与预先标定的代表典型行为的参考序列进行匹配，以确定测试序列的行为类别。行为识别的困难在于：摄像机视角的变化，人体行为持续时间的变化，以及视频序列中包含未知的行为等。行为的语义描述应用自然语言的概念，选择一组运动词语或短句来描述场景中运动目标的行为。人体运动分析主要应用于医学和体育领域。在医学方面，可以利用运动分析对病人进行步态分析。在体育方面，可以通过对运动员的运动分析帮助他们提高运动技能。针对现阶段的研究以及应用领域的不同要求，人体运动分析存在着如下的研究热点和可能的趋势：1. 由单摄像机转向多摄像机。融合多摄像机之间的数据来克服难题。2. 减少过多的假设，或降低对环境，人体的各种限制，提高初始化的自动程度。3. 有效地组合各种数据,使跟踪系统更加健壮（保证长时间的跟踪，不过多的依赖于初始化，消除累积错误的影响,自动从因遮挡，变焦，帧间变化太大失败中恢复）。4. 从语音识别中获得启发，记录并标记大量的训练数据，表示为一些原子语言，利用原子语言将估计问题变为识别问题，训练集合可以用商业系统或图形学方法生成。5. 利用统计理论和机器学习理论对人体运动进行自动建模。使用图形学的相关技术，使用更精细的人体模型。3.2 计算机视觉在体育中的应用在查阅相关的文献资料后发现：人体运动分析作为当下计算机视觉研究的热点之一，得到了较为广泛的应用。例如，在访问控制场合，通过人脸识别、步态分析等来决定是否允许其进入该安全区域；在银行、飞机场等对安全要求较敏感的场合，监测场景并对出现者的可疑行为发出报警；或者利用视觉信息来完成更加有效的人机交互等但由于技术以及相关知识的局限性，计算机视觉在体育方面并没有得到广泛的应用。如何将计算机视觉与体育运动结合可能会成为以后的研究方向。现有的运动分析软件如 Dartfish、SIMI SCOUT 无法在体育科学中得到普及，主要与其软、硬件价格、便携式录像采集和图像处理系统的应用有关。设计实用并且能普及的运动分析软件是我今后想要研究的方向。其涵盖的基本功能有：1. 通过视频图像的采集，连续采集关键时的图像，制作成连续的技术动作图片，再以此形式输出，清晰解读各动作表现.2. 可在同一背景下将运动员的连续多个技术动作图像提取在同一画面内，合成一个完整的技术图片，便于在同一背景下更清晰地观察分析运动特征的连续变化过程。3. 对运动员的技术图像进行三维解析，模拟出运动技术的三维仿真图片，以便观察和分析运动技术的完整情况。结合计算机视觉，我们可以描述动员人体的运动轨迹及 3D 投影图,通过计算机视觉技术管理运动员档案及个人素质、比赛实况、技术动作、数字化流媒体视频资料等数据。将体育教学与训练中单纯通过语言进行交流和指导的传统方式，代以视觉和图像等手段，更直观、更快速地向人们反馈。也可通过计算机技术无需中断比赛和训练，就可及时发现运动中问题，使训练或比赛中的关键环节由“不可见”变为“可见”，使体育指导由“抽象”变为“具体”，由“主观”变为“客观”，使训练经验由“独享”变为“共享”。参考文献1 T.Poggio,姚国正.莫尔（D.Marr）的视觉计算理论J.世界科学，1984, 9： 33-35.2 马颂德，张正友.计算机视觉：计算理论与算法基础M.北京:科学出版社, 1998. 250-259吴楚林.计算机视觉识别技术的应用J.跨世纪，2008，8（16）： 249-250.4 Christopher Richard Wren， Ali Azarbayejani， Trevor Darrell， Alex Paul Pentland. Pfinder： Real-Time Tracking of the Human Body J. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE， 1997， 19（7）： 780-785.黎洪松，李达人体运动分析研究的若干新进展J.模式识别与人工智能， 2009， 1（22）：70-78. 李豪杰，林守勋，张勇东基于视频的人体运动捕捉综述J.计算机辅助设计与图形学学报, 2006， 11（18）：1643-1651.7 http：/zh.wikipedia.org/zh-cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8 %A%86%E8%A7%89. 2010-12-15.8 http：/www.china- 2010-12-15.

展开阅读全文

计算机视觉专业导论论文

最新文档