计算机视觉专业导论论文

上传人:jin****ng 文档编号:190492131 上传时间:2023-02-28 格式:DOCX 页数:8 大小:26.81KB
返回 下载 相关 举报
计算机视觉专业导论论文_第1页
第1页 / 共8页
计算机视觉专业导论论文_第2页
第2页 / 共8页
计算机视觉专业导论论文_第3页
第3页 / 共8页
点击查看更多>>
资源描述
1 计算机视觉概述人类对外界世界信息的感知 80%以上是通过视觉得到的。随着信号处理理论 与计算机的出现,人们试图用摄像机获取环境图像并将其转换成数字信号,用计 算机实现对视觉信息处理的全过程,这样就形成了一门新兴的学科计算机视 觉。计算机视觉是一门研究如何使机器“看”的科学,具体的说,就是指用摄影 机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处 理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术是试图建立能够从图 像或者多维数据中获取“信息”的人工智能系统。计算机视觉的研究目标是使计 算机具有通过二维图像认识三维环境信息的能力。这种能力不仅使机器能感知三 维环境总物体的几何信息,包括它的形状、位置、姿态、运动等,而且能对它们 进行描述、储存、识别与理解,最终使计算机能象人那样通过视觉观察和理解世 界,具有自主适应环境的能力。作为一个工程学科,计算机视觉寻求基于相关理论与模型来建立计算机视觉 系统。这类系统的组成部分包括:1. 程序控制(例如工业机器人和无人驾驶汽车)2. 事件监测(例如图像监测)3. 信息组织(例如图像数据库和图像序列的索引建立)4. 物体与环境建模(例如工业检查,医学图像分析和拓扑建模)5. 交感互动(例如人机互动的输入设备)计算机视觉同样可以被看作是生物视觉的一个补充。在生物视觉领域中,人 类和各种动物的视觉都得到了研究,从而建立了这些视觉 系统感知信息过程中 所使用的物理模型。另一方面,在计算机视觉中,靠软件和硬件实现的人工智能 系统得到了研究与描述。生物视 觉与计算机视觉进行的学科间交流为彼此都带 来了巨大价值。计算机视觉包含如下一些分支:画面重建,事件监测,目标跟踪,目标识别, 机器学习,索引建立,图像恢复等。1.1 计算机视觉与其他科学领域的关系计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领 域,是一门综合性的学科,其中包括计算机科学和工程、信号处理、物理学、应 用数学和统计学,神经生理学和认知科学等。在信号处理领域,计算机视觉与图像处理,图像分析,机器人视觉和机器视 觉等学科有着紧密的联系。虽然在某些方面各学科之间存在着重叠的方向,但各 个领域又存在着差异。计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景,例如三 维场景的重建。计算机视觉的研究很大程度上针对图像的内容。图像处理与图像 分析的研究对象主要是二维图像,实现图像的转化,尤其针对像素级的操作,例 如提高图像对比度,边缘提取,去噪声和几何变换如图像旋转。这一特征表明无 论是图像处理还是图像分析其研究内容都和图像的具体内容无关。而机器视觉主 要是指工业领域的视觉研究,例如自主机器人的视觉,用于检测和测量的视觉。 这表明在这一领域通过软件硬件,图像感知与控制理论往往与图像处理得到紧密 结合来实现高效的机器人控制或各种实时操作。同时,模式识别是使用各种方法 从信号中提取信息,主要运用统计学的理论。其中一个主要方向便是从图像数据 中提取信息。还有一个领域被称为成像技术,它最初的研究内容主要是制作图像, 但有时也涉及到图像分析和处理。例如,医学成像就包含大量的医学领域的图像 分析。1.2 计算机视觉发展计算机是觉得发展可以追溯到上世纪五十年代,当时模式识别的重要内容是 二维图像分析和识别,如光学字符识别、工件表面、显微图片和航空图片的分析 和解释等。这是计算机视觉产生的基础。作为一门学科,计算机视觉开始于 60 年代初,麻省理工大学的Roberts通过计算机程序从数字图像中提取出了诸如立 方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的控件关系进 行描述。这项研究开创了以理解三维场景为目的的三维计算机视觉的研究。 Roberts 对积木世界的创造性研究给人们以极大地启发,使许多人相信,一旦由 白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场 景。70年代中期,麻省理工大学人工智能实验室正式开设“计算机视觉”课程, 由B.K.P.Horn教授讲授。David Marr教授于1973年应邀在MIT的AI实验室领 导一个以博士生为主体的研究小组,并于1977年提出了不同于“积木世界”分 析方法的计算视觉理论一Marr理论。Marr理论一经提出,便成为了计算机视觉 研究领域中的一个十分重要的理论框架。计算机视觉从此获得蓬勃发展,新概念、 新方法、新理论、新应用不断涌现,比如,基于感知特征群的物体识别理论框架, 主动视觉理论框架,视觉集成理论框架等。1.3 Marr的计算视觉理论Marr 的计算视觉理论立足于计算机科学,系统地概括了心理生理学、神经生理学等方面取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论。Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系, 并大大推动了计算机视觉研究的发展。视觉研究的最终目标是要阐明视觉系统究竟是怎样完成视觉任务的。 Marr 理论认为:神经系统所作的信息处理与机器相似。视觉是一种复杂的信息处理任 务,目的是要把握对我们有用的外部世界的各种情况,并把它们表达出来。这种 任务必须在计算理论、算法和硬件实现这三个不同的层次上来理解。Marr对于计算机视觉理论的贡献不仅在与他将信息处理归纳成为三个层次, 同时在于从信息处理的观点出发他将视觉处理的整个理论框架表达了出来。这个 框架向我们提供了一个解决视觉问题的新的策略。这个理论框架主要由视觉所建 立、保持、并予以解释的三级表象结构组成,即:1. 基元图:由于图像的密度变化可能与物体边界这类具体的物理性质相对 应,因此它主要描述图像的密度变化及其局部几何关系。例如,抽取图像中的角 点、边缘、纹理、线条、边界等基本特征。2. 2.5 维图:是指在与观测者为中心的坐标系中,由输入图像和基元图恢复 场景可见部分的深度、法线方向、轮廓等,这些信息包含了深度信息,但不是真 正的物体三维表示。3. 3 维模型表象:是在以物体为中心的坐标中,由输入图像、基元图、二维 半图来恢复、表示和识别物体的三维形状表象。根据 Marr 的观点,各种不同的视觉处理凑在一起产生各级表象,在表象中 它们有机地结合起来(如图 1 所示)。把视觉处理看成是一组相对独立的功能块, 这一思想特别重要,也特别有用。它不但有计算的、进化论的、方法论的论据支 持,而且更重要的是某些视觉功能块已经用实验方法分离出来。主要表象解码处理(视觉功能块)基元图原始的基元图完全的基元图2.5维图3维模型表象提取零交叉点 提取(线段)终端 萤光透明度符号集群并合 体视 方向选择性 表面轮廓 遮挡轮廓 表面质地 荫影 运动结构 视动图像 自然坐标轴的辨识 以观察着为中心的坐标转换成以物体为中心的坐标图 1 视觉信息处理的理论框架Marr 理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的, 许多方面还有争议。比如:视觉处理框架基本上是自下而上,没有反馈同时也没 有足够的重视知识的应用。但不可否认,Marr理论给了我们研究计算机视觉许 多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起 点。2 计算机视觉的应用计算机视觉被称为自动化的眼睛,在国民经济、科学研究及国防建设等领域 都有着广泛的应用。视觉的最大优点是与被观测的对象无接触,由此对观测与被 观测者都不会产生任何损伤,十分安全可靠,这是其他感觉方式无法比拟的。另 外视觉方法所能检测的对象十分广泛,可以说是对对象不加选择。理论上,人眼 观察不到的范围计算机视觉也可以观察,例如红外线、微波、超声波等人类就观 察不到。而计算机视觉则可以利用这方面的敏感器件形成红外线、微波、超声波 等图像。因此可以说是扩展了人类视觉范围。另外,由于人无法长时间地观察对 象,而计算机视觉则不知疲劳,如始如一地观测,所以计算机视觉可以广泛地用 于长时问恶劣的工作环境。计算机视觉已经大量应用于工业生产的各个方面,例如在对烟叶品质进行图 像处理过程中,借助 MATLAB 图像处理工具箱和神经网络技术,对各种类型的 烟叶的数字图像进行计算机视觉分析,用图像工具箱抽取烟叶数字图像特征,将 待测烟叶样本与标准烟叶样本进行对比,最后达到自动识别待测烟叶样本的品质 的智能评定。又如在生产线上部件安装、自动焊接,切割加工,大规模集成电路 生产线上自动连接引线、对准芯片和封装,石油、煤矿等地质钻探中数据流自动 监测和滤波,在纺织、印染业进行自动分色、配色都有着广泛的应用。近年来人脸识别技术在商业上和法律上有大量应用,如身份证、护照、信用 卡、驾驶执照与实际持证人的核对,视频监控系统中的人物跟踪、Video图像的 实时匹配、公安系统的犯罪身份识别、银行及海关的监控系统和自动门卫系统等。 它是利用计算机对人脸图像进行分析,从中提取有效的识别信息,用来 “辨别” 身份的一门技术。它涉及到图像处理、模式识别、计算机视觉和神经网络等。XCT、放射性同位素扫描、B型超声、核磁共振成像,是现代医学的四大 成像技术。B超检测系统通过有规律的发射超声波,接受从人体发射回来的声音 信号,形成灰度声图像线密度值。XCT根据x射线对人体组织各部分具有不 同的透过和吸收作用的性质,利用CT图像重建技术对穿过人体截面的X扫描线 进行测量和运算,重建人体内部的立体图像。x光机的图像处理系统可进行导管 定标、血管造影及血管动态分析。通过对x光图像的处理,可以分辨关节等部分 的细节,甚至人体内的胆结石。利用计算机视觉的方法,对心血管管医学图像进 行建模和分析,结合心脏动态特征和临床知识对医学动态图像进行定量的运动分 析,为医生的诊断和分析心血管疾病提供了一个有效的工具和途径。发达国家将计算机视觉技术应用于农作物种子质量检验评价,至今已经取得 了较大发展。例如,通过计算机视觉技术来评价蚕豆品质的方法。这一理论提出 用两种不同的离散方法来区分合格、破损、过小、异类蚕豆和石头。利用彩色图 像中提取的 35 个特征参数进行分类,分类结果与判别分析统计分类结果相比有 较好的一致度。另外在农业机械自动化方面,计算机视觉系统为蘑菇采摘机器提 供分类所需的尺寸、面积信息,并引导机器手准确抵达待采摘蘑菇的中心位置, 实现抓取。总之,计算机视觉的应用是多方面的。它已经取得并将继续取得越来越广泛 的应用。3 课程感想3.1 基于计算机视觉的人体运动分析近年来,人体运动分析是计算机视觉领域的热点之一,其基本任务是从摄像 机摄取的视频图像序列中,跟踪一些关键点或部分(关节),将其转换成有用的 数学术语,然后合并恢复人体的结构参数,并对人的行为进行识别、判断、跟踪 与理解,进而实现计算机的智能监控、虚拟现实、智能接口、运动分析等应用。基于计算机视觉的人体运动分析大致可分为四个过程:运动目标检测、运动 目标分类、人体运动跟踪和行为识别与描述。1. 运动目标检测。运动目标检测的目的是从视频序列中将运动目标提取出 来。运动目标的有效提取对于目标分类、跟踪、行为识别与理解等后续步骤十分 重要背景图像的动态变化,例如背景小幅度运动(树叶摇晃等)、光照变化、 摄像机运动等,都会给运动目标提取带来困难。按照摄像机的运动,可将运动目 标检测分为摄像机静止和摄像机运动两类,摄像机静止相对容易处理。主要方法 有背景减除法 、最小化能量法、时间差分法和光流法。2. 运动目标分类。主要方法有基于图像信息的分类方法和基于运动信息的 分类法。基于图像信息的分类方法利用图像的形状、边缘、颜色、纹理等信息从 多个运动目标中区分出人体。基于运动信息的分类方法利用人体运动的周期性来 区分出人体运动目标。3. 人体运动跟踪。其目的是从图像序列中获得连续的人体位置和姿态信息, 人体运动跟踪是行为识别和理解的基础。根据是否建立人体模型,可将人体运动 跟踪方法分为无模型跟踪和基于模型的跟踪。4. 行为识别与描述。行为识别是一个模式识别问题,将测试序列与预先标 定的代表典型行为的参考序列进行匹配,以确定测试序列的行为类别。行为识别 的困难在于:摄像机视角的变化,人体行为持续时间的变化,以及视频序列中包 含未知的行为等。行为的语义描述应用自然语言的概念,选择一组运动词语或短 句来描述场景中运动目标的行为。人体运动分析主要应用于医学和体育领域。在医学方面,可以利用运动分析 对病人进行步态分析。在体育方面,可以通过对运动员的运动分析帮助他们提高 运动技能。针对现阶段的研究以及应用领域的不同要求,人体运动分析存在着如 下的研究热点和可能的趋势:1. 由单摄像机转向多摄像机。融合多摄像机之间的数据来克服难题。2. 减少过多的假设,或降低对环境,人体的各种限制,提高初始化的自动 程度。3. 有效地组合各种数据,使跟踪系统更加健壮(保证长时间的跟踪,不过多 的依赖于初始化,消除累积错误的影响,自动从因遮挡,变焦,帧间变化太大失 败中恢复) 。4. 从语音识别中获得启发,记录并标记大量的训练数据,表示为一些原子 语言,利用原子语言将估计问题变为识别问题,训练集合可以用商业系统或图形 学方法生成。5. 利用统计理论和机器学习理论对人体运动进行自动建模。使用图形学的 相关技术,使用更精细的人体模型。3.2 计算机视觉在体育中的应用在查阅相关的文献资料后发现:人体运动分析作为当下计算机视觉研究的热 点之一,得到了较为广泛的应用。例如,在访问控制场合,通过人脸识别、步态 分析等来决定是否允许其进入该安全区域;在银行、飞机场等对安全要求较敏感 的场合,监测场景并对出现者的可疑行为发出报警;或者利用视觉信息来完成更 加有效的人机交互等但由于技术以及相关知识的局限性,计算机视觉在体育方面并没有得到广泛 的应用。如何将计算机视觉与体育运动结合可能会成为以后的研究方向。现有的 运动分析软件如 Dartfish、SIMI SCOUT 无法在体育科学中得到普及,主要与其 软、硬件价格、便携式录像采集和图像处理系统的应用有关。设计实用并且能普及的运动分析软件是我今后想要研究的方向。其涵盖的基 本功能有:1. 通过视频图像的采集,连续采集关键时的图像,制作成连续的技术动作 图片,再以此形式输出,清晰解读各动作表现.2. 可在同一背景下将运动员的连续多个技术动作图像提取在同一画面内, 合成一个完整的技术图片,便于在同一背景下更清晰地观察分析运动特征的连续 变化过程。3. 对运动员的技术图像进行三维解析,模拟出运动技术的三维仿真图片, 以便观察和分析运动技术的完整情况。结合计算机视觉,我们可以描述动员人体的运动轨迹及 3D 投影图,通过计算 机视觉技术管理运动员档案及个人素质、比赛实况、技术动作、数字化流媒体视 频资料等数据。将体育教学与训练中单纯通过语言进行交流和指导的传统方式, 代以视觉和图像等手段,更直观、更快速地向人们反馈。也可通过计算机技术无 需中断比赛和训练,就可及时发现运动中问题,使训练或比赛中的关键环节由“不 可见”变为“可见”,使体育指导由“抽象”变为“具体”,由“主观”变为“客 观”,使训练经验由“独享”变为“共享”。参考文献1 T.Poggio,姚国正.莫尔(D.Marr)的视觉计算理论J.世界科学,1984, 9: 33-35.2 马颂德,张正友.计算机视觉:计算理论与算法基础M.北京:科学出版社, 1998. 250-259吴楚林.计算机视觉识别技术的应用J.跨世纪,2008,8(16): 249-250.4 Christopher Richard Wren, Ali Azarbayejani, Trevor Darrell, Alex Paul Pentland. Pfinder: Real-Time Tracking of the Human Body J. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 1997, 19(7): 780-785.黎洪松,李达人体运动分析研究的若干新进展J.模式识别与人工智能, 2009, 1(22):70-78. 李豪杰,林守勋,张勇东基于视频的人体运动捕捉综述J.计算机辅助设 计与图形学学报, 2006, 11(18):1643-1651.7 http:/zh.wikipedia.org/zh-cn/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8 %A%86%E8%A7%89. 2010-12-15.8 http:/www.china- 2010-12-15.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!