BP神经网络方法对车牌照字符的识别毕业设计

上传人:QQ40****828 文档编号:442453 上传时间:2018-10-02 格式:DOC 页数:71 大小:1.09MB
返回 下载 相关 举报
BP神经网络方法对车牌照字符的识别毕业设计_第1页
第1页 / 共71页
BP神经网络方法对车牌照字符的识别毕业设计_第2页
第2页 / 共71页
BP神经网络方法对车牌照字符的识别毕业设计_第3页
第3页 / 共71页
点击查看更多>>
资源描述
武汉科技大学本科毕业设计(论文)第 I 页摘 要为了对车牌字符的识别,本文将 BP 神经网络应用于汽车车牌的自动识别,在车牌图像进行预处理后的基础上,重点讨论了用 BP 神经网络方法对车牌照字符的识别。 首先将训练样本做图像预处理,对车牌上的字符进行分割,得到单个字符。对大小不一的字符做归一化后,对字符进行特征提取,把长为 15,宽为 25 的归一化后的图像中的字符信息提取出来,图像中白点置为 0,图像中的黑点置为 1,这样就得到了 1525 的特征向量,这个特征向量记录的就是字符的特征。把这个特征向量送到 BP 网络中进行训练,得到了训练好的权值,把他保存到“win.dat”和“whi.dat”中。然后打开要识别的图片(即车牌) ,对图像进行预处理后就可以识别了。识别率也在 90%以上,表明该方法的有效性。关键字:车牌识别;LPR;字符识别;特征提取; BP 神经网络;武汉科技大学本科毕业设计(论文)第 II 页AbstractFor the discernment to the number plate character, this text applies BP neural network to the automatic discernment of the automobile number plate, on the basis that the number plate picture goes on in advance treated , is it use BP neural network method to car discernment , license plate of character to discuss especially. Will train samples to do the pretreatment of the picture at first, character in number plate cut apart, get the individual character. After making normalization to the character not of uniform size, drew the characteristic to the character 15, wide to draw out for character information of 25 picture behind the normalization, picture white point it puts to be 0, black point of picture is it as 1 , receive 15* 25 characteristic vector quantity like this to put, what the vector quantity of this characteristic is written down is the characteristic of the character . Send the characteristic vector quantity BP network train, get good right value of training, keep him in win.dat and whi.dat. Open picture (namely number plate) discerned to want, go on to picture in advance treated to can discern. The discerning rate is above 90% too; show the validity of this method.Key word:The number plate discerning;The character discerning;LPR;The characteristic is drawn;BP neural network;武汉科技大学本科毕业设计(论文)第 III 页目 录摘要.ABSTRACT.第一章 概述.11.1 基本概念 11.2 字符识别简介 21.2.1 字符识别发展概况 .21.2.2 字符识别系统用到的方法 .31.2.3 字符识别原理.41.3 国内外研究现状和发展趋势 51.4 基于神经网络的字符识别系统 61.4.1 系统简介61.4.2 系统的基本技术要求71.4.3 系统的软硬件平台.7第二章 字符识别系统中的关键技术.82.1 特征提取 82.1.1 基本概念82.1.2 区域内部的数字特征 .102.1.3 基于边界的形状特征 .132.2 神经网络 182.2.1 人工神经元 182.2.2 人工神经网络构成 .222.2.3 人工神经网络的学习规则232.2.4 BP 神经网络 .24第三章 系统的实现.313.1 系统流程图 313.2 程序实现 313.3 程序的总体框架 36第四章 系统使用说明、测试及注意事项.37武汉科技大学本科毕业设计(论文)第 IV 页4.1 系统使用说明 374.2 系统测试 394.2.1 数字识别 394.2.2 字母识别 404.2.3 汉字识别 404.2.4 车牌识别 414.3 注意事项 41第五章 结论和展望.42致谢.43参考文献.44外文原文与译文.46 外文原文46 译文57武汉科技大学本科毕业设计(论文)第 0 页第一章 概 述1.1 基本概念随着 21 世纪经济全球化和信息时代的到来,计算机技术、通信技术和计算机网络技术迅猛发展,自动化的信息处理能力和水平不断提高,并在人们社会活动和生活的各个领域得到广泛应用。高速度、高效率的生活节奏,使汽车普及成为必然趋势,交通管理自动化越来越成为亟待解决的问题。在这种情况下,作为信息来源的自动检测、图像识别技术越来越受到人们的重视。目前指纹识别、视网膜识别技术已经到了实用阶段;声音识别技术发展也相当快,而对汽车牌照等相关信息的自动采集和管理对于交通车辆管理、园区车辆管理、停车场管理、交警稽查等方面有着十分重要的意义,成为信息处理技术的一项重要研究课题。车辆牌照识别(License Plate Recognition, LPR)技术作为交通管理自动化的重要手段,其任务是分析、处理汽车监控图像,自动识别汽车牌号,并进行相关智能化数据库管理。LPR 系统可以广泛应用于高速公路电子收费站、出入控制、公路流量监控、失窃车辆查询、停车场车辆管理、公路稽查、监测黑牌机动车、监控违章车辆的电子警察等需要车牌认证的重要场合,尤其在高速公路收费系统中,实现不停车收费技术可提高公路系统的运行效率,LPR 系统更具有不可替代的作用,因而对 LPR 车牌识别技术的研究和应用系统开发具有重要的现实意义。LPR 系统中的两个关键子系统是车牌定位系统和车牌字符分割识别系统。关于车牌识别技术及定位系统研究,国内外学者已经作了大量工作,但实际效果并不理想,对辅助光源要求高,很难有效解决复杂背景下多车牌识别的技术难题,如:车牌图像的倾斜、车牌表面污秽或磨损、光线干扰等都会影响定位的准确性。传统车牌识别一般仅支持单一车辆,背景比较简单。而当今许多实际应用场合,如在繁忙交通路口临时对欠税费报废挂失等车辆的稽查,则监视区域比较复杂,现有识别方法无法直接应用,一般同时出现多辆汽车,背景有广告牌、树木、建筑物、斑马线以及各种背景文字等。武汉科技大学本科毕业设计(论文)第 1 页车牌定位与识别方法,总体来说是图像处理技术与车牌本身特点的有机结合,当然也包括小波分析、神经网络、数学形态学、模糊理论等数学知识的有效运用。一个车牌定位与识别系统基本包括:图像预处理、车牌搜索、车牌定位、车牌校正、车牌字符分割和字符识别结果的输出。本系统主要是在对汽车图像进行细致分析,从而研究车牌定位与识别的算法问题。1.2 字符识别简介1.2.1 字符识别发展概况字符识别发展可分为三个阶段:第一个阶段为初级阶段,在这一阶段中,技术上是应用一维图像的处理方法完成二维图像的识别任务。这样萌芽了一个基本思想抽取特征向量的构造和它的相关函数。现在此法仍不失为一种重要的匹配方法。第二个阶段为基础理论研究阶段。提出了表示边界的链码法,用于结构分析的细化思想,以及一些离散图形上的拓扑性研究,形成了不仅能抽取局部特征, 而且能抽取大范围的凹凸区域、连通性、孔等特征的算法,完成了作为基础理论核心的“特征抽取理论” ,及所谓的 K-L 展开法工作。第三个阶段为发展阶段。这一阶段的研究工作是技术和实际相结合,针对实际系统的要求和设备可能提供的条件,提出了更为复杂的技术。但就多种方法分类来说为二大方法:相关法和构造解析法。在这两类方法的基础上,已研究出了不同类各具特色的实用系统。字符识别系统根据输入设备的不同有如下分类 19,如图 1.1 所示:武汉科技大学本科毕业设计(论文)第 2 页目前开展比较多,并进入实用阶段的是光学字符识别系统 (OCR 系统)。日本虽说起步不是最早,但因投入了大量的人力和物力,目前处于世界领先地位。七五年日本拥有 650 台光学字符识别机,进入了实用阶段。到一九七八年,能阅读英文字母、数字、片假名和平假名等 118 种 OCRT0300 上市。之后,其研究方向转向了汉字识别。我国是从七十年代开始字符研究的。一九七八年,中科院自动化研究所等合作研制出了“倍函自动化分检机” ,可识别 09 个数字;一九八七年清华大学研制的汉字识别系统通过了技术鉴定,可识别国家二级汉字库 6000 多字,识别率可达 99%,速度为 1 字/4 秒;一九八七年十二月,西安交大人工智能和机器人研究所研制的汉字识别系统也通过了技术鉴定,同样可识别汉字 6000 多,识别速度可达 1 字/1 秒,识别率达 98%以上,处于国内领先地位。这都为字符识别的实际应用提供了广阔的前景。1.2.2 字符识别系统用到的方法字符识别系统用到的方法很多。下面以表格的形式,其用到的方法作一简单的介绍和比较。统计决策 句法结构 模糊判决 逻辑推理 神经网络主要理 概率论 形式语言 模糊数学 演绎逻辑 神经生理学字符识别磁识别 光学识别 机械识别在线识别 脱机识别单个字符识别 连笔字符识别印刷体字符识别手写体字符识别图 1.1 字符识别分类表 1.1 几种识别方法的比较武汉科技大学本科毕业设计(论文)第 3 页论支柱 数理统计 自动机技术 布尔代数模式描述方法 特征向量符号串、树、图 模糊集合字符串表示的事实以不同活跃度表示的输入结点集模式类判定是一个聚合类。用条件概率分布 P(X| wi)表示,m 类就有m 个分布,然后判定未知模式属于哪一个分布。是一种语言。用一个文法表示一类,m类就有 m 个文法,然后判定未知模式遵循哪一个文法。是一种集合运算。用隶属度将模糊集合划分为若干子集,m 类就有 m 个子集,然后根据择近原则分类。是一种布尔演算。从事实出发运用一系列规则,推理得到不同结果,m 类就有 m 个结果。是一个非线性动态系统。通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的记忆。主要方法几何分类:线性分类、非线性分类统计分类:Bayes决策无教师的分类:聚类分析自动机技术CYK 剖析算法Early 算法转移图法隶属度函数的设计:模糊设计法二元对比排序法推理法模糊集运算规则模糊矩阵产生式推理语义网推理框架推理BP 模型HOP 模型高阶网主要优缺点优点:比较成熟,能考虑干扰、噪声等影响,识别模式基元能力强。缺点:对结构复杂的模式抽取特征困难。不能反映模式的结构特征,难以描述模式的性质,难以从整体考虑识别问题。优点:识别方便,可从简单的基元开始,由繁至简。能反映模式的结构特性,能描述模式的性质,对图像的畸变的抗干扰能力较强。缺点:当存在干扰及噪声时,抽取基元困难,且易失误。优点:由于用隶属度函数作为样品与模板间相似度的度量,故往往能反映它们整体的与主要的特性,从而允许样品有相当的干扰与畸变。缺点:准确合理的隶属度往往难以建立,故限制了它的应用。优点:已建立了关于知识表示及组织,目标搜索及匹配的完整体系。对需同过众多规则的推理达到目标确认的问题,有很好的效果。缺点:当样品有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。优点:可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。允许样品有较大的缺损和畸变。缺点:模型在不断丰富与完善中,目前能识别的程式类还不够多。武汉科技大学本科毕业设计(论文)第 4 页1.2.3 字符识别原理近年来,字符识别逐渐成为模式识别领域内的一个重要分支。和其他模式识别的应用一样,字符识别的基本思想也是匹配判别。抽取代表未知字符模式本质的表达形式 (如各种特征) 和预先存储在机器中的标准字符模式表达形式的集合 (称为字典) 逐一匹配,用一定的准则进行判别,在机器存储的标准字符模式表达形式的集合中,找出最接近输入字符模式的表达形式,该表达形式对应的字就是识别结果。字符识别的原理框图如图 1.2。字符识别的原理如上图所示。文字经光电扫描,模数转换为带灰度值的数字信号送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行字切分,二值化,规范化等。经过预处理,字符模式成为规范化的二值数字点阵信息。对该二值化汉字点阵,抽取一定的表达形式后,与存储在字典中已知的标准字符表达形式匹配判别,就可识别出输入的未知字符。图 1.3 中点划线以下是识别系统的学习部分。学习是根据多个未知字样抽取出模式表达形式,自动构造或修改充实字典,不断提高系统识别率。字符的模式表达形式和相应的字典形式有多种,每种形式又可以选择不同的特征,每种特征又有不同的抽取方法。这些就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多,形式各异的字符识别方法。1.3 国内外研究现状和发展趋势车牌识别技术自 1988 年以来,人们就对它进行了广泛的研究,目前国内外图 1.2 字符识别的原理框图预 处 理 模式表达 判 别字 典学 习识别部分学习部分教师字符图像武汉科技大学本科毕业设计(论文)第 5 页已经有众多的算法,一些实用的 LPR 技术也开始用于车流监控、出入控制、电子收费、移动稽查等场合。然而,无论是 LPR 算法还是 LPR 产品几乎都存在一定的局限性,都需要适应新的要求而不断完善,如现有系统几乎都无法有效解决复杂背景下的多车牌图像分割定位与有效识别的技术障碍,另外也很难适应全天候复杂环境及高速度的要求。车牌字符识别实际上是依附在车牌上的印刷体文字的识别,能否正确识别不仅是文字识别技术的问题,还是考虑其载体车牌区域的影响。车牌字符识别技术是文字识别技术与车牌图像自身因素协调兼顾的综合性技术。由于摄像机的性能、车牌的整洁度、光照条件、拍摄时的倾斜角度及车辆运动等因素的影响使牌照中的字符可能出现比较严重的模糊、歪斜、缺损或污迹干扰,这些都给字符识别带来了难度。尽管如此,我国依然有大量的学者从事车牌字符识别研究,文献给出了基于神经网络的车牌识别方法,对于解析度较高和图像比较清晰的车牌,这些方法能有效识别车牌中的字符,但对于较低解析度和较为模糊的车牌无能为力,因为这些方法只有在车牌中的每个字符被独立分割出来的前提下才能完成识别工作。而独立分割车牌取得字符,对较低解析度和较为模糊的车牌来说是非常困难的。车牌字符识别的研究在技术上已经取得了一定突破,然而离复杂多变的实际应用要求还有一定差距,许多新方法仅停留在理论和文章上或者限定在比较狭窄的约束范围内,并不能以产品的形式大范围投入使用。因而车牌字符识别的实用化研究仍然有很长的路要走。目前的车牌识别方法主要是针对车辆自动缓停收费、停车场管理等场合,所监视的区域一般只有单一车辆,背景也比较简单。而如今的许多实际应用场合,监视区域比较复杂,现有的方法无法直接应用。比如在移动交警稽查、高速公路的监视与监控、城市交通要道的监视与监控,所监控的区域一般会同时出现多辆汽车,背景也比较复杂,有广告牌、树木、建筑物、斑马线以及各种背景文字等。所以本课题针对这种情况创新性的提出了一种复杂背景下多车牌定位分割与识别方法,并考虑了彩色分割与 ColorLP 算法,这也是当前车牌图像识别的发展趋势。当然,车牌识别系统的具体应用发展也很迅猛,从原来的停车静止拍摄场景应用,如收费站、停车场等,发展到移动公路车辆稽查、违章自动报警、超载闯红灯等实时监控场合应用,增加神经网络自适应识别学习训练功能,对于武汉科技大学本科毕业设计(论文)第 6 页系统响应的速度、网络化、智能化、识别成功率等实用化要求也越来越高。随着上述核心技术的研究发展,应用领域和功能等也获得大幅提高。1.4 基于神经网络的字符识别系统1.4.1 系统简介该系统是为了辨认识别图像中的字符而设计的,它通过对图片的一系列处理,最后识别得出图片中显示的字符。 系统即可以单独使用,也可以把它作为一个识别系统的软件核心应用到车牌识别系统中去。1.4.2 系统的基本技术要求下面是系统具体要达到的基本技术要求1.输入图片中可以含有多个字符;2.字符的识别准确率大于90%;3.每张图片的处理时间(识别时间)不能大于1S;4.对图片噪声具有较强的适应性;5.系统要能长时间无故障的运行;6.系统的操作要求简单;1.4.3 系统的软硬件平台(1).系统的软件平台因为系统运行的过程当中,主要进行的都是图象处理,在这个过程当中要进行大量的数据处理,所以处理器和内存要求比较高,CUP要求主频在600HZ及其以上,内存在128MB及其 以上。(2).系统的软件平台系统可以运行于 Windows 98, Windows2000, Windows XP 或者 Windows 2003 操作系统下。程序调试时,需要使用 Microsoft Visual C+ 6.0(SP6)。武汉科技大学本科毕业设计(论文)第 7 页第二章 字符识别系统中的关键技术2.1 特征提取图像处理的高级阶段是数字图像分析(也对以称为图像理解) ,主要使用计算机系统,从图像中提取有用的数据或信息,生成非图像的描述或表示,如数值、符号等,即抽取图像特征,从而识别视觉图像。为了能让计算机系统认识图像,人们首先必须寻找出算法,分析图像的特征,然后将其特征用数学的办法表示出来并教会计算机也能读懂这些特征。这样,计算机才能具有认识或者识别图像的本领,称图像模式识别,也叫图像识别。要使计算机具有识别的本领,首先要得到图像的各种特征,即特征提取。图像特征是指图像的原始特性或属性。每一幅图像都有其本身的特征,其中有些是视觉直接感受到的自然特征,如亮度、边缘的轮廓、纹理或色彩等;有些是需要通过变换或测量才能得到的人为特征,如谱、直方图等。图像特征提取的结果给出了某一具体的图像中与其他图像相区别的特征。例如,描述物体表面灰度变化的纹理特征,描述物体外形的形状特征等。2.1.1 特征提取基本概念图像识别是根据一定的图像特征进行的,显然这些特征的选择很重要,它强烈地影响到图像识别分类器的设计、性能及其识别结果的准确性。特征选择错误,分类就个能分得准确,甚至无法分类。因此,特征选择是图像识别中的一个关键问题。由于实际问题中常常不容易找到那些最重要的特征,或者某些图像特征还会随着环境的变化而发生变化,这就使得特征的选择和提取复杂化。特征选择和提取的基本任务是如何从众多特征中找出那些最有效的特征。在样本数量不是很多的情况下,用很多特征进行分类器设计,从计算复杂程度和分类器性能来看都是不适宜的。因此研究如何把高维特征宁间压缩到低维特征空间以便有效地识别图像成为一个重要的课题,例如手写体文字识别的特征选择的研究已将近半个世纪,但依然是一个研究的难点和热点。武汉科技大学本科毕业设计(论文)第 8 页为了进行识别,需要把图像从测量空间变换到维数大大减少的特征空间,被识别的图像在这个特征空中就是由一个特征向量来表示。为了方便起见,对几个经常用道的有关名词作一些说明。1. 特征形成 根据待识别的图像,通过计算机产生一维原始特征,称之为特征形成。2. 特征提取原始特征的数量很大,或者说图像本身处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个过程叫做特征提取。映射后的特征是原始特征某种组合。所谓特征提取在广义上说是一种变换。3. 特征提取从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫做特征选择。目前几乎没有解析的方法能够知道特征的选择,很多情况下,凭直觉的引导可以列出一些可能的特征表,然后用特征排序的方法计算不同特征的识别效率。利用其结果对表进行删减,从而选出若干最好的特征。良好的特征应具备以下 4 个特点:(1) 可区别性。对属于不同类的图像来说,他们的特征应具备明显的差异。(2) 可靠性。对于不同类型的图像,特征值应该比较接近。例如,杂志封面的文字图像的分割中,颜色是一个不好的特征。因为,封面文字的颜色可以是各种色彩,尽管它们都属于文字图像。(3) 独立性好。所选择的特征之间彼此不相关。例如细胞的曲径和细胞的面积高度相关,因为面积大致与直径的平方成正比。这两个特征基本上反映的是相同的属性,即细胞的大小。但是,有时相关性很高的特征组合起来可以减少噪声干扰,它们一般不作为单独的特征使用。(4) 数量少。图像识别系统的复杂程度随着系统维数(特征的个数)迅速增长。尤为重要的是用来训练分类器和测试结果的图像样本随特征数量呈指数关系增长。而且,增加带噪声的特征或与现存特征相关性高的特征实际上会使识别系统的性能下降。武汉科技大学本科毕业设计(论文)第 9 页实际应用中特征提取过程往往包括:先测试一组自觉上合理的特征,然后减少成数目合适的满意集。通常符合上述要求的理想特征是很少甚至没有的。对计算机图像识别系统而言,物体的形状是一个赖以识别的重要特征。一个图像形状和结构特征有两种形式,一种是数字特征主要包括几何属性(如长短、面积、距离和凹凸特性等) ,统计属性(如黑色像素点在垂直方向的投影)和拓扑属性(如连通、欧拉数) ;另一种是由字符串和图等所表示的句法语言。它可以刻画某一图像不同部分之间的相互关系(如文字识别中的笔划关系) ,也可以描述不同目标间的关系。由于感兴趣的是图像的形状和结构特征,所以其灰度信息往往可以忽略,只要能将它与其他目标或背景区分开来即可。常用的一种技术是二值化图像,即将感兴趣的部分(区域或边界)标以最大灰度级,把背景(也包括其他任何不感兴趣的部分)标以最小灰度级,通常为零。二值化图像在形状和结构分析中占有很重要的地位,本节讨论的算法如没有特别说明都是基于二值化图像的。2.1.2 区域内部的数字特征1. 矩给定二维连续函数 f(x,y),下式定义了其 pq 阶矩:(2.1)矩在文字识别中作为有效统计特征而被广泛运用,它之所以能被用来表征一幅二维图像是基于下面的帕普利斯(Papoulis)惟一性定理:如果 f(x,y)是分段连续的,只在 xy 平面的有限部分中有非零值,则所有各阶矩皆存在,并且矩序列M pq此才惟一地被 f(x,y)所确定,反之M pq也唯一地确正 f(x,y)。对一幅二值图像 f(x,y):i,j=0,1,2N-1来说,上述条件无疑可被满足。因此,可定义其 pq 阶矩为:Mpq=f(i,j)i pjq (2.2)不同 p、q 值下可以得到不同的图像矩 Mpq。 ,常用的区域矩特征有以下几个:(1) 质心武汉科技大学本科毕业设计(论文)第 10 页(2.3)(2) 中心矩 (2.4)(3) Hu 矩组 Hu 矩组是m pq个矩的函数,它满足平移、旋转不变性,因而可被广泛地应用于区域形状识别中。M1=m20m 02M2=(m20m 02)24m 112M3=(m303m 12)2(3m 21+ m03)2M4=(m30m 12)2(m 21+ m03)2M5=( m30m 12)( m30m 12) (m30m 12)23(m 21+ m03)2 ( 3m 12m 03) (m21+ m03) 3(m30m 12)2(m 21+ m03)2 M6=(m20m 02) (m30m 12) 2 (m 21+ m03)2 4m 11 (m30m 12)(m21+ m03) M7=(3m12m 30)( m30m 12) (m30m 12) 2 3(m 21+ m03)2 (3m21m 30)( m21m 30) (m03m 12) 2 3(m 12+ m03)2 如果上述的 7 个 Hu 矩中的 mpq 用 来代替,则得到的矩还可以满足尺度不变性。特别地,M 7 满足镜像对称不变性。(4) 面积区域的面积定义为区域中的像素点数:(2.5) 其中 max 为一位图像的最大灰度级。(5) 扁度扁度定义为区域的长短轴之比:(2.6) 根据帕普利斯的定理,将要无穷多的 mpq 序列才能确定 f(x,y)。在实际应用武汉科技大学本科毕业设计(论文)第 11 页中,这是不可能实现的,通常取前几阶矩即可,但是这会带来误差。2. 投影投影的示意图如图 2-1 所示。图像的数为f (x,y)。S 为投影方向,t 为与其垂直的方向,t 与 x 轴夹角为 ,则f (x,y) 沿着 S 的投影定义为:(2.7)当 固定时,p(t, )为的函数,亦即一个一维波形。不断地从 02变换,可得到在不同方向上f (x,y)的投影。S y (x,y) t x图 2.1 坐标投影(t,s)与原坐标系(x,y)间的对应关系由投影定理,对满足一定条件的f (x,y), 如果知道全部方向上的p(t, ),就可以唯一地恢复 f (x,y),然而统矩方法一样,获得所有方向上的投影在实际应用中是行不通的。通常取若干个特定方向上的投影作为以f (x,y)形状特征度量,特别地,在 x 轴和 y 轴上的投影定义为:(2.8)(2.9)应用投影定理,可以把二维图像的问题转变为一维的曲线波形的问题。3欧拉数图像的欧拉数是图像的一中拓扑性质度量,它表明了图的连通性。欧拉数定义为一个图中或一个区域中的孔数 H 和连接部分数 C 的差:E=CH。对数字降像而言,如果图像的背景用 0 标记,目标物体用 1 记,则欧拉数可用下式计算:武汉科技大学本科毕业设计(论文)第 12 页(2.10)n(1)表明图像中像素点均数目, 表示二位图像中具有垂直相邻两个 1 标记的状态记数,n(1 1) 表示具有水平相邻 1 标记的状态记数, 表示 4个 1 标记相邻的状态记数。4.几何特征(1) 面积和周长面积 S 和周长 L 是描述区域大小的基本特征。计算图像中某个区域的面积以及该区域的周长,根据它们的比值可以分析或提取该区域所代表的图像形状特征。粗略地说,图像中的区域面积就是图像中相同标记的像素数目。由于连续图像采用离散的像素点描述时,产生了误差。例如一个包含 50 个像素的对角线比一个 50 个像素的水平直线要长。因此,在计算血积的过程中对每一个不同像素模式加上不同的权值,以减少误差。区域的周长二用区域中相邻边缘点间的距离之和来表示,同样存在误差补偿的问题。(2) 圆形度 R圆形度用来表示目标物体形状接近圆形的程度,其计算公式为:(2.11)式中 S 为区域的面积,L 为周长,R 的取值范围为 0R1,R 越人,则区域越接近圆形。以连续的圆形,正方形和正三角形为例,它们的圆形度 R 分别为:圆形 R1,正方形 R0.79,正三角形 R0.60。(3) 凹凸特性凹凸特性时区域的基本特性之一。区域的凹凸性可以通过以下方法进行判别:区域内任意两像素间的连线穿过区域外的像素,则此区域为凹形。相反,区域内任意两像素间的连线不穿过区域外的像素,则称为凸形。在粘连字符的切分和文字识别等领域,经常利用宇符轮廓的凹凸特性分析其特征,2.1.3 基于边界的形状特征武汉科技大学本科毕业设计(论文)第 13 页傅立叶描绘子对于边界来说,最重要的是组成边界的点的位置信息。灰度信息完全可以忽略。因此可以将边界看成是直角坐标下的点集构成的曲线 y=f (x,y),其中 x是横坐标,y 是纵坐标。可利用傅立叶变换描述 y=f (x,y),这一方法称为傅立叶描绘子。(1) Zahn 描绘子若以 y=f (x,y)直接进行傅立叶交换,则变换的结果将与具体的 x 和 y 坐标值有关,不能满足平移和旋转的不变性要求。为了解决这个问题,引入封闭曲线本身的内禀参量构造曲线方程,再做傅立叶交换。由于边界通常是封闭曲线。设 r 是顺时针方向的封闭曲线。引入曲线本身的内禀参量即曲线弧长 l 构造曲线方程,它的参数表达式为z(l)=(x(l),y(l) (2.12)式中 0lL,L 是曲线全长。曲线的初始点为 l0,(l)是曲线弧长为 l的点的切线方向。定义:(l)= (l)(0) (2.13)则 (l)的变化规律可以描述封闭曲线的形状,很明显它是平移和旋转不变的。由于 (l)不是一个周期函数,为将其变换为周期函数引入另一个变量则 t0,2。可定义为:*(t)= (tL/2)+t t0,2 (2.14)则 *(t)是0,2的周期函数,而且它对封闭曲线 r 的平移、旋转和尺度都是不变的。构造 r-*(t)间的对应关系是一对一的,即介尺度变化下是相似的,如果反演 *(t)-r,则可得出一组相似的封闭曲线。由于 *(t)是周期函数,因此可用它的傅立叶系数来描述它,在0,2上展成傅立叶级数为:(2.15)其中:武汉科技大学本科毕业设计(论文)第 14 页(2.16)(2.17)(2.18)其中 n=1,2,。0V1Vm=V0V2l m Vm-1 1V32图 2.2 数字图像下的多边形边界数了图像中,封闭曲线 r 通常是由折线构成的多边形或可用多边形来近似。设多边形顶为 v0,v1, , vm-1, 边 vi-1vi 的长度为 li(I=1,2,m),如图 2.2 所示。其中l m 是边界 vm-1 v0 之长。在每边 vi-1vi 上, (l)为常数,设 i-1, 定义,则:(2.19)武汉科技大学本科毕业设计(论文)第 15 页(2.20)(2.21)其中 n=1,2,。这样,区域边界 r 就可用序列a 0,a1,b1,a2,b2,进行描述可刻画。(2) PersonFu 傅立叶描绘子上面求 an 和 bn 时,已经指出对数了图像而言,(l)是分段连续的,即在(v k-1,vk)边上是常数,而在端点上是不连续的,存在跳变。这会导致傅立叶变换中产生高频分量,因而在用 Zahn 描述时,常要较多的傅立叶级数,以保证信息不会有大的丢失。Person 和 Fu 将 r 与下面的复参量对应:u(l)x(l)+iy(l)。其中 l 仍然是弧长,x(l)和 y(l)分别是曲线上点的横坐标及纵坐标。相应的傅立叶变换为:(2.22)(2.23)其中 ,v k 是多边形第 k 个顶点的复数坐标。经过同 Zahn 方法类似的归一化处理,a n对广的平移、旋转和尺度变换具有不变性。适当地取a n的前几项就可在信息损失较小的前提下描述边界 r。(a) 边界的 8 种走向和对应的方向码 (b) 边界产生的方向链码图 2.32.链码武汉科技大学本科毕业设计(论文)第 16 页对于离散的数字图像,区域的边界轮廓可理解为相邻边界像素点之问的单元连线逐段相连而成。考虑数字图像像素点(x,y)的一个 8 邻域,显然在该点处的边界只能在以下几个方向:正东、东北、正北、西北、正面、西南、正南和东南,如图 2.3(a)所示。对于每一种方向赋以一种码表示,如上面 8 个方向分别对应于 0、1、2、3、4、5、6 和 7,这些码称为方向码。假设从某一个起点开始,将边界的走向按上面的编码方式记录下来,可形成如下的序列 a1 a2 a3an。a 1 an 取值为 07,这一序列称为链码的方向链。再加上一些标识码,即可构成链码。从图 2-3(b)可知,偶数链码段为垂自或水平方向的代码段,奇数链码段为对角线段。对图 2-3(b)所示的一个图像区域,若以 S 点为出发点,按逆时针的方向进行,所构成的边界链码应为556570700122333。当然,也可以按顺时针方向进行,所构成的边界链码完全不同逆时针方向行进的情况。因此,边界链码具有行进的方向性,在具体应用时必须加以注意。有了链码的方向链后,再加上一些标识码,即可构成链码。常用的标识码有两种:(1) 加上特殊专用的链码结束标志。如采用“!”作为结束标志,则图 2-3(b)的链码应为 556570700122333!。(2) 标上起始点的坐标。如图图 2-3(b)的链码为556570700122333xyz,xyz 为起始点 S 的坐标,用 3 位 8 进制数表示。从链码可以得出边界的许多形状特征:(1) 链的长度(2.24)其中。表示方向链中偶数码的数目,此表示奇数码的个数。奇数的用人的权重修正后,边界的长度检测时可以弥补图像离散化的误差。(2) 边界所表示区域的宽度和高度设方向链为a 1 a2 a3an,定义 ai 在 x 轴上的分量为 aix,在 y 轴上的分量为 aiy 则:ai=0 时, aix1,a iy0ai=1 时, aix1,a iy1武汉科技大学本科毕业设计(论文)第 17 页ai=2 时, aix0,a iy1ai=3 时,a ix1,a iy1ai=4 时,a ix1,a iy0ai=5 时,a ix1,a iy1ai=6 时,a ix0,a iy1ai=7 时,a ix1,a iy1设 x0 和 y0 是起始点的坐标,则: (2.25)(2.26)(3) 链码所包围的区域面积:(2.27)(2.28)(4) 假如两个像素点可由方向链联接a 1 a2 a3an,则这两点的距离为:(2.29)上述的区域特征用链码来计算,计算比较简单。但是在描述形状时,信息并不完全,这些数值特征与具体的形状之间并不一对应。因此,不能只用这些数值进行形状识别,必须与其他特征信息相结合使用,作为补充信息,却能大大提高系统的识别性能。2.2 神经网络 2.2.1 人工神经元生物神经网络(BNN)信息传递过程为多输入单输出(MISO)系统,信号为脉冲,当脉冲到达突触前膜时,前膜释放化学物质,结果在突触后产生突触后电位,其大小与脉冲密度有关(时间总合效应) ,并且各通道都对电位产生影响(空间总合效应) 。ANN 等效模拟电压近似 BNN 脉冲密度,仅有空间累加无时间武汉科技大学本科毕业设计(论文)第 18 页累加(可认为时间累加己隐含于等效模拟电压之中) 。1神经元模型神经元是人工神经网络的基本处理单元,它一般是一个多输入/多输出的非线性元件。神经元输出除受输入信号的影响之外,同时也受到神经元内部其他因素的影响,所以在人工神经元的建模中,常常还加有一个额外输入信号,称为偏差(Bats) , 有时也称为阀值或门限值。见图 2.4。图 2.4 基本神经元模型上图 a=f(wp)是不加偏差的输入输出关系,其中 w 是权重,p 是输入;a=f(wp+b)是带偏差的输入输出关系,w、p 意义同上,b 是偏差,f 是所谓的作用函数。经过抽象,可得到数学表达式如下:(2.30)(2.31)i: 数值(Weigthts);:阀值(Threshold);(s):作用函数(Activated Transfer Function)。作用函数的基本作用是:(1) 控制输人对输出的激活作用;(2) 对输入、输出进行函数转换;(3) 将可能无限域的输入变换成指定的有限范围内的输出。2几种常用的作用函数武汉科技大学本科毕业设计(论文)第 19 页包括阀值型(硬限制型) 、线性型、S 型函数(Sigmoid)、辐射基函数等。下面各图形中的 n(W*P 十 b)是输入,a 是输出。 (1)阀值型(硬限制型)有两种形式,第一种是:(2.32)当输入大于 0 时,输出为 1;输入小于 0 时,输出为 0。见图 2.5。图 2.5 阈值型作用函数一第二种是:(2.33)也就是当输入大于 0 时,输出为 1;反之为-1。见图 2.6。图 2.6 阈值型作用函数二(2)线性型也有两种情况,全线性型和正线性型,如下: 全线性A=f (W*P+b)=W*p+b (2.34)此时输出与输入成正比关系。见图 2.7。武汉科技大学本科毕业设计(论文)第 20 页图 2.7 全线性作用函数正性型 (2.35)当输入大于 0 时,输出与输入成正比关系;反之,输出恒为 0;见图 2.8。图 2.8 正线性作用函数(3)S 型函数(Sigmoid)也有两种可能的函数类型。 对数正切y=1/(e-n+1) (2.36)输出与输入成对数正切关系,见图 2.9。图 2.9 S 型函数(对数正切) 双曲正切y=tanh(n) (2.37)输入与输出成双曲正切关系,见图 2.10。武汉科技大学本科毕业设计(论文)第 21 页图 2.10 S 型函数(双曲正切)(4)辐射基函数 高斯函数函数的形状见图 2.11。图 2.11 辐射基函数(高斯函数) 三角波函数函数的形状见图 2.12。图 2.12 辐射基函数(三角波函数)2.2.2 人工神经网络构成人工神经网络有很多构成形式,比如基本型、前向型、回归型以及互联型等,下面我们列出一些前两种神经网络构成形式。1基本模型人工神经网络的基本模型如图 2.13 所示。武汉科技大学本科毕业设计(论文)第 22 页图 2.13 人工神经网络基本模型 图中,输入经过神经元之间的连接值和作用函数,得到输出,再与目标值相比较,根据其差值信息,反馈回来进行神经元之间连接值的调整。2 前向网络结构如图 2.14 所示。图 2.14 前向网络结构其中,x 1,x2,xn 是输入,y 1,y2,yn 是输出。前向网络的特点如下:(1) 神经元分层排列,可又多层;。(2) 层间无连接;(3) 方向由入到出.感知网络(Perceptron 即为此) ,应用最为广泛。2.2.3 人工神经网络的学习规则武汉科技大学本科毕业设计(论文)第 23 页ANN 中的核心问题就是如何决定网络连接的加权系数(Weight) 。这一小节介绍 M 些常用的学习规则。1Hebb 学习规则1949 年,D.O.Hebb 基于生理学和心理学的研究,对生物神经细胞如何进行学习的问题,剔除了一个直觉得假说:“当两个神经元都处于兴奋状态时,连接这两个神经元的权值将得到加强” ,公式表示如下:(2.38)上式中,W ij 是连接权值的变化,V i、V j 是两个神经元的活化水平, 是学习系数。2 学习规则也称为误差校正规则或者剃度方法,著名的 BP 方法即为其中一种。(2.39)(2.40)上式中,W ij 为权值的改变, 为学习系数,V i 是当前神经元的兴奋度, 是实际输出与期望输出的偏差。2.2.4 BP 神经网络BP 网络是应用中经常碰到的,这一节将详细介绍一下 BP 网络。1BP 网络模型BP 神经网络模型见图 2.15图 2.15 BP 神经网络结构可以看出,BP 网络一般情况下有一个输入层,一个隐藏层(有时是两个武汉科技大学本科毕业设计(论文)第 24 页或更多) ,一个输出层。2输入输出关系I-H(输入层到隐藏层)(2.41) (2.42)H-O(隐藏层导输出层) (2.43)其中,输人层神经元个数为 n,隐含层神经元个数为 n1,输出层神经元个数为 S2。3网络学习训练前面已经说过,神经网络的关键问题之一是权值的确定。下面,讨论一下BP 网络中的权值确定方法。我们假定输入 q 组本 p1,p2,pq,p i Rn,期望输出为 T1,T2,Tq,这里 T Rs2,网络的实际输出为 a21,a22,a2q,a2 Rs2。评价的准则是误差最小,所以网络训练的实质转化为一个优化问题。这里考虑用梯度法(Gradient)来找出误差与加权系数的关系,以得到加权系数改变的规律。定义误差函数为:(2.44)我们利用剃度下降法求权值的变化及误差的反向传播。(1)输出层的权值变化从第 i 个输入到第 k 个输出的权值改变有:(2.45)武汉科技大学本科毕业设计(论文)第 25 页同理可得:(2.46) (2)隐含层权值变化(2.47)其中, 同理可得, 。(3)解释输出层误差 ej(j=1-S2)隐含层误差 ei(i=1-n2),这里,可以认为 ei 是由 ej 加权组合形成的,由于作用函数的存在,e j 的等效作用为 ji=ejf ()。4BP 网络的设计问题在进行 BP 网络的设计时,一般应从网络的层数,每层中的神经元个数和激活函数、初始值以及学习速率等几个方面来进行考虑。下面讨论各自的选取原则。(1)网络的层数理论上已经证明:具有偏差和至少一个 S 型隐含层加上一个线性输入层的网络,能够逼近任何有理函数。增加层数可以进一步的降低误差,提高精度,但同时也使网络复杂化。另外不能用仅具有非线性激活函数的单层网络来解决问题。因为能用单层网络完美解决的问题,用自适应线性网络也一定能解决,而且自适应线性网络的运算速度还要快。而对于只能用非线性函数解决的问题,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!