资源描述
硕士毕业论文: 行人车辆检测算法研究与改进研究1.1 研究背景与意义随着智慧城市建设的发展,获取当前环境的位置信息有着重要作用.目标检测从提出之初就成为了广泛研究的热点,尤其在自然场景下有更加广泛应用.图像检测技术主要通过摄像机获取图像作为原始图像,并在原始图像上进行目标检测实现1.其中应用在城市建设中的影像服务方式主要是城市街景影像,城市街景作为一种全新的地图服务方式,从推出以来就被寄予更多关注.街景影像地图浏览服务通过对城市主要组成道路,建筑等目标进行拍摄,然后将这些照片经过处理,再根据实际需求应用于地图浏览与地图使用服务.作为城市街景影像,同样存在大量目标检测研究内容,其中行人车辆信息构成了街景环境中重要的组成部分,针对城市街景中行人车辆检测已经成为城市治理能力综合提升的重要环节,对于提升城市品质具有不可替代的作用.城市街景影像虽然在为城市综合服务方面提供了便利,但目前在影像中要实现良好的目标检测效果仍然存在一些问题,具体在城市影像行人车辆定位中的问题有:1.街景背景复杂性:相较于普通图像,街景中存在大量的目标,如行人、车辆、建筑物、交通标志等等,在考虑实际定位过程时,需要从复杂的背景中提取出来我们想要获取的目标信息,但是由于背景复杂性,在匹配过程中容易出现匹配错误的现象.2.影像检索时间长:获取大量的街景数据信息,采用对图像的单一特征进行提取研究(例如角点、直线、纹理)导致目标检测时间更长.同 时不同大小,外观,光照遮挡等现象的存在导致在目标检测的准确性上无法保证.3.影像目标尺度变化较大:复杂场景下的行人、车辆检测面临着尺度变化、外观姿态变化和遮挡等问题.例如存在较远处的小目标行人、车辆被归为小尺度信息难以被识别.另外密集场景下目标之间互相遮挡,使得算法很难做出较为准确全面的检测,影响算法的精度,导致结果不准确.与此同时,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及.从最初的简单目标分类识别、发展到后续的图像综合应用,再到实际应用场景下的自动驾驶,逐 渐渗透到人们的日常生活中.可见计算机视觉是一门使机器看的学科.它使计算机和其他设备代替人眼进行目标检测和进一步的图像处理2.图像处理和计算机视觉成为研究的新趋势,用于构建人工智能系统从图像中获取信息等智能交通监控系统.目标检测也逐渐成为计算机视觉的一个重要分支.在不断地发展中,其中基于深度学习的目标检测在速度和精度方面的表现要优于传统的特征提取算法.基于以上背景,本文利用城市街景影像,研究一种对于街景影像行人车辆目标检测的深度学习方法.旨在解决城市街景影像中由于背景复杂,遮挡尺度变化问题带来的目标检测精度问题.1.2 国内外研究现状在影像目标检测课题发展的四十余年中,行业内众多学者取得了优秀的成果.本论文研究方向是在城市街景影像中利用深度学习的方法进行行人车辆检测,属于计算机视觉的目标检测任务的分支方向.因此,本节分别从影像行人检测和车辆检测两个角度分析国内外研究现状.1.2.1 行人检测研究现状行人检测是目标检测的一个重要研究分支,也是目标检测实例中较为基础的应用.其中主要应用在行人形态分析,行人识别等领域.此外,其在视频监控,人流量统计,自动驾驶中都有重要的地位.目前针对行人检测的相关研究方法主要分为两类,一类是基于传统特征提取的方法进行行人检测,另一种是基于深度学习算法实现行人检测.起初,传统的行人检测的最主流的方法是基于单一特征进行影像中行人特征的选择,国内针对行人的特征选择主要是利用基于方向梯度直方图特征(HOG)3进行行人特征的提取,叶林4提出了一种基于空间梯度直方图的行人检测算法,在不降低检测效果的前提下,保证了行人检测的效率.曲永宇6在梯度直方图的基础上,针对检测精度有待提高、向量维数较大的问题,提出了利用梯度统计特征的直方图加上颜色频率和肤色特征来描述行人检测的实现.高修祥5提出了一种改进的方向梯度直方图(directionalgradient histogram)算法,将 HOG 特征向量分成两部分,然后结合残差网络进行特征融合,提高了行人检测的准确性,降低了检测的失败率.陈锐7提出了一种基于多特征融合的行人检测算法.利用主成分分析(PCA)对 HOG 进行降维,并与局部二值特征(LBP)融合.在 INDIA 数据库上进行了实验,以提高训练和检测的速度.由于行人检测的影像大部分属于自然场景,往往选取单一的特征提取思路会造成结果的不准确,精度无法满足要求.在后续的行人检测工作研究中,研究者们将影像预处理与行人本身特点进行结合,对算法模型进行了优化与设计,汪成亮8对于快速移动人体检测,首先采用高斯混合模型进行背景剔除,减少了检测扫描的时间.最后将主成分分析与梯度直方图相结合,提高了检测窗口的分类速度.王波9提出了一种有效的行人特征点模型,用于街景视频监控中的行人检测,并对行人的轮廓特征进行了研究.然后利用 Canny 算子边缘检测方法对行人样本图像边缘进行检测,并结合形态学对图像进行进一步处理.从而有效、准确地获取行人轮廓.在针对行人特点进行了一系列的探索后,后续的研究者还加入了级联的思想,王奕波10在街景图像中,提出了基于级联特征的行人检测方法.首先确定可能包含行人的潜在区域,利用基于概率接受度的方法,根据方向梯度的直方图特征进行强化扫描分类,最后通过非最大抑制(NMS)过程对分类结果进行汇总.实验结果表明,基于级联特征的方法一方面可以使两种特征互补,提高检测精度.另一方面,基于概率接受的强化扫描分类方法使检测时间显着缩短.国外传统行人检测的研究主要集中在区分行人与其他目标的分类算法研究与分类器使用上,David McAllester 等人11提出了一种基于边缘特征的数据挖掘方法,考虑行人检测中边缘特征信息,利用多尺度的学习特征提高行人检测的速度和精度.Payam 等 人12提出了在行人检测过程中使用 shapelet 特征的算法,这种特征有利于区分行人与非行人信息的梯度构建,使用 AdaBoost 分类器,shapelet 特性可以把行人检测的重点放在更小的特征集上,最后在 INRIA 数据集上证实了算法的有效性.在模型结构与优化方面,创新性的提出了 DPM 思想.Rodrigo Benenson 等人13针对过去十几年在行人检测方面的算法进行了总结,概括了主流算法包括 HOG+SVM 特征提取检测、可变形部分检测器(DPM),将传统的行人检测算法应用在 Caltech-USA 数据集上,对比不同算法的效果评价特征.传统的行人检测算法大多在低层特征表达基础上构建复杂的模型来提升检测精度,但是仍然存在单一特征带来的精度问题,使用特征融合的方式会提升一部分的精度,但是会带来特征提取成本的增加.之后卷积神经网络应运而生,优秀的网络结构层次,更加准确的特征信息描述,高维特征提取,以及针对不同场景下特征的多元化描述都使得神经网络发挥出更大的优势.基于深度学习的行人检测的思路成功地应用在场景检测中,从 2006 年以来,大量深度神经网络的论文被发表,2012 年,Hinton 课题组通过构建 CNN网络 AlexNet14一举夺得图像识别比赛冠军,从此神经网络开始受到广泛的关注.在深度学习算法获取候选框区域的研究中,夏金铭15在 Fast R-CNN 基础上引入了困难样本挖掘的策略,提升检测的泛化能力.王斌16利用深度学习网络身视觉特征提取的优越性,在此基础上设计了多种策略融合的窗口选择方法,改变传统滑动窗口耗时长的问题.采用了选择性搜索算法,提高特征提取的性能.刘芷含17提出了通过挖掘遗漏的负样本来充实分类器的训练样本,提出一种新的网络结构以实现多层特征融合,利用独立模块进行候选区域的选择.针对候选区域的选择依然会带来检索时间长的问题,后续深度学习目标检测发展的进程转向了由端到端的研究中,胡振寰18针对遮挡行人检测问题,提出了在 SSD 算法的前置网络中加入更加先进的 SE-Inception 结构,对 SSD 的先验框进行重新设计,修改了相应的 Loss,保证遮挡情况下行人检测的精度.祝庆发20针对密集场景下的行人检测,改进了 Yolo 算法的网络结构和损失函数,在人工标注的实际场景中进行测试和训练.胡超超19以 Yolo V2 网络作为目标检测的基础模型,在获取小目标的基础上加入了残差网络,构建训练的行人样本库,并且修改网络参数,训练出更符合行人检测的网络模型,通过匹配算法进一步对行人进行分类,利用卡尔曼滤波进行跟踪,大大提升检测速度.针对行人特征的卷积网络过程中,国外更加侧重于结合多特征进行卷积网络的实现,Shao 等人21结合图像的多光谱特征,提出了四种卷积网络融合体系结构,结合了不同通道的特征,针对 KAIST 数据集上的精度提高了 11%.Garrick Brazil 等人22提出了一种融合了语义分割和行人检测功能的分割融合网络,针对场景中遮挡和形状变化问题都有了很大的提高.Ping 等人23提出一种新的深度模型,从多个任务和多个数据源中学习行人高层特征,将已有的场景分割数据集中的属性信息转移到行人数据集,减少数据集之间的差异,在 Caltech 数据集上测试,失误率降低了 17%.1.2.2 车辆检测研究现状车辆识别同样作为场景应用中常见的检测目标,在相关目标检测研究中具有重要的意义.保证车辆识别速度快,得到准确率高的车辆检测信息,决定了能否更好地服务于城市发展管理工作中.车辆信息检测作为当前图像处理领域正在研究和广泛关注的课题, 在衡量城市综合发展水平中具有良好的发展前景.最初针对传统的车辆检测算法中主要是采用人工特征提取的检测方法.钱晋24研究了基于背景差法的昼间视频车辆检测算法的相关问题,提出了背景提取与更新算法,满足视频车辆动态检测的要求.郭磊27提出了一种应用单目视觉进行车辆检测的方法,以车辆阴影以及边缘作为检测的主要特征并且结合雷达探测数据,提高车辆检测的准确率.张涛25研究了车辆检测区域设置特定模型,在 Haar 特征的基础上,修改了遍历逻辑,提高了系统检测的实时性.金立生26提出了一种将图像特征与分类器融合的思想识别算法,实现了对前方车辆的准确识别.在国外进行车辆检测的研究中研究者们多侧重于车辆进行实时检测的思路上,Amirali Jazayeri 等人28介绍了一种在多种环境条件下对视频目标车辆进行定位的综合方法.从视频中提取的几何特征被连续地投射到一维剖面上,根据场景特征和车辆运动模型,对视场中的运动进行概率建模,实现实时检测车辆的效果.Jun-Wei Hsieh 等人29研究了 SURF 算法特征,提出了一种新的车辆检测方案来检测移动摄像机中的车辆.该方案的优点是不需要背景建模,就能实现良好的检测结果.Margrit Betke 等人30提出了一种实时视觉系统,使用颜色、边缘和运动信息的组合来识别和跟踪道路边界、车道标记和道路上的其他车辆,利用多种特征融合的思路进行车辆的检测.Tehrani 等人31提出了一种基于 HOG 特征和 SVM 的车辆检测方法来实现城市道路中的车辆检测.传统的学习方法只支持对少量数据的训练,因此对车辆多样性的检测仍然存在不足.近年来,随着 CNN 的发展,物体的分类和检测方法也相应飞速发展.利用神经网络训 练对于图像的精确度有了明显的提升.网络特征的使用摆脱了传统目标检测方法的限制,受外界环境变化小,不易受图像基本特征的影响,应用在复杂场景中也有较好的检测识别效果.刘敦强33在 Faster R-CNN 基础上进行了改进,使用多尺度预测分支,增加样本挖掘机制,适当的选取正负样本,满足车辆检测的精度要求.黄皓宇32对 Mask R-CNN 算法模型进行改进,在进行预处理操作后,车辆检测的精度达到了 80%左右.宋焕生34在进行车辆检测过程中选取了不同的分类情况与构建不同视角下的数据测试集与验证集, 将检测的精度提升了近 10%.王宇宁36提出一种基于 Yolo 算法的车辆实时检测方法,选择交通监控视频作为数据集进行车辆检测试验.达到了 89.3%的查准率.卞山峰35针对传统的车辆检测算法存在鲁棒性差、检测速度慢和准确率低等问题,提出基于改进 Yolo V2 模型的车辆实时检测算法.通过目标框维度聚类、网络结构改进以及输入图像多尺度变换等方法对 YoloV2 算法进行改进,明显提升了检测的精度和速度.Moran Ju 等人37提出了一种基于 YoloV3 的多尺度目标检测方法.基于 IOU 的数学推导方法,为改进的 Yolo V3 的每个尺度选择候选锚盒的数量和长宽比维数,同时将输出检测层前的 6 个卷积层转化为 2 个残差单元, 最后在 PASCAL VOC 数据集和 KITTI 数据集上进行了对比实验,改进后的网络能提高目标检测的平均精度.Chi Ma 等人38提出了一种基于 Yolo 深度学习算法的航空图像车辆检测方法.集成了一个适合 Yolo 训练的航空图像数据集.该训练模型特别是对小目标、旋转以及紧凑密集目标,满足实时性检测的要求.1.3 研究内容及技术路线1.3.1 研究内容本文针对城市街景影像中的行人、车辆目标信息,利用深度学习的算法实现街景影像中行人车辆检测.在已有研究的基础上针对城市街景影像数据来源大,数据量丰富,影像尺度特征变化大的特点,提出了改进的 Yolo V3 算法,保证检索速度提高的情况下,同时对图像中行人,车辆数量多,存在遮挡及尺度变化明显等问题,进行了精度的提升.最后进行了不同算法的对比,得到改进的算法在检测目标上精度与准确度上的提高.具 体研究内容主要包含以下部分:(1)解决街景中行人车辆检测中数量多、尺度变化大的问题针对城市街景影像中行人车辆目标数量多,重复目标出现的特点,结合街景数据集本身的特征,由此带来的目标检测尺度变化大,存在遮挡的问题.主要思路为利用深度学习适用于处理图像视觉中目标检测识别的思想.文章中采用目前深度学习主流的不同代表算法应用于街景影像中的行人与车辆目 标检测中,即采用 Two-stage 算法代表 Faster R-CNN 算法与 One-stage 算法代表 Yolo V3算法实现.在基于 One-stage 算法的快速检索的前提下,本文同时也选取一种轻量级主 干网络的 Yolo 算法最后结果的对比.最后采用改进算法与其他三类算法进行对比分析.(2)改进 Yolo 算法实现行人车辆检测本文在已有深度学习算法基础上,提出了一种改进的 Yolo V3 算法,在保证检索速度的同时,能够将街景场景中的尺度变化明显导致识别精度不高的行人车辆能够准确检测.文章最后通过精度速度评价指标对比以及不同算法影像输出结果,进行四种不同深度学习算法的比较,得出改进算法具有良好的实验结果,验证算法的有效性.
展开阅读全文