资源描述
2015届交通运输专业毕业论文 重庆601路公交车到站时间预测方法研究摘 要:随着中国城市化进程的快速发展,城市交通问题日益严重,发展城市公共交通是解决现代交通问题的唯一途径。在众多的城市公共交通方式中,常规的公共汽车仍是各个城市客运的核心力量。因此,必须从普通出行者的角度出发,考虑他们的实际需求,才能更有针对性地提高运输服务质量。美国曾针对乘客所关心的公交信息种类类进行问卷调查,调查结果显示:公交车辆到站时间为出行者最为关心的信息之一1。所以公交车到站时间的准确发布,具有十分重要的意义。本文从大量的先进文献中,总结了现有的各种公交车到站时间预测方法的特点。结合实际的跟车调查分析影响公交车到站时间的各个因素,其中主要有驾驶员、车辆、道路、环境和突发因素这几个,对可数值化分析的因素进行了筛选。建立起基于历史数据的实时修正公交车到站时间预测模型,并利用重庆市的601路公交车的历史GPS数据对模型进行了实例验证。最后,分析了误差范围,证明得出基于历史数据的实时公交车到站时间预测模型具有模型简单易懂、所需数据量小、预测灵活等明显的优势。关键词:公交车到站时间;预测;历史数据;GPS 57Study on The Prediction Method for Arrival Time of the 601 Bus in ChongqingAbstract:With the rapid development of urbanization in China, the problem of urban transportation is becoming serious, and developing urban public transport is the only way to resolve modern transportation problem . Among the numerous public transport modes, the conventional bus is the core strength of the urban passenger transport. Therefore, must be from the perspective of an ordinary traveler, considering their actual needs, can be more targeted to improve the quality of transport services. The United States has conducted a questionnaire survey which is about the bus kind of information that passengers concern, the survey results show that: the arrival time of the bus station is one of the most concerned information. So accurate bus arrival time of publication has very important significance.Firstly, this paper summarizes the characteristics of various existing methods to predict bus arrival time from large number of frontier literature.Combined with the actual bus following investigation and analysis of various factors affecting bus arrival time, which is the main driver, vehicle, road, environment and sudden factors, the numerical analysis of the factors were screened. The real-time correction bus arrival time model based on historical data is established, and the model is verified by the historical GPS data of 601 bus of Chongqing city. Finally, the error range is analyzed,and the obvious advantages of real-time bus arrival time prediction model based on historical date is proved,such as simple model,small data,flexible forecast,etc. Keywords:Bus arrival time; Forecast ; Historical data ;GPS 目 录中文摘要IABSTRACTII1 绪论11.1研究背景11.2 研究目的及意义11.3 国内外研究现状21.3.1 国外研究现状21.3.2 国内研究现状31.4 本文研究方法和研究内容41.5 本章小结52 到站时间影响分析与数据采集62.1 公交车到站时间影响因素分析62.1.1 路段运行时间影响因素分析72.1.2 站点滞留影响因素分析72.2 影响公交车到站主要因素筛选82.3 数据采集92.3.1 数据采集设备车载GPS92.3.2 GPS数据的传输102.3.3 GPS在交通领域的应用102.4 本章小结113 到站时间预测模型123 1 到站时间预测模型原始模型123.1.1 移动平均法123.1.2 指数平滑法133.1.3 回归分析法143.2 公交车到站时间预测模型的建立183.2.1 站点运行时间预测193.2.2 站点滞留时间预测203.3 综合预测模型213.4 公交车到站时间预测流程213.5 本章小结224 实例计算234.1 数据的预处理234.1.1缺失数据的处理234.1.2 错误数据的排查与更正254.2 数据的粗分析264.3 计算过程294.3.1 站点运行时间的计算294.3.2 站点滞留时间的预测计算384.3.3 实时预测过程分析454.4 预测结果与误差分析474.4.1 站点运行时间误差分析474.4.2 站点滞留时间误差分析484.5 本章小结505 结论与展望51致谢52参考文献53附录 部分GPS原始数据551 绪论1.1 研究背景在中国的各大城市中,“拥堵、事故、污染”的交通现状已经成为制约城市经济发展的首要问题。想要改变各大城市的这一现状,实现城市未来的可持续发展,就必须从改善人们的出行方式抓起,切切实实大力发展城市公共交通,改善公共交通的服务质量,让更多的人能够从公共交通的出行当中获取满意的服务。常规的城市公共汽车是一种极其常见的公共交通工具,它能在一定程度上满足多种出行目的乘客的需要,它以其低廉的运价、庞大的车辆数目、较低的建设成本,成为了城市客运的“领头羊”。尽管如此,我国的公共汽车客运的发展仍然任重道远。就目前而言,相当部分的城市公共汽车的智能化程度较低,依然采用传统的作业方式来进行运营管理,不能紧跟信息化的潮流3。这就需要建立起更加准确和完善的时间预测方法体系,以便满足城市不断提高的公交出行需求。1.2 研究目的及意义随着智能交通系统(ITS)的快速发展,交通管理者面临了新的挑战和要求,那就是需要建立起高效、快捷、全面的信息化公交系统。要达到整个城市公交系统服务质量有所上升的目的,就必须利用好智能公交车系统,就必须能够适时地预测公交车到站时间。这是因为公交车到站时间的准确程度在提高城市运输服务效率方面有着不可估量的作用,它涉及乘客最切身的时间利益,对出行的及时性提出了更高的要求;同时,它又是公交公司自身对外宣传形象的良好名片,并且可以作为高效调度的参考2。此外,公交公司为乘客提供准确的到达时间可以提高公交系统的整体运营效率、增强公交运输的竞争力,促进公共交通事业的持续发展,缓解城市交通的压力。基于这样的背景,本文通过查阅大量的国内外相关文献,系统地分析了国内外关于公交车到站时间预测的优秀理论,对现有的公交车到站时间预测方法的优劣性和适用性有了一定的掌握。结合车载GPS装置采集得到的数据,并深入公交车的每一个站点调查,掌握公交到站时间的相关规律,分析影响到站时间的影响因素 。建立起基于历史数据的实时修正公交车到站时间预测模型。在实例计算部分,选取了重庆市601路公交车在2013年12月24日采集到的GPS数据作为原始数据带入模型,通过对预测误差的分析,来对基于历史数据的实时修正公交车到站时间预测模型进行评价。全文主要是通过对历史的GPS数据分析,来得到公交车到站时间在时间上和空间上的运行规律。通过对公交车影响因素的分析和筛选,为后期建立历史数据到站时间预测模型建立提供必要的数据支撑,同时,对于实际数据的代入计算和误差分析,也在一定程度上验证了基于历史数据的预测方法的简单易算、适合较小的数据量的优点。1.3 国内外研究现状1.3.1 国外研究现状公交车到站时间的预测对于整个城市交通系统的作用和意义是不言而喻的,国内外的交通工程方面的专家和学者都对此作了大量的研究,国外的公交车到站时间预测技术,无论是在理论上还是在应用上,都比国内的成熟很多。就国外而言,发达国家很多城市已经将可以预测到站时间的电子站牌普遍应用推广,但是采用的公交车到站时间预测方法却不尽相同。其中,举以下案例加以说明:澳大利亚的城市悉尼市最早采用公交车到站时间预测是在其到机场的快速路上,由于在这样的快速路上,其他的车辆和环境的不可控因素较少,所以其建立的模型也较为简单,是一种修正过的线性化的预测方法,其原始数据的来源是网络旅行时间系统(ANTTS,Automatic Network Travel Time System)3。公交车到站时间的预测在应用在伦敦的应用情况并不是像机场高速那么简单,而是将其应用于普通的城市干道,这样的话其算法也不能利用简单的线性化的预测方法,一位来自荷兰的Edwin M.Reinhoudt和英国的S.A.Velastin巧妙地运用动态卡尔曼滤波代替传统静态均值算法,使得预测精度有了明显的上升4。Wall和Dailey采用的是卡尔曼滤波的方法和原理,利用自动汽车定位技术AVL来大致估计车辆的到站时刻。这样的做法存在着很大的误差,这是因为在这个过程中并没有考虑公交车辆由于上下乘客所带来的站点滞留时间5。后来的学者的研究成果总是在不断总结前面成果的不足中发现的,前面利用自动汽车定位技术由于没有考虑因为乘客上下车所带来的公交车延误时间,预测结果显得较为粗糙,Shalaby、Farhan采用了卡尔曼滤波的原理,对车辆的运行时间和站点滞留时间分别进行了估计,并利用实际采集到的信息,对该模型进行了评估6。Frechette从另外的角度出发,并没有考虑将到站时间预测应用于快速路或者普通干道,他将眼光放在了大城市里主要商务活动进行的CBD地区,这样的情况下,公交车辆所受的外界干扰信息会更多,也更加影响公交车辆的可达性。因此,在建模时,考虑的额外因素会更多,主要考虑的有:交叉口当中各个方向流量的比例、转盘数目、混合车流比例等,预测的模型是建立在Ebers算法之上的7。Khan的研究跟Frechette考虑方面很类似,同样考虑影响车辆到站时间的众多因素,但是由于应用的目的地是不同的,Khan考虑的因素包括了:道路的距离、交通流三参数、路途中的转弯次数、站点数量等,结合这些因素建立起了非线性的回归模型8。Patnaik等专家考虑到历史的运行数据肯定对当前的运行状态产生或多或少的影响,所以,在建立模型时,将历史的站点运行时间作为影响因子来考虑,再结合当前运行路况上具体的信息建立起回归模型9。Amer Shalaby、Ali Farhan这两位专家通过自动车辆定位技术和电力转换公司得到的数据进行试验,对加拿大多伦多市的公交到站时间运用VISSIM软件进行了仿真模拟,并且得到了意想不到的结论10。此外,公交车到站时间预测技术在亚洲的日韩也取得了一定的研究成果。在韩国,专家Taehyung Park和他的团队运用的是相对智能化的学习方法人工神经网络法来对公交车到达时间进行建模分析,并且每隔一个星期对实际值和估计值进行模型校对,以此提高预测精度11。日本研究人员的方式更显先进,因为他们利用的是Automatic vehicle identification system(车辆自动识别系统)来记录当前的交通状况,并通过查找历史的数据库中与当前的交通状况最相似的信息来当作当前的车辆运行时间12。1.3.2 国内研究现状就目前国内而言,公交车到站时间还基本处于理论研究阶段,将公交车到站时间预测应用于电子站牌的城市少之又少,一些城市的部分线路的公交车电子站牌只是发布到站的距离和站点数,并没有发布到站的具体时间。吉利大学的杨教授课题组:包括了朱中、初连羽等人,利用较多的公交站点影响因素作为模型的输入量,通过模糊回归的模型,做了预测软件进行实时的交通信息预测站点运行时间,因为具有实时性,所以预测精度明显。此外,杨教授等还将快速道的诱导装置转移到公交汽车上面来13。周雪梅、王磊等利用GPS等先进设备,将采集到的历史数据作为支撑,综合联想到干扰到站时间预测的多个因子,最终建立起以不同站点为单元的到站时间影响系统,并利用某市的历史数据进行了实例研究14。总的来说,国内目前的到站时间预测分为两个大的方向:一个方向是通过软件或者先进到达交通实况采集设备,运用一定的机器学习方法来实时预测公交车辆到站时间;另外一个方向则是以历史数据为源,考虑当前路段与历史运行路段的关系,来建立起相关模型。现有的研究成果从不同的角度建立了公交车到站时间预测模型,通过综合地对比,不难发现各种模型各有其优缺点,其适用范围也不尽一致,现将各种模型的优缺点,适用性概括如下:1、基于历史数据的模型是这些模型当中最为简单的一种,并且计算速度也是最快的,但是该种方法是基于历史数据的,实时性相对较差,适合郊区公路或者非高峰时期的时间预测;2、回归预测模型也是相对较为简单的一种,它综合考虑影响公交车到站的各个因素,通过将各个影响因素数值化,预测站点运行时间和站点滞留时间,该方法具有很强的适用性,也相对于较简单;3、神经网络模型是一种模仿人的神经元的机器学习模型,它能够处理非常复杂的非线性函数关系,通过大量的输入数据,来寻找这些数据之间的依赖关系,这是一种相对复杂的方法,因此在它预测精度较高的背后也是它的局限性,在使用神经网络模型时,常常难以确定神经节点,并且系统容易造成过学习和欠学习的状态;4、卡尔曼滤波模型是一种基于递推算法的模型,所以它的实时性是很好的,也适合处理高维问题和非平衡过程,但是在预测较长路径时,采用多步预测的精度会下降明显,所以适合的是多路径的时间预测;5、支持向量机是一种具有很强的学习能力的学习机,它也同样适合复杂的线性关系,但是由于在整个过程当中,需要很大规模的数据,在实际应用中很难满足,由于其本身的模型结构太过复杂,很难准确确定核函数,并且计算相当耗时,使得该方法难以大规模推广;6、基于概率的预测模型,相较于回归模型而言,它更加充分地考虑到了在车辆运行途中的不确定因素,但是该模型同样需要大量的数据支撑,并且整个模型的可移植性较差,因此只是适合不确定性因素影响下的时间预测。1.4 本文研究方法和研究内容在对国内外公交车到站时间预测方法地充分理解上,本文系统而全面地总结了目前国内外常用的各类预测方法的优缺点、适用性,以及各种模型对原始数据的要求。结合实际的公交车跟车调查的分析,总结得出影响公交车到站时间的因素,除了常见的人、车、路的影响外,还包括在时间上是否处于高峰期、是否处于周末节假日,以及季节性、天气等因素的影响。通过对这些因素的综合整理,建立起基于历史数据的实时修正公交车到站时间预测模型。最后本文以现有的重庆公交601路公交车在2013年12月24日上午6:00:408:50:23每隔10秒发送回来的25组公交车GPS数据为研究原始数据,利用SPSS和EXCEL软件进行原始数据的分析,分析公交车到站时间的统计学规律,得出公交车在时间上的准确程度。获取来的历史GPS数据证明了基于历史数据的实时公交车到站时间预测模型的可行性和有效性,并分析了误差程度。全文的内容结构图如图1.1所示。重庆601路公交车到站时间预测方法研究图1.1 文章内容框架图1.5 本章小结本章是全文的绪论部分,首先阐明本研究课题是在解决城市公交拥堵,大力推行公交优先的背景上提出来的。当下又是智能交通发展好时机,因此大力推行智能公交有着举足轻重的意义。公交车到站时间作为乘客最为关心的信息,在提高公交车服务质量,增加公交车的吸引力等方面有着必不可少的意义。将智能公交的技术引入公交车到站时间的预测当中是一件自然的事情,因此,本文目标便是通过运用先进的智能公交手段GPS定位技术,实时获取公交车到站的原始数据,为公交管理者进言献策。2 到站时间影响分析与数据采集从乘客的角度来分析,出于以下几种原因会关注公交到站时间:将要出行时,借助手机来查询公交到达时间,从而选择最优的公交车乘坐方案;出行的途中,已经处于公交站牌下,想要知道自己所等的目标公交车还有几个站,还有多长时间到达,借此来缓解心中等车带来的焦躁情绪。如果时间公交不能及时到达,好改乘出租车等其他方式的交通工具;乘客并不是当天出行,需要提前一天查询第二天或者更久的公交车到站时间,为工作以及其他目的的出行提供时间安排的依据。综上,公交到站时间的预测主要可以分为两种类型:一种是短时间的到站时间预测,主要通过电子站牌等形式向乘客发布,需要乘客到达公交车站才能获取相关的信息;另一种则是长时间的到站时间预测,主要通过手机短信,车辆信息网站等方式发布,它不需要乘客一定要到达公交车站,直接在家就能获取相关信息。相对于短时间的到站时间预测而言,长时间的到站时间预测需要更大的数据支撑,存在的不可控因素也更多,因此,长时间的公交车到站时间预测的精度更低。由于数据有限,本文研究的方面不可能做到全面,因此主要研究的是短时间的到站时间预测。2.1 公交车到站时间影响因素分析公交车辆的运行过程受多种因素的影响,到站时间同样是一个或多或少带有突变和随机因素的一个过程。交通工程学告诉我们需要从人、车、路、交通环境四个方面来分析交通事件。就公交车运行的整个过程的时间组成而言,公交车的到站时间显然是由车辆的路途运行时间和公交车站点的滞留时间这两个部分组成。因此在分析影响公交到站时间的因素时,应该分别从这两个方面来着手。假设要预测公交车在运行至i站点的时间,可以用下面的模型:Ai=1i-1Di 2iRi (2iN) (2.1)Di=Li-Ai (2.2)其中: Ai表示公交车在i站点的到站时间; Di 表示公交车在i站点的站点滞留时间; Li表示公交车在i站点的离站时间; Ri表示公交车以i站点为终点的路段运行时间。2.1.1 路段运行时间影响因素分析道路运行时间影响因素可以根据前文提到的总体分析思路分为人的因素、车辆的影响因素、道路的影响因素和环境的影响因素。(1)人的影响因素主要包括驾驶员的年龄,性别 ,驾龄,以及反应快慢等方面;(2)车辆的影响因素车辆的起步,爬坡和制动性能等。(3)道路的影响因素包括道路通行能力,车道数,道路等级情况,以及途中经过路段是否强制限速,有无红绿灯、交叉口、转盘等。(4)环境的影响因素主要有天气情况、是否为周末和节假日、以及突发因素如车祸等突发因素可能造成的影响。2.1.2 站点滞留影响因素分析所谓的站点滞留时间,通俗地讲便是不管何种原因,公交车辆在每一个站点耽误了多长时间没有行驶。由于目前重庆的公交车均使用公交车专用道,所以影响公交车的站点滞留时间因素主要有:公交车辆进出站的排队等待时间、便道行为延误时间、公交车辆的车门数、上下车乘客的方式和人数,上车乘客车费的支付方式等方面。一般认为,公交车第i个站点的站点滞留时间主要由上下车乘客人数来决定15。通常可通过如下公式的线性模型来表示16:(1)单车门的情况Di=b+B*Bi+A*Ai , &Bi0或Ai00, Bi=Ai=0& (2.3)(2)双车门的情况Di=b+max(B*Bi,A*Ai), Bi0或 Ai0&0, Bi=Ai=0 (2.4)其中:Di表示公交车辆第i个站点开关门时间及其他损失时间;B、A分别表示公交车辆在第i个站点的平均乘客上、下车时间;Bi表示公交车辆在第i个站点的上车乘客数;Ai表示公交车辆在第i个站点的下车乘客数。2.2 影响公交车到站主要因素筛选由前面的分析不难知道,影响公交车到站的因素较多,现将能够用于建模和数值化的并不是全部的影响因子,各种可以数值化的影响因素如表2.1所示。表2.1 各种影响因素统计表因素名称 量化方式站点运行时间道路因素 道路等级 通行能力路段长度有无交叉口红绿灯车辆的因素 车辆的转弯次数车辆的时间平均速度人的因素 驾驶员的驾龄性别环境因素车道数 是否为高峰期续表2.1因素名称 量化方式站点滞留影响因素时间因素 是否为节假日车辆进出站是否排队等待 进出站平均等待时间车辆在站点的开门关次数 开关门时间上下车客流量 上下车人数乘客付款方式 人均付款时间在具体地分析时,不可能将每一个因素都一一考虑到,所以应该根据预测方法的实际需要,选择主要影响因素,抛弃次要因素。本文的预测目标是能根据历史的GPS数据,假设已知车辆某时刻处于某个位置,预测其到达后续某个站点的时间,并根据前续站点的实际到达时间和实际站点滞留时间来对到达的时刻进行实时地修正。就这个目的而言,本文采基于历史数据的二元线性回归、二次移动平均、二次指数平滑这三种预测方法是具有现实意义的。由于在当天的历史数据中,以上分析的各个影响因素均是相同的,如果将影响因素作为预测模型的变量输入则不具有参考性。2.3 数据采集实验的所有数据均来源于重庆公交车载GPS监控系统,该系统有两个方面的功能,分别是定位和控制。控制部分的功能主要是由安装在车上的接收设备、无线网络、控制中心、监控平台这几个部分来实现的。2.3.1 数据采集设备车载GPS本文利用数据采集设备是公交车载 GPS终端。获得主要是所研究的601路公交车在2013年12月24日的上午6::00:40到8:50:23发车的25个班次每个班次每隔十秒反馈回来的经纬度、速度、方向角、路途时间、站点滞留时间等信息。GPS采集数据比起传统的人工调查具有精度更高、实时性更强、便于统计分析等优势。如图2.1是GPS设备采集回来的部分数据。车载装有GPS接收机是进行GPS定位的前提条件,公交车的GPS接收机是属于导航型的GPS接收机,采用CA码伪距测量17。公交车车载GPS 接收机主要由天线变频器、信号通道、微处理器、存贮器、显示器和电源组成18。2.3.2 GPS数据的传输GPS 系统的用户是隐蔽的,因为它是单向信息的传输系统,用户只能接受而不能发射信号20。图2.1 GPS采集回的部分数据2.3.3 GPS在交通领域的应用GPS 在车辆导航监控方面的应用利用GPS进行车辆监控和调度可以充分利用计算机进行自动化、智能化的监控管理,能迅速处理分析大批量数据,大大减少了人为误差及管理人员的工作量。随着计算机和通信技术的发展,使得实现城市公交车辆定位系统成为可能,并可建立起统一的公交车辆管理系统,对公交车辆进行统一的调度,实现科学、经济的运营管理模式19。GPS 在交通规划领域的应用1)GPS在交通数据采集管理中的应用 就现实而言,重庆市主城的大部分公交车辆已经实现GPS设备的装配,该GPS以每隔10秒的间隔向终端发送信息段。这为车辆的监控管理提供了很大的便利。1)GPS与地理信息系统GIS的结合 二者的结合本就是一项新技术的突破,GIS让GPS增强了空间概念,让传输回来的数据更具有参考价值,更具有实用性。3)GPS与交通规划在交通工程学中,无时无刻不需要获取道路上交通量、交通密度、交通速度这三个方面的参数,人工调查存在着诸多的问题,不仅耗费大量人力物力,还只能获得较低的准确率。而GPS系统恰好能完美地填补这一空白,让获取交通流的这三个参数变得简单易得,同时也减少了由于传统调查带来的诸多问题,让实时的路况播报成为可能。2.4 本章小结本章系统分析了影响公交车到站时间的影响因素,包括了交通工程学当中给出的人、车、路、交通环境以及突发事故这几个方面的内容。通过对可数值化影响因素的筛选,使得在分析到站之间预测问题上更加具有逻辑性。由于数据的局限性,本文的GPS数据只是在同一天的同一时段上得到的,如果选择路段距离、天气因素、是否为节假日因素等作为预测模型的输入变量,则不具有对比性。所以本文考虑以历史的数据作为输入来建立公交车到站时间预测模型。3 到站时间预测模型将得到的公交车历史数据进行简单的分析,就很容易发现其到站时间存在着时间上和空间上的变化特性。在时间上,后续发车班次的到站时间深受前续站点到站时间的影响;在空间上,后续站点的到站时间深受前续站点的到站时间的影响。根据这样的规律,采用基于时间序列分析为原始模型并根据前续站点实际到站时间为依据的公交车到站时间预测模型。3.1 到站时间预测模型原始模型所谓时间序列分析法,就是将同一变量的一组样本值,以序列顺序排成一列,这是因为其发展具有一定规律。该方法的基础便是时序上的先后顺序,运用一定的方法使其向外延伸。该种方法在的一个优点便是预测值在很大程度上不以人的意志为转移,操作起来也很方便,所用价格也很低廉;任何事物都要一分为二地来看待,它的缺点归纳起来便是准确程度有待提高、可移植性不强,只适用于短时预测。这里对本文将要应用到的移动平均法和指数平滑法这两种方法作一定的介绍,对于时间序列的其他方法这里不作累述。3.1.1 移动平均法顾名思义,移动平均法,并不是简单地求取数列的平均值,而是按照时间序列的顺序,依次求取平均值,以此来不断更新均值,好比是要预测第4个时序的值,先求取第1个和第2个时序的值的均值A,在利用这个均值A和第3个时序的值求取均值便是第4个时序的预测值了。这样的一个逐渐平均化的过程,能在一定程度上避免了一次性求取平均值带来的突变化的风险。这个逐渐平均化的过程,在模型上表现为:设有一时间序列y1、y2、y3、y4yt按照时序在表格中依次排出来,求出N个点的平均值,首次得到的移动均值为:Mt(1)=yt+yt-1+yt-N+1N=Mt-1(1)+ytyt-NN (3.1)其中:yt为第t 周期的样本值;N 为移动平均的项。从上面的公式可以很清楚地得到,当时序每向后面移动一次,就与移动的新数据结合成为均值,而又将前面经过的数据摒弃掉,这样不断地“接受与舍弃”的过程,能够使时序中的每个值向前移动,使其达到逐渐平均化的目的。3.1.2 指数平滑法指数平滑法的目的与前面的移动平均法相类似,都是旨在一定程度上消除不可控因素的干扰,需要区别来看的是,指数平滑法不需要保存大量的数据,只要能够获取当前批次样本的真实值和预测值,就能预测就近的下个批次数据的值。指数平滑的分类主要为两类,一次平滑和多次平滑,这里只是介绍多次平滑当中的二次平滑。一次平滑法设有一时间序列y1、y2、y3、y4yt则一次指数平滑的公式为:St(1)=yt+(1-)St-1(1) (3.2)其中:St(1)为第 t周期的一次指数平滑值;为系数,0t,则回归系数显著。5)进行预测如果观测值的数据量较小,近似的置信区间的常用公式为:置信区间=yTse (3.15)多元线性回归在现实生活中,社会生活的各个方面总是有着千丝万缕地联系,同样一个结果,可能是由多个因素共同导致的。在这点上,一元回归的应用显得有些局限,因此诞生了多元线性回归。多元线性回归预测的原理跟一元线性回归相同,只是选取的变量不再是一个,至少两个及其以上。先以简单的二元线性回归为例来讲解。1)二元线性回归模型:y=a+b1x1+b2x2 (3.16)2)拟合优度指标:标准误差,是对y值和预测值之间的离差的度量。其计算公式为:SE=(y-y)2n-3 (3.17)可决系数:R2=1-(y-y)2(y-y)2 (3.18)R20.96意味着回归模型对自变量的全部变差做出解释。3)置信范围置信区间的公式为:置信区间:ytpSE (3.19)其中:tp 是自由度为n-k的t 统计量数值表中的数值; n 是观察值的个数; k 是包括因变量在内的变量的个数。4)自相关和多重共线性问题自相关检验:D-W=i=2n(i-i=1)2i=1ni2 (3.20)其中:i=yi-yi (3.21)多重共线性检验:在预测的过程当中,建立回归模型时是假设各个已知数之间是彼此无关的,但是在实际中,这种假设可能是谬论,并且会使人信以为真而建立起错误的方程。为了避免类似问题的发生,应该对不同的已知参量之间的关系进行检验。任何两个自变量之间的相关系数为:r=(x-x)(y-y)(x-x)2(y-y)2 (3.22)通常认为自变量之间存在多重线性关系的条件是相关系数的绝对值大于0.25或者0.5.3.2 公交车到站时间预测模型的建立本文的公交车到站时间预测模型是在基于当天的历史数据基础上建立起来的,因为数据的有限性,不可能将影响公交车到站时间的驾驶员因素、公交车因素、道路条件因素、突发状况等可以直接量化的影响因素作为模型的输入变量。因为是在同一天的相同时段,以上因素基本都是相同的,所以不具有参考性和对比性。采用历史的数据作为模型的输入变量,能够反映历史的公交车到站时间影响因素对于实际到站时间的影响程度,这个影响程度又可以通过预测模型间接地反映到当前的公交车到站时间上来。所以本文建立的基于历史数据的实时公交车到站时间预测模型为:AN=Bi+TN-i (3.23)其中:AN表示第y班次的公交车到达第N个站点需要的时间; Bi表示该公交车距离就近的站点所需要的运行时间;TN-i表示该公交车从i站点到N站点总共的运行时间;TN-i=n=iN-1Dn+n=i+1NTn (3.24)其中:Dn表示第n个站的站点滞留时间;Tn表示第n个站的运行时间;合并以上两式:AN=Bi+n=iN-1Dn+n=i+1NTn (3.25)在计算过程当中,为了将模型简化,使计算更加方便,假设公交车刚好处在某个站点上,则Bi取0,上式变为:AN=n=iN-1Dn+n=i+1NTn (3.26)在模型的实际运用当中,为了使预测精度更高,使预测更具有实时性,则以公交车每到达一个站点为基准点,将当前车次的数据带入模型中,继续预测的后续站点的到站时间,以此类推,反复迭代。以此反复地对首次的预测时间进行修正。简而言之,假设车辆从站点i出发,运用以下公式:AN=n=iN-1Dn+n=i+1NTn (3.27)设第一次求得的AN为q,当车辆运行出i站时,用第i个站的实际站点滞留Di1代替预测值Di,则可以算出相对于q更加精确的q1;当车辆运行到达就近的站点i+1时,用车辆运行到i+1站点的实际运行时间Ti+11用来替代之前的Ti+1,再带入公式中,则可以计算出相对精确的q2来代替q1;依次向后续的站点推移,不断提高AN的实时性和精确性。3.2.1 站点运行时间预测根据第2章的分析,公交车到站时间受多种因素的影响,其中包括了驾驶员的因素、车辆本身的因素、道路的因素、以及可能的突变因素的影响。在这些因素当中,其中很大一部分因素是可以量化计算的,但是仍然有部分的因素是不能量化来计算的。本文的模型利用历史的GPS数据为对当前车辆运行时间的影响因素,因为,前文归纳的人、车、路、不可控因素等的影响已经在前续班次的到站时间中表现出来。在一定的时间段内,交通状况具有一定的连续性,本文基于GPS的历史数据,运用回归分析就是利用了这一点。本文以当前预测班次临近的两个班次的历史数据作为当前班次到站时间的影响因素,建立起基于历史到站数据的二元线性回归模型。设当前某路段运行时间为Y、临近的第一车次的该路段的历史运行时间为X1、临近的第一车次的该路段的历史运行时间为X2,则有:y=a+b1x1+b2x2 (3.28)式中:y因变量X1、X2自变量a、b1、b2待定回归系数3.2.2 站点滞留时间预测在现有的GPS历史数据当中,没有直接的对公交车滞留时间的影响因素,故不能采用回归分析法,但是存在着大量有规律的历史数据,故采用二次移动平均和二次指数平滑这两种方法来综合预测公交车滞留时间。(1)移动平均法设跨越期n=2个车次,令一次移动平均值Qt1;二次平均值为Qt2。at、bt为移动系数;T由预测模型所处的时间周期至需要预测的时间之间的周期数。 则可建立二次移动平均法的预测模型:QT+t=at+btT (3.29)(2)指数平滑法一次平滑指数的计算公式为:Qt1=y1+1-Qt-11=k=0t-1(1-)kyt-k+(1-)tQ01 (3.30)其中:Qt1t期的一次平滑值;Qt-11第t-1次的平滑值;平滑常数,0 1;yt第t期的观察值;Q01零期的指数平滑值;二次平滑的计算公式是建立在一次平滑之上的,为:Qt2= Qt1+(1-)tQt-12 (3.31)其中:Qt2第t期的二次指数平滑值;Qt1第t期的一次指数平滑值;Qt-12第t-1期的二次指数平滑值;3.3 综合预测模型在公交车到站时间预测模型当中,站点的滞留时间采取了移动平均和指数平滑这两种不同的预测方法。这两种预测方法在使用时,分别考虑了不同的方面,预测的结果也有一定的差异。在这样的情况下,并不能一味地否定或者肯定其中的某一种方法的预测结果,所以采取加权的方式来综合预测站点滞留时间,以便提高预测结果的准确程度。组合预测模型为:Y=WiYi (3.32)其中:Y综合预测值,即组合模型的最终预测值;Wi第i种预测方法赋予的权重系数,Wi=1;Yi第i种预测方法获得的预测值;采用标准差法确定权重Wi:Wi=S-SiS1n-1 (3.33)式中:S=si,Si为第i种模型的标准差。3.4 公交车到站时间预测流程通过前面的分析过程,可以将本次建立的公交车辆预测模型的整个到站时间预测流程概括如图3.1所示。图3.1 到站时刻预测流程图3.5 本章小结本章首先分析了到站时间预测模型的原始模型回归模型和时间序列模型的原理及步骤,结合实际的公交车到站时间预测的问题,本文建立起基于历史数据的实时修正公交车到站时间预测模型,并对模型中涉及到的站点运行时间预测和站点滞留时间预测作了详细的论述。并对整个公交到站时间的预测过程进行了流程分析。4 实例计算本文以重庆601路公交车在2013年12月24日6时40秒到8时50分23秒的25组历史GPS数据作为预测到站时间的原始数据。通过车载GPS终端得到的GPS原始数据,包括车牌、发车次数、发车时间、每隔十秒传回的速度信息,以及站点之间的运行时间,站点的停靠时间等。通过以上的25组GPS数据来验证公交车到站时间预测模型。4.1 数据的预处理4.1.1缺失数据的处理在获取原始数据的过程中,由于城市高楼或者装有GPS设备的车辆临时停车等原因导致GPS数据的丢失。数据的缺失是一种常见的误差,尤其车辆在通过高楼林立的城市或者隧道时。所以有必要采取一定的措施对缺失的数据进行预处理。在本文的原始数据中,丢失的数据并不是大量,针对这样少量丢失的数据,根据情况的不同,采取不同的处理方法。第一种情况利用相邻前一班次数据和后一班次求取均值的方法来求取缺失值:图4.1 缺失数据示例图1如图4.1所示,车牌号为5702的7:24:23发车的车辆丢失了红旗河沟东站、大庙站、小苑站这三个站的3组车辆运行时间,2组站点滞留时间数据。根据我们处理误差的方法,则5702缺失的起点站嘉华世纪城到红旗河沟东站的站点运行时间数据则为前一辆车牌为5246的车辆经过该路段的运行时间80秒和后一辆车牌号为10498经过该路段的运行时间80秒的平均值,则缺失的数据为80秒。同理可以得到后面四个缺失的数据,依次为:40秒,130秒,75秒,155秒。第二种情况利用众数和时序均值的综合方法来补齐缺失值:图4.2 缺失数据示例图2如图4.2所示:由于本次收集到的GPS数据有限,只有25组,如果缺失的数据刚好是第25组,则没有第26组的数据能参考,或者说连续缺失23、24、25这三组数据,不但没有第26组数据可以参考,而且也没有在时序上连续的数据作为估值依据,则第一种情形的误差处理方法则显得局限。根据情形二描述的缺失数据处理方法求取小苑站点的站点滞留时间,由于缺失的是第25组数据的值,直接求取前面24组数据的众数就可以了,其缺失的数据求得为10秒。又如华新街站点第24组数据和第25组数据的站点滞留时间缺失,则首先利用求取前面23组数据的众数作为第25组数据的缺失值,再用第23组数据和第25组数据的均值作为第24组数据的缺失值。通过以上方法,可以将缺失的数据补全,但是,补上的数据并不一定完全准确,正是这个原因,为后期预测可能带来的误差埋下了隐患。4.1.2 错误数据的排查与更正本文通过折线图的方式,排查出偏离的错误数据,然后将将偏离的点舍去,该点的数据按照缺失数据的方式来处理。以上清寺站到两路口站为例,首先统计出这25个车次的车辆分别需要的时间由图4.3所示,我们不难发现,在6:00:40发车的班次从上清寺到两路口的运行时间是900秒,而其余班次基本在100秒左右波动,这说明900秒这个数据存在着明显的错误,应该给予修正。图4.3 错误数据折线图首先应该将900这个值舍去,现在变为缺失的数据的处理了。则该位置的值选取众数为110秒,错误值处理后的图4.4所示。图4.4 错误数据更正折线图其余各组数据均可按照此方法对存在的错误数据进行排查和更正。4.2 数据的粗分析对GPS数据分析的目的主要是想通过运用统计的方法,能发现现有的GPS数据在时间和空间分布上的规律,为公交车到站时间预测模型的建立提供必要的数据依据。由于收集到的GPS所表达的数据量很庞大,本小节的主要任务就是将信息归类,便于直观地观察其分布规律,如表4.1所示的是各个班次到达各个站点的总运行时间。表4.1 各个班次车辆到达各个站点的总时间
展开阅读全文