数据分析与筛选

上传人:z**** 文档编号:127058825 上传时间:2022-07-29 格式:DOC 页数:9 大小:87.50KB
返回 下载 相关 举报
数据分析与筛选_第1页
第1页 / 共9页
数据分析与筛选_第2页
第2页 / 共9页
数据分析与筛选_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据分析与筛选数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料 进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值, 是实验、测量、观察、调查等的结果,常以数量的形式给出。一:分析方法列表法:将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用 的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物 理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据 需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格 名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿 度等。作图法:作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实 验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内 插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。 此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如 半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR 为纵轴,以1/T为横轴画图,则为一条直线。二:数学建模中的数据分析21基本概率分布在数学建模中对数据进行分析时通常要考虑数据的概率分布情况,这样可以 更好的了解数据总体的分布情况,以及分布是否稳定等一些数据的相关特征,其 中常用的概率分布有:正态分布N(RQ2):密度函数:分布函数为:2g 2(t 卩)2dtX2分布2(n):若随机变量XX2X3,.Xn相互独立,都服从标准正态分布 N(0,1),则随机变量Y 二罗 + Y22 + -Y2n 是服从自由度n的分布,记Yt(n)。” XT二冇 服从自由度为n的t分布,记为Tt(n)。 F 分布 F(n1,n2)若XX2(n ), YX2(n ),且相互独立,则随机变量1 2X / Yn n1 2服从自由度为(nl,n2)的F分布,记为FF(nl,n2)。在对随机现象的观察和研究中,人们发现有许多随机变量,它们是由大量的 相互独立的随机因素的综合影响而形成的,而其中每个因素在总的影响中所起的 作用又很小,且各因素的作用还是相对均匀的,则这种随机变量往往服从或近似 服从正态分布。数据分析在生活中的运用非常广泛,最住要的体现是在销售利益、性能测试 等的方面。下面是数学建模中常用的数据分析类型。22异常数据的挖掘和处理口 在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的 统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况 下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异 常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多 数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过 程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重 要的隐藏信息丢失2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科 学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。异常数据的挖掘方法所谓数据挖掘就是按照既定的目标,对大量的统计数据进行探索,揭示隐藏 其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们 认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以 用以下几种方法进行挖掘:3o检测法2 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时 间序列),都分布在其均值周围,标准差o能反映其离散程度。统计数据可以是 来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知 道,对于任意的0 ,有:C 2Pl X - E(X )18 3b 3b二21-机3)二0.027,即在正态 分布下统计数据与平均值的离差大于b的概率仅为0.27%,所以可将那3o些 有均值之差的绝对值超过3a的统计数据视为异常数据。根据概率论中的中心极 限定理,因此3a检测法在实际中比较常用。当然它的局限性是只适用于单维异常数 据的挖掘。2.3利用聚类分析法对数据处理聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的 过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成 若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指 标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小 或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在 几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断 定这些样品数据为异常数据。1、数据在聚类分析之前要进行数据的变换,常用的方法有a中心化变换:x* = x 一 x(i = 1,2,3, .m)ij变换后的数据均值为0而协方差不变。B.标准变换:x 一 xx* = 7j (i = 1,2,.n; j = 1,2,.m)s其中Sj是标准差;变换后的数据每个变量的样本均值为0而且标准变换后 的数据与变量的量纲无关;2、由聚类分析法的基本思想,即可得出 数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时 为了便于计算和比较,或改变数据的结构; 计算n各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵D(o); 初始(第一步:i=1)n个样品各自构成一类,类的个数k=n,第i类 G = x (i = 1,2,.n),此时类的间距就是样品距离然后对样品X (i = 1,2,.,n)执i(ij)(i)行并类过程和; 对步骤3得到的距离矩阵Di-1,合并类间距离最小的两类为一新类,此时类 的总个数k减少一类卩k二n-i+1; 计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k仍然大 于1,重复以上的过程, 画谱系聚类图; 觉定分类个数及各类的成员。24典型例 市场占有率问题一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企 业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所 处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市 场范围有4种测算方法:(1) .总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。(2) .目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务 的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市 场,因而它的目标市场份额总是大于它在总体市场中的份额。(3) .相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大 的3个竞争者的销售总量之比。如一个企业的市场份额是30%,而它的3个 最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就 是30%三40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。 一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一 定实力。4相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者 的销售量之比。若高于100%,表明该企业是这一市场的领袖。三、数据筛选数据的筛选在数学建模中占有很重要的地位,它是数学建模的第一步,我们 只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中我 们遇到的数据量往往是巨大的。为了保证我们所用的方法能够在原始数据的支持 下得以实现,我们必须要对数据进行筛选,使得解决方法简单化。但是我们又要 保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。数据筛选有很多种不同的方法31:随机抽样从一个总体的样本X中随机抽取出n个个体,这样称对总体X进行随机抽 样,其中n叫做样本容量,这n个个体构成了样本。在随机抽样过程中满足随机 性和独立性两个特征,即对于每一次的抽样在总体中的每一个个体被抽到的概率 都相同,每次抽取的结果不会影响到下一次的抽取。这样的随机抽样适用于对总体的概率分析等统计方面的应用,比如可以分析 数据中的最大值、均值、众数等数据特征不能够对数据的3.2利用粗差法筛选数据1基本假设利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种筛选数据 的方法,其主要的运用体现在矿井通风阻力测定数据前处理的运用中,以及其他 相类似的数据处理。以下我们就以矿井的通风阻力为例介绍粗差筛选数据的方 法。在进行通风阻力测量时,要求选择合理的测量路线,在每条测量路线上选择 合理的测量点,每个测量点至少要求5个数据。在测量期间,如果巷道通风状况 等条件保持稳定,则某点的数据样本符合正态分布,且其平均值近似为真值。某测点测量数据的样本x=(xl,x2,x3.xn),n5,的方差为S2 = Y (X - X )2( 1)n -1ii=1设允许的测量误差为a(0vav1,般取0.05或0.1),那样本均值近似代替真值, 则样本值的最大允许范围为:(1 a)x x (1 + a)x, i = 1,2,.n 样本x的最大可能方差为:(2)n(ax)n 一 1(3)测量数据之间的两两误差Ax = x -x,i, j = 1,2.n,则误差矩阵可以表达为ij Ax =0AxAx.Ax1,21,31,nAx0Ax.Ax2,12,32,nAxAx0.Ax3,13,23,nAxn,20一 x , i jAx1- n ,1 矩阵Ax的无穷范数为:=11 Ax 11= maxmaxi=1 nI Ax i ,j(4)j=12分析方法某点的测量数据不存在粗差,则在给定的测量误差范围内有:s 2 s 2max则认为存在粗差。如果某此测量数据xi粗差中偏移最大的值,则在公式(4)所表示的误差矩 阵中,当i=k时,Y | Ax I取最大值,也可以表示为公式(5),即取误差矩阵Axi的无穷范数时的测量误差X. k为偏差最大的数据,亦称最大粗差。如果某次测量数据较多,在保证计算可靠性的基础上,为了减少计算量或统 一规范,也可以采用该方法进行有效筛选。经过逐次筛选,将测量数据按偏移量从小到大按顺序依次排序,直到 s2 s2为止,这样就可以得到测量数据的正常取值范围。同时,为了保证测量max的可靠性,一般要求具有代表性的数据至少有3个。以上就是利用粗差来晒选数据的基本步骤,在筛选数据时的重要依据就是样 本数据与无穷范数的差值,而无穷范数是通过误差矩阵经过公式(5)得到的。 通过这样的方法就可以将数据筛选。3.3利用自组织方法进行数据筛选自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。 它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合 起来。其主要思想是通过简单的初始输入(局部变量)的交叉组合产生第一代中 间候选模型,再从第一代中间候选模型中选出最优的若干项组合而产生第二代中 间候选模型,重复这样一个产生、选择和遗传进化过程,使模型复杂度不断增加, 直到选出最优复杂度模型为止。本文利用自组织方法进行数据筛选和建立税收预 测模型,并在数据筛选基础上建立线性回归预测模型和BP神经网络预测模型, 然后结合时间序列的预测模型,利用自组织方法建立组合预测模型。通过预测结 果比较得出了组合预测模型比其它单个模型具有更高的预测精度。其重要的应用 体现在对税收收入的的预测问题上。税收收入预测可以使用统计技术,其使用的模型一般分为时间序列模型和回 归模型。时间序列模型的缺点在于不能充分利用与税收收入密切相关的经济因 素,导致预测的数据不准确和不稳定。回归模型虽然考虑了经济因素,但需要事 先知道其它经济因素与税收收入间的函数关系,而且为了获得比较精确的预测结 果,需要大量的计算。许多实验表明BP神经网络用于税收等经济指标的预测也 是一种适合的方法。神经网络的优点在于它具有模拟多变量而不需要对输入变量 做复杂的相关假定的能力,只要利用以往的历史数据,就可以从训练过程中通过 学习来抽取和逼近隐含的输入/输出非线性关系。但BP神经网络也有缺点,特别 是在复杂系统建模时输入变量确定主观化等缺陷。为结合回归模型、时间序列模 型和神经网络模型的优点,有人利用自组织方法将多种模型的预测结果进行组 合,实现自组织方法的组合预测模型。所谓组合预测,就是将不同的预测方法进 行适当的组合,综合利用各种方法所提供的有用信息,从而尽可能地提高预测精 度。为提高预测的精度,自组织理论在复杂系统的模拟、预测、模式识别、样本 聚类等诸方面都有成功的应用利用自组织方法对数据进行预处理利用自组织方法,将税收收入作为因变量,其余变量作为自变量,通过自组 织GMDH方法的实现工具KnowledgeMiner 5.0建立模型得到税收与相关变量的 模型的方程为:Y=-190.456894-0.033271X7+0105339X2+0.736523X9 其中,决定系数 R2=0.9934,预测误差平方和:0.0079,平均绝对百分比误差:4.53%,近似误差: 0.0066。从模型的拟合效果看,除1985年左右的拟合税收数据与实际税收相差超过 5%之外,其余年份的数据拟合误差大多小于5%,说明回归模型建立成功。根据该方程可知,该组变量中最能反映税收变化的变量有财政支出总量、城 乡储蓄存款年末余额、社会消费品零售总额。自组织方法挖掘结果表明,由于相 关性等原因,尽管税收收入与很多经济指标相关联,如与GDP之间就有非常密 切的关系,但从拟合和预测的角度讲,并不是经济指标越多越好,也不一定是有 密切关联的就一定选用,而应该选择最恰当的组合。4.组合预测模型的建立(1)利用以上变量建立四个单项模型。 自组织方法建立模型Y1:Y1=-190.456894-0.033271X7+0.105339X2+0.736523X9 多元线性回归模型Y2:利用最小二乘法,根据实际税收观测值与回归估 计值的偏差平方和最小为原则,通过 SPSS软件计算得多元线性回归方程: Y2=-432.738+0.158X2-0.077X7+0.7652X9通过拟合检验,除1985年左右的拟合税收数据与实际税收数据相差超过5% 以外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。 时间序列模型Y3:时间序列模型基本思想是将预测对象随时间推移而形 成的数据序列视为一个随机序列,即除去个别的因偶然原因引起的观测值外,认 为时间序列是一组依赖于时间的随机变量。这组随机变量所具有的依存关系或自 相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描 述出来就可以从时间序列的过去值及现在值来预测其未来值。时间序列模型一般 有:自回归(AR)模型、自回归滑动平均)模型等。这里使用AR模型,时滞 因子为1,通过KnowledgeMiner建立时间序列模型:Y3(t)=-58.077019+1.182588Y3(t-1),其中 t=2, 3, 21,Y3(1)=629.89 通过拟合检验除1985年左右的拟合税收数据与实际税收数据相差超过5% 之外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。(2)自组织方法组合预测模型。组合预测理论“组合预测”思想是由 和C.W.J Granger 1969年首次提出,其研究成果引起了预测学界的高度 重视,其应用范围也逐渐扩大。组合预测理论的基本原理是:通过个体预测值的 加权算术平均而得到其组合预测值,在确定加权权重(也称组合权重)时,以组 合预测误差方差最小为原则。其本质就是将各种单项预测看作代表不同信息的片 段,通过信息的集成分散单个预测特有的不确定性和减少总体的不确定性,从而 提高预测精度。组合预测模型为:Y=(fY1, Y2, Y3, Y4),利用以上四种预测 方法的数据拟合值和历年实际税收数据,使用KnowledgeMiner 5.0进行挖掘的组 合预测模型:Y=47.07665+0.7708Y1-0.22236Y3+0.42303Y4自组织方法挖掘的结果舍弃了按照观测值与回归估计值的偏差平方和最小 为原则的线性回归方程而选用自组织方法建立的方程。研究表明,通过自组织理 论数据挖掘得到的方程比按照观测值与回归估计值的偏差平方和最小为原则的 线性回归方程在有噪声的情况下预测效果更佳。通过实际比较也确实发现自组织 方法建立的方程拟合效果略差,而预测效果较好。由于神经网络模型对数据的拟合非常精确,若只使用神经网络的训练数据通 过自组织方法进行数据挖掘,很可能数据挖掘的结果会出现组合预测模型只与神 经网络模型的结果相关而舍弃其它模型的预测结果,因此在使用自组织方法进行 数据挖掘时不应全部使用神经网络拟合数据,而应适当使用预测数据。5预测结果从中国统计年鉴取得20022004年财政支出总量、城乡储蓄存款 年末余额、社会消费品零售总额和税收收入数据,见表2。分别通过以上建立的 四个模型进行税收收入预测,并与实际税收收入进行比较,见表3。其预测误差 平方和(FSSE )的计算。通过自组织建模方法可挖掘出税收与各经济指标间的内在联系。线性回归模 型、时间序列模型、神经网络模型都可较好地做相关预测工作;组合预测方法可 进一步提高预测效果。由于税收收入很大程度上还受政策因素等影响(1985年 前后税收数据),因此在进行数据选择和整理时还需尽量考虑这一因素。参考文献:1.李明建,通风阻力测量数据粗差筛选方法的数学模型,煤炭科学研究总 院,重庆:冯杰、黄力伟、王勤、尹成义,数学建模原理与案例2006年148901 号
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板表格


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!