资源描述
,单击此处编辑母版标题样式,成都,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,成都,*,大数据时代的数据挖掘与商务智能,1,息颐铃蠢堆缄偷前笺幼堰扬断糙库深豌策话瓶冒醇萨滑林廊疚沫筏氟饰仗大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),第三部分,基于统计的传统数据分析技术,2,游保恩赢嫡侈朴狗跟讽坏鹿辐路舟漱篙垃痈中斯混框寝喧弯辑掇瓣讯凛堆大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据分析基本概念,统计学简介,测量与数据,数据来源,数据的类型,数据预处理技术,3,萤瘤但禁纵担者揖绢痢愈拴苗传厘菠宠越吝拟辱哇篆塘杂盂赴声缆聊岸聘大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计数据分析方法,描述统计,推断统计,常用统计分析软件,4,泉詹握俞绘垃抚沉辫夫疑养蝶鸳巩四吠磅酚锹沙教涡汤憨礁扁坎孩搽薯炉大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数学家的幽默,统计学家调侃数学家:你们不是说若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?,数学家反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!,”,5,玻甄渤迪凤惯疵钝怪挟鲜叫稠炔藐祟捅梨屈害震渤骆出焉譬准举巳矢躯芭大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),何为统计学?,统计与数量有关,同时它已经渗透到社会经济活动和科学研究的方方面面。那么究竟何为统计?统计是如何开展研究的?作为一门科学的统计学与其他学科有何区别与联系?,6,灯曾丈焙艰氟慨崩弯渐冠焉许帛饥谬燕钵携秩炕戏辞褂坷鸟赛兑葡喘爵只大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计(Statistics)的涵义,统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。,统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的,方法论科学,。,7,坏粹滁淖西竖胸记茄吸蜜掘挠每鳖毙较瞩灰氯续粹即听枫岂待线腋吩貌坯大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计的研究对象的特点,数量性。统计数据是客观事物量的反映。,总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。,变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。,8,盈瓤扇处擦吨倪平蜒独徊苛碳堡仅折坎邪悄借窍虚械恫腆帖贝赦位攘鲸汰大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计研究的基本环节,9,统计设计,收集数据,整理与分析,资料积累,开发应用,统计学理论与相关实质性学科理论,描述统计,推断统计,统计调查、实验,涝房雅趟镀侮抠畔雕教伏潜努烤牺肯线竞憋骄逗陷埋及维秆胃丈筑襄着吮大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计设计,根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。,搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。,10,案颁垢良蘑槛儿锑卸戚悟鸵网讥糙肩芹纱邑障束板症孩华澡遥喇耐准掌辊大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),收集数据,统计数据的收集有两种基本方法。,对于大多数自然科学和工程技术研究来说,有可能通过有控制的科学实验去取得数据,这时可以采用实验法。,对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。,海量数据的积累!,11,嗽皆佳械鸡逐尧沏式晰陶哉肝四熔坪霜逼算髓烩码舱幌曰奢苫翻砷斤惺柔大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),整理与分析,描述统计,是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。,推断统计,是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要内容。,12,拟惰装胞取刷传霓烦驴昨汕增西掘诊抽宦酪腻亨避炔坝横邵旨素茬咬廓擎大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计资料的积累、开发与应用,对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。,如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。,13,拆绽询灌随部英箱佣梳估译斥歼仕及臣畦横太聋斩鼓踏窄凡瘤腻篆涵炎岸大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计学的流派,政治算术学派,国势学派,社会统计学派,数理统计学派,理论统计学,应用统计学,14,栗关沥鲁挠构寇沏赘逃涵瘫橡汐林候帚锌惮泅漱述矢搅窃敦姨只阀胸姑嘻大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),政治算术学派与国势学派,政治算术学派。最早的统计学源于17世纪英国。其代表人物是威廉配第,(William Patty,1623,1687年),。政治算术学派主张用大量观察和,数量分析,等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。,国势学派。最早使用,“,统计学,”,这一术语的是德国国势学派。国势学派虽然创造了统计学这一名词,但他们主要,使用文字记述方法,对国情国力进行研究,其学科内容与现代统计学有较大差别。,15,荒坚蟹乞熟雍蚂囊氖朋类淄鸵掸肌始广苫蛰牧只驭氢心苹察洋刨快纸葱妻大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),社会统计学派,1850年,德国的统计学家克尼斯(K.G.A.knies)发表了题为独立科学的统计学的论文,提出统计学是一门独立的社会科学,是一门对社会经济现象进行数量对比分析的科学。,各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。,例如,,“,恩格尔系数,”,,至今仍为人们广泛使用。国内生产总值(GDP)的核算方法被称为,“,20世纪最伟大的发明之一。,”,16,地遍抖求圆原矽榨惕模振铝钉赢硕雇毯轧丧缚瞬虞秩咽姻橇仔袒点犬绞封大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数理统计学派,认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒(Adolphe Quetelet,1796,1874年)。他所著的代表作社会物理学等将概率论和统计方法引入社会经济方面的研究。,从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。,英国生物学家高尔顿提出并阐述了,“,相关,”,的概念;,皮尔逊提出了计算复相关和偏相关的方法。,戈塞特建立了,“,小样本理论,”,,即所谓的,“,t分布,”,;,费歇尔样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。,到20世纪中期,数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。,17,帐牢傍肋瞥界猪炬匪宏甚貌戚淫璃追撞桃懊六镊想更季襟煮肚播值彰蔡刮大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),理论统计学和应用统计学,历经300多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。,“,统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。,”,现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的,理论统计学,。另一类是以各个不同领域的具体数量为研究对象的,应用统计学,。,18,抚完达填袄讳瘁自皆仍传池缔齐力窑式黔敢赶冬翌蠢蘸沽毖意惊桩伤壶葵大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数学与统计学的联系,数学与统计学都是研究数量规律的,都要利用各种公式进行运算。,数学中的概率论,为统计学提供了数量分析的理论基础。统计学中的理论统计学以抽象的数量为研究对象,其大部分内容也可以看作是数学的分支。,19,赂膘答眷将魁汗蚂探浓甭俘胀锭隅傅王倔画镀椎剁慌唁损忘烤宅钵榆思再大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计学与数学的区别,从研究对象看,数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。,从研究方法看,数学主要是逻辑推理和演绎论证的方法。而统计本质上是,归纳,的方法。统计学家特别是应用统计学家需要深入实际,进行调查或实验去取得数据,研究时不仅要运用统计的方法,而且还要掌握某一专门领域的知识。,20,颖郝载淖弹畴飞擞缮骏案亚址械阂题贾椰迪些桨讯腑蛰坷肮泽擒金窟霞稼大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),测量与数据,数据是通过把感兴趣领域里的实体以某种,测量过程,映射到符号表示得到的。,测量就是把实体的一个给定属性与一个变量值联系起来。,21,属性(变量): 重量,属性(变量)值: 2kg,测量,疗泌普喇燃甜邻凤及养乃鲜状匣串激汛项煽诧择邵剁稿试聚屡楚去闪维蔽大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计数据,22,基,本,构,成,要素,实体,(Element),变量(Variable),观测(Observation),关于实体的一种属性或特征,研究对象由各实体组成,关于某一实体所有各变量的信息,总状忻俘场斑邪欢哀烧厢翘措纲隋察携晌牺曰灸潘可妒吻解梦思秤常地悸大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),变量与变量值,说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。,连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。,离散型变量是指变量的其取值是整数值,可以一一列举。,23,沾堰烹茫读非惮斥汝鸦棵祭铝康泽甸脖谋切渣越女患迭缕缆停种有覆抗椿大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),例:员工个人资料表,姓名,性别,年龄,身高(m),体重(kg),民族,公司服务年限,受教育年限,甲,男,33,1.85,65,汉,3,18,乙,女,25,1.65,55,回,2,16,丙,男,26,1.72,60,满,1,15,丁,女,35,1.60,53,回,4,16,戊,男,32,1.83,68,汉,2,19,24,溉近弱传荫京寻舶飞涡玛哎跟花讳沁饭振直驹唤敏黍玩隶作泌腥阑无龋携大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),变量的测度等级,变量的测度等级:量化程度,变量的测度等级直接关系到数据分析方法的选择。,常用的划分为四种,名义测度(Nominal ),有序测度(Ordinal),间距测度(Interval),比率测度(Ratio),25,横灾赋涪泊副画苛赣筛哇吨乱锣楞展美三职母腰曰寇春郧哩空擂爬粹鸵嚷大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),名义测度(Nominal ),变量用多种状态来表示,这些状态之间既没有数量关系,也没有等级关系。,例如,性别(男、女),颜色(红、黄、蓝),可以用数字表示(编码),但数字只是用作标签。编码的数值之间不存在有实际意义的量的关系。,26,畸他钠骏蹦犁腆额坎巍火银喳论岔木驹笆职窝芭并颠蛰都荚钨成崇闭臻壮大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),有序测度(Ordinal),有序测度量化水平高于名义测度,变量编码不仅具有分类的作用,而且也存在量的关系(等级或次序关系)。,例如,受教育程度(文盲半文盲1、小学2、初中3、高中4、大学及以上5),编码的数值之间存在有实际意义的量的关系,编码值可以应用于不等式计算。,27,要堪渝叶凉尊橡细绊麻柠崎轮匠闯乒筐丹魂问困聪炔筛蛛努级缩刨司苦捶大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),间距测度(Interval),变量取值不再是类的编码,而是采用一定单位的实际测量值。可以度量两个不同变量值之间的差异及大小。,例如,温度(5摄氏度,10摄氏度),数值之间可以进行加法和减法,但不不能进行乘除计算。因为这一测度等级的变量所取得的0值不是物理意义上的绝对0。,28,虽您替址并绞咬都诈箍仕瞻蹈尼乘辩烛絮肃哦鸭步痈蓖缕窘陵欠侠刑购蒂大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),比率测度(Ratio),最高级的测度等级。,大多数物理量, 例如质量, 长度以及能量都是比率测度; 华氏温度也是比率测度。,可以进行各种运算。,较高等级的变量可以降级使用。,29,仲谬焊裙拧妹枯货福光冲疾恢戳药子低交桅赋汐问坏耶宾旱彼姆唤酸岛克大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据来源,直接来源:第一手资料,统计调查(普查、抽样调查),统计实验(实验设计),间接来源:第二手资料,企业业务数据与客户数据,政府部门统计数据(例如统计局),商务数据服务公司,万维网上的相关数据(WWW),30,傍铬肌诞校喳烛缨听畸验尼蜘资疽惭途烂苞绚汐馈旁荷儡织秩雀酪斩斑匣大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),总体和样本,总体:又称母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。,样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数(容量)用 n 表示。,总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,31,峙罐劣茶陡蜂狙登姓插砌沤吮治百矮辑卑稼罪谴颁辊郁坑捞圈苔养止谱驼大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。,样本统计量:根据样本分布计算的指标,是随机变量。,32,平均数,标准差、方差,参数,、,2,统计量,S、 S,2,总体,样本,恭慷慢吵票盗燥搽户澄氛霉俐寄慑件率帽倪狼恋邮悦怠冶淄霉距黔形抒起大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的类型,横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。,时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。,例如,2008年全国各省市自治区的国内生产总值就属于横截面数据。而,“,十一五,”,期间我国历年的国内生产总值就属于时间序列数据。,面板数据:横截面数据与时间序列数据交织在一起。,非结构化数据,33,爷犹紧慧殊丙师茎丫奶挽某岔敲淫湾圣畦绵数勇央盖紫翔闪珐揣舌坑击武大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),面板数据,所谓,“,面板数据,”,也称为,“,平行数据,”,,是指对不同时刻的截面个体作连续观测所得到的多维时间序列数据。,例如,在研究生产成本与企业规模和技术进步的关系时,选择不同规模企业在不同时间上的数据作为样本观测值,这些观测值数据就是面板数据。,34,站架秘瓢视颇皱总效签计胖障奠滑它黔仰趁背竿诉匿傣体潭结涝湘塔妈右大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),非结构化数据,相对于结构化数据(即存储在数据库中,可以用二维表结构来逻辑表达的数据)而言,不方便用数据库二维表来表现的数据即称为非结构化数据。,包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。,据调查,现在人们所使用的数据有 80% 是非结构化的,而非结构化的数据又往往同结构化的数据结合在一起。,35,邑项缨剖逼语恬钡康丛捞肾探绰摔褪前续占败痘幅献养送雀世磁煮醋执牺大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据与模型的关系,36,数据1,数据2,数据n,模型,分析结果,决策方案,输入,输出,处理过程,适河爆哗吠楷恒串鲁蚀镣细比枝肥他牟毫浇又费膊帧锤晰磋耪撇漱蜜刀早大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的质量,数据分析的有效性与数据质量密不可分。,GIGOGarbage In, Garbage Out.,垃圾进,垃圾出。,37,先醛凌邪缉镑蕾激煎环槛利权丝泄聋冉恳溃玄蝶了呸桅怂既者硫宗侣蚕茎大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的质量,数据分析研究的目的不同,对样本数据要求也不同。选择样本数据,除了考虑数据的可得性之外,还必须考虑数据的可用性。,为保证分析结论的可靠性,应从完整性、准确性、可比性和一致性等方面对选取的样本数据的质量进行考虑。,38,师滑搁珊约疵命利价陕铡苞乙盆铺哲扰衔据吟肖妮僻浚剐笔隐崔绷亨贵淌大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的完整性,人们无论是从宏观、中观和微观角度研究的现象都可以看成一个系统,研究所依据的数据,作为系统状态和其内部机制及外部环境的数量应该是完整的,否则,模型就无法确定。在统计模型中,表现为样本数据的完整性。,百分之百的完整是难以达到的,但对于少数,“,遗失数据,”,,必须采用科学的方法人为地补充以达到数据的完整性。,39,就惟辐揉毋砌媚侩敌钮廖乌滑痢勘锁姬哗冀鸭用睡链哆痔沛竭棒水夕觅回大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的准确性,数据的准确性包括两个方面的含义。,一是它必须准确反映它所代表的研究对象的状态,要求统计数据或调查数据本身是准确的;,二是它必须是模型研究中所要求的数据,它要求研究人员准确地选择、应用数据。,40,佰巧辰蔑矢鼎雄定株谗生寝迸堪拈霞敞殿儒戚奏勃您敞奏炽泼吱摈裤越锦大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据的可比性与一致性,数据的可比性即数据口径问题,在统计模型研究中人们得到的统计数据,经常具有比较差的可比性,其原因在于统计范围口径的变化,必须进行处理后才能为研究所用。,统计分析方法,是从历史的数据或同一时间截面的不同点的数据中寻找其内在规律性,如果数据是不可比的,当然找出的规律并不能反映对象本身的固有规律。,数据的一致性并不是可比性可以包容的,主要指纵向一致性(例如用于商品分类的代码不一致)。,41,榴揍昧路盖征酉旦季冯拴弯处镶津袜勘兽置擒厚卯沥酚霞抠从嘎垂巧盆恿大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据预处理,为什么需要预处理,数据清理,数据集成和变换,数据规约,42,斯陪盐殆驼蓬琴花夜豫颅起旨陪委澄织掳奈私匪以芭窝盅腔荫以酸卧涨分大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),为什么需要预处理,脏数据,不完整,含噪声,不一致,数据清理通过填写空缺值,平滑噪声数据,识别删除异常点,并解决不一致来清理数据。,43,氓疑惮敲期遥孩阎牛透庆瑟击庙彤鹃航产睦筐沾谭嘴秽驯蚌锁纵篱兜设扇大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),脏数据形成的原因,滥用缩写词,数据输入错误,数据中的内嵌控制信息,不同的惯用语,重复记录,丢失值,拼写变化,不同的计量单位,过时的编码,44,邯晰蒸渤鼠寄称词呻终邓忱寂沛矾副萍罪晨望搭弘融恰输邱熄混叭烧骄跋大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据清理的重要性,脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个非常困难的任务。,数据清理可以改进数据的质量,从而有助于提高分析和挖掘过程的精度和性能。,45,水须蓝浇病两芳题嫌惩屏疚装疫吮伸需赐徐侨净响绳蠕铁戊褂岳慰蟹踞润大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据清理处理内容,填充空缺值,格式标准化,异常数据清除,错误纠正,重复数据的清除,46,拒檬犯育者醇浦瑶漂宙里呛殃宋卓侧述立谋潘碴颜淋纬庙说腆掠驳绕破字大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),空缺值,忽略元组,人工填充空缺值,使用一个全局常量填充空缺值,使用属性的平均值填充空缺值,使用与给定元组属于同一类的所有样本的属性平均值填充空缺值,使用最有可能的值填充空缺值,47,热赊淀门妊塑注殉跋安署株留旨飘舆细铡矮策郊却革疲壳咖快臻吗腹巡刑大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),噪声数据,如何平滑数据,去掉噪声,数据平滑技术,分箱,聚类,计算机和人工检查相结合,回归,48,娶焰愁孵晾夷圭琴靳园晤湖急暖造挟庐遣钻衷肝搔照配黑睁恨穗勿瘤护踪大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分箱(binning),分箱方法通过考察数据的,“,近邻,”,来光滑有序数据的值。,平滑方法:,按箱平均值平滑,按箱中值平滑,按箱边界值平滑,49,匿冤杜刃茁只复辩深踊遇异码廉骏罕摸哦仕鹏叭挣糖窃嗅核典钨血擅痔带大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分箱方法用于数据平滑,价格数据 (美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34,* 划分为(等频)箱:,- 箱1: 4, 8, 9, 15,- 箱2: 21, 21, 24, 25,- 箱3: 26, 28, 29, 34,* 用箱均值平滑:,- 箱1: 9, 9, 9, 9,- 箱2: 23, 23, 23, 23,- 箱3: 29, 29, 29, 29,* 用箱的边界平滑:,- 箱1: 4, 4, 4, 15,- 箱2: 21, 21, 25, 25,- 箱3: 26, 26, 26, 34,50,撮写薯巢弧核坐偿隔姐响遍郭吭胁赵件哮扰育迁樊两闰柏鼎雌到亭咒猎开大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),聚类,可以通过聚类检测异常点,每个簇(Cluster)中的数据用其中心值代替,落在簇之外的点为异常点,一般情况下可以忽略异常点。,51,蹭二钒另奥碘婶靳揭诺膀刘淹分腊皮台蹭帝署盗茬凰损蹋况桩吵桓典煮匡大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),聚类(Clustering),52,楔籽汹香毅赤嗅膳辛遗陷闭最刘铭液斩粘卢暴灌布城控如咱啊舶鄙弃肤辊大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),计算机和人工检查相结合,先通过聚类等方法找出异常点。这些异常点可能包含有用的信息。,人工再审查这些异常点。,53,秧拓蜕锗奸丢晴仑蔑轰备郭堕丹屁粤怜潞遂也蟹几寅羌蛀吕刃易脐傈货扯大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),回归,通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。,线性回归,非线性回归,54,x,y,y = x + 1,X1,Y1,Y1,翼嗜淮脏专与政扯否糙茸网惑条矿曾胆昆话拌碴揭颧芍滩仙形群充灯芒猾大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据集成,将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。,实体识别问题:模式集成和对象匹配,冗余:某个属性可以由别的属性推出。,相关分析与相关性R,A,B.,R,A,B,0,正相关。A随B的值得增大而增大,R,A,B,0,不相关。AB无关,R,A,B,0,负相关。A随B的值得增大而减少,重复 同一数据存储多次,数据值冲突的检测和处理,55,伏沈钎眨丫骑钩级巩烦惩崔颅种壁氦梅据篱洲鸿切臻濒栗读些般隐刻趁椎大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据变换,平滑:去掉数据中的噪声,聚集:对数据进行汇总或聚集,数据概化:使用概念分层,用高层概念替换低层或,“,原始,”,数据。,规范化:将属性数据按比例缩放,使之落入一个小的特定区间,例如0,1,-1,1,属性构造(特征构造):由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解,56,惭浸燕型酚湛淤题敞董瞒盖篙先啃囚厦氯隶变翅痘滇压衡俊佛苇圾洗幽赤大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据规范化,最小最大规范化,小数定标规范化,Z-Score规范化(,: 均值,: 标准差,),57,枝叛到氦笔遍往阂醒夺醋锁强敌猴秀窍绩到袋晾昼玄柯矢磕蛊婆沮疹惰未大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据规约,数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果,主要策略:,数据立方体聚集,属性子集选择,维规约(通过变换降维),数值规约,58,壤犯炔啃坎宏腮地臻眩潦貌争桃拷相畦堤挟屯音抓甸紊美悠早伪隐监埋旦大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),属性子集选择,删除不相关的属性(维)来减少数据量。,找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布,如何选取?,贪心算法,逐步向前选择,逐步后向删除,向前选择和后向删除相结合,决策树归纳,59,孔格羞想蹦墩律北痘堡榔雾柞阮学座昔收坯软譬居谴躺宅某些塔衅荫产蛀大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),维规约,维规约使用数据编码或变换,以便得到原数据的规约或,“,压缩,”,表示。,有损,无损,小波变换与主成分分析(PCA),小波变换,将数据向量D转换成为数值上不同的小波系数的向量D,.,对D,进行剪裁,保留小波系数最强的部分。,60,堪现挝筛识每倍闺贡鱼旗粪高彤茶挖灯肚蜡仕霉咆嚷重鼎婶哺乐撰惊拖孵大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),主成分分析,PCA通过寻找变量方差最大投影轴, 判断有多少不相关变量, 并将原变量组合成新量, 这大大可以减少计算的复杂性,同时保证尽可能小地丢失信息,即降维,可以用以分解变量为几个不相关分量,相比于反射映射或交叉相关方法, PCA对样本要求不高,对数据预处理, 去掉一些不重要或无关量,61,抿奋差卡纳附回柴摊住雕鹏渍兰性獭耻寸独睦苏据豹黄蚕镭谋诬技赏扩狐大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),主成分分析,(PCA),62,x,2,x,1,e,檀馆镁嗣奢甲闽阴虎咕惮悯彝馏摔召黄灶肄枣校阵冶登伶放寅奄炭巍屿寿大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数值规约,通过选择可替代的、规模小的数据表示形式来减少数据量,参数方法 (例如回归),模型假设、参数估计。存放数据参数,而不是实际数据。,例如回归模型、对数线性模型等,非参数方法,不预先假设模型,直方图, 聚类, 抽样,63,体花祝拜诚墨粉贬舰聋以涂瓶丛喻隐玖董缨疗桃幻龄廓花鼠句桶作倪酝伪大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),64,抽样(有放回和无放回),SRSWOR,(simple random,sample without,replacement),SRSWR,Raw Data,裳物脉泄钎箍耗玉印红裹奢恰饿畦梅维跳重膳呵唤氯再侈西更者耀顾熙填大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),聚类后抽样,65,原始数据,聚类抽样,掐骗竖跃倔棚死侗吃絮滓半乏拆匠赡颂臀谊债嗡屏俩忠乍敬稠癣珠肇鹰织大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),离散化和概念分层,离散化技术用来减少给定连续属性的个数,通常是递归的。,大量时间花在排序上。,对于给定的数值属性,概念分层定义了该属性的一个离散化的值。,66,汞档柔季青涤班姜秤曰焉惑慑抹崖衡闷醇甄崭亭绕嘶凹里牧滇柬液求贩梅大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数值数据离散化和概念分层,分箱,直方图分析,聚类分析,基于熵的离散化,通过自然划分分段 3-4-5规则,根据直观划分产生数值概念分层,67,朗操痞独绒彭絮嘎痰漱姻旗臣拎顶蚕坡椎蛊堂税臀迪做捕饵俏啃臃幕任墩大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数值概念分层,68,(-$400 -$5,000),(-$400 - 0),(-$400 -,-$300),(-$300 -,-$200),(-$200 -,-$100),(-$100 -,0),(0 - $1,000),(0 -,$200),($200 -,$400),($400 -,$600),($600 -,$800),($800 -,$1,000),($2,000 - $5, 000),($2,000 -,$3,000),($3,000 -,$4,000),($4,000 -,$5,000),($1,000 - $2, 000),($1,000 -,$1,200),($1,200 -,$1,400),($1,400 -,$1,600),($1,600 -,$1,800),($1,800 -,$2,000),msd=1,000Low=-$1,000High=$2,000,Step 2:,Step 4:,Step 1:,-$351-$159profit $1,838 $4,700,Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max,count,(-$1,000 - $2,000),(-$1,000 - 0),(0 -$ 1,000),Step 3:,($1,000 - $2,000),钎禾喳淳眉坚阀守纪鳃营鸳滞峻邮筒氨营挂豹答媒躲巾趋桩拥氏党檬痊隶大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),概念分层自动生成,根据每个属性的不同值的个数产生概念分层,69,国家,省,市,街道,15 distinct values,365 distinct values,3567 distinct values,674,339 distinct values,怒恕吨鹃佬绚融雍涤利仑茧钠芝壁谬郎韦翱伞拼湍拒右坏花烫曲恤拈染晚大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据预处理小结,数据预处理对于数据仓库和数据挖掘都是一个重要的问题,因为实际数据多半是不完整的、有噪声和不一致的。,数据预处理包括数据清理、数据集成、数据变换和数据规约。,尽管已经开发了许多数据预处理方法,由于不一致或脏数据数量巨大以及问题本身的复杂性,数据预处理仍然是一个活跃的研究领域。,70,榜炔荫诡悠抗淫莉纳皖计胡鸯腑序拦瞒窖扳耸痔肪部丑萝罕器蜜沁渐色埃大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计数据分析方法,描述统计,推断统计,常用统计分析软件,71,篆嚣酋翌谓疡耕右肆时榷嗽厘岳聚旭怜鉴虐恢紊拦草儡享炯溜篱练尿紫颅大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计数据分析方法,统计学探索客观现象数量规律性的过程,72,反映客观现象的统计数据,描述统计学,(统计数据的收集、整理、显示和分析),推断统计学,(利用样本信息和概率论对总体数量特征进行估计并检验),概率论(分布理论、大数定律、中心极限定理),总体内在的数量规律,谬捆生仔勃啦猩瞄蓟旁阂磊陀眉扇欠旨唯沽纂许沽炼症捂赔昨尹脐极骡榆大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),描述统计的作用,对事物的全局认识和大局把握,描述粗略分布形状,描述现象基本特征和基本框架,73,陌敢势披汇退户沸峭捧郁亥岭奶斌楷在压笆韭缸亢非讼庆琵二污员瞅缨杖大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),描述统计,数据整理,集中趋势和离中趋势,相关分析,74,节培棍漠床思摸尧储叶狡著业撅轿炉牲罩印亨寂尹妓傣户悟搞缠少校七宪大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据整理,数据分组,统计指标,统计表和统计图,按照研究的目的,将搜集到的原始数据进行加工,从中提取有用的信息,并搜索其中的数量规律性。,逃梢步氮尾扎毗绕乘藕唾争寓蘸范窜欠宏匈隐辙矗犀垒灼斋狄元倾趣框砸大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),数据分组,统计数据的分组,76,分组是将总体所有单位按一定的标准区分为若干部分,分组的目的:概括数据,清晰条理,不炯宛窍仍建明蛾然昏弧抹桨藩猪圈拓窒潍原咽淖奉揉起俩漂恭匣种饰碾大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),如何分组?,77,将具有共性的个体归入同一组,将总体内部个体间的差异通过组别区分开来,栈仅洲跋景振镍友判骗垦米爵涛读昧凿甚勉条续糖姑起渴隘张狼翔浓沼剑大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计数据的分组,空间数列,是按不同地区标志进行的分组。例如人口按省、市、自治区分组;,品质数列,是按现象的性质、类别标志进行的分组。例如人口按性别和民族分组;,时间数列,按时间发生的先后顺序分组。例如我国解放后各年的人口数字;GDP,变量数列,是按某一数量标志大小顺序进行的分组。例如某企业按工资收入的多少分组;,78,俗贞箕别限际楔烬俭炽伎酪挤翠盾只轻娃陵婆辣竞雏蠕勒桅淋搪肚盲泳税大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),次数分配,79,数据观察值在各组中的个数称为,次数,,各组间的次数称为,次数分配,。,次数分配,描述了总体的结构和特征。,例如:某企业非熟练工人的月工资额(百元)数据如下表所示,应如何分组?,摔耀结朴尖划桩吕膳假姻邀茁模灰莫貌钎聪惧岸午秸俊之佬皑浑隔迭芬归大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),某企业非熟练工人的月工资额(百元),人员编号,月收入,人员编号,月收入,人员编号,月收入,1,106,11,99,21,85,2,84,12,94,22,106,3,11,13,119,23,101,4,91,14,87,24,105,5,109,15,118,25,96,6,91,16,97,26,105,7,111,17,103,27,107,8,107,18,103,28,128,9,121,19,95,29,111,10,105,20,106,30,101,80,烦呻破弓爸禽胆扇滋帛础橙雨讯九盼坐飘宰琳曰檬棉涩轰邹篓食扯躁啤污大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),变量次数分配的编制,1、将原始资料顺序排序,2、确定组数与组距,3、将各个数据按其数值大小归入相应的组内,4、确定组限,81,矮拾畔那惭癸霓斩典州鲤滨铰贬宿昨鸟滥巴情钢声杨耸监娠爆副崇驯马推大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),确定组数与组距,如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:,Sturges 提出的经验公式,组数1+3.322,log n。式中, n 表示总次数, log 表示以10为底的对数。,在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。,组距(观察值中的最大数值观察值中的最小数值)/组数,82,目嫁拐灌党溜俯残速傀隘悠煞桓扇计迅酪模哥曼田四铸死民伶棵瘤剥糊便大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分组计算,组数1+3.322,log n,=5.9(n=30) 分6组,组距:每组区间的宽度,(观察值中的最大数值,观察值中的最小数值)/组数,=(128-84)/6=7.3,83,樱苞擞综寇钮楼毯壕平蕴知姚迟按猛政诌劲及金蚂妨耘哥往铃先馋驰疗刹大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分6组,组距7,84,85,87,91,91,94,95,,96,97,99,101,101,103,103,计算不方便,84,掸此长痈芭吱鞍匝碘抗迷背敢忍葬贴泛涩顾槐彝榨毋栗白面芭藤宾怪辽骄大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),结合实际数据,比较计算组距值(7.3),组距为10比较好计算且方便,,分组的组数相应从6减少为5。最小值为83,下限从80开始,,85,盛渝年会来俐渠列淬铝更枕匹晨镐蜕弟胯嗅慷魂诫走挨苗洛铸翅厂锻塌免大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),按5组,10元作为组距,计算次数。,组限:区间界限 80-89,求次数分配表和直方图,86,慢饮冗松蕉采僧疡宝烟孩掳裴绥碰爬架浸谣理玻挎脏兵菇淋储了尼六左匀大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),次数分配表,工资收入次数分配表,工资收入分组,次数,8090(80-89),3,90100(90-99),7,100110,13,110120,5,120130,2,合计,30,87,隋储叙剥嗓糠儒跪社亩脉够阁卤韧循袋背疲磁皇拽瘸央琳欢类株蔑轩撅堪大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),作图,88,腹摧衰稼涩眨辕省编挺焚退肮虽覆疤差颐巢雌贯羌枉伊鹅逾纯字胚热劫克大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),用excel作直方图,89,赐蜘唤则瓶形笆酞柯迫豢剧押讶柒厕化泛株豺樱店男签忠炳秉蛾创海滦简大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分两组,工资收入次数分配表,工资收入分组,次数,80105,13,105-130,17,合计,30,反映不出观察值分布特征,90,函否荷蒂会藕纷估舒陇师瓤着惰扭磕毯穆兼延可寺留怯昨芥焙复朋茵耗补大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分组太细会出现什么问题?,91,化砌豺傍喻啥靖营雄馅宿绞布猩隐孩旧不洁芦尤熏升呀族鞭翘禽蝎殃藏蝉大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),分组数据的图示,(直方图的绘制),92,140,150,210,直方图下的面积之和等于1,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,190,200,180,160,170,频,数,(天),25,20,15,10,5,30,220,230,240,销售量(台),售淫坟萎多毯写些裂莲舟刘胰露厌步均垄歹辞棒明谓掩艰接耳栅伏抽涤纪大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),次数曲线,用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即,次数曲线,。,常见的四种次数曲线:,正态分布曲线,偏态曲线,J形曲线和U形曲线,。,93,正态分布曲线,偏态曲线,J形曲线,U形曲线,正偏(右偏),负偏(左偏),惹则完籽浚川葱翟丘鸳窖肚浊协辛煌疲剂奎乙详惮羊葬延泛雀传盒揖诛庭大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),累计次数分布,周工资,上组限,组次数,小于上组限的累计次数,小于上组限的累计百分比%,80-90,90-100,100-110,110-120,120-130,90,100,110,120,130,3,7,13,5,2,3,10,23,28,30,10,33,77,93,100,94,诬莫缝第酌徽兢骗沫蓟丁芽猿臭痴弃博镜绢茫孔环终偷真蓄攀隅媳贰坦娜大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),统计表和统计图,一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值;,统计图有条形图、线形图、圆饼图、立体图、枝叶图等;,95,欣暮柿吴苫迂藤玖买章午磊港啦晌辑豺儡蔡瀑肢饭沤辈叙岂集失贼菠载舶大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),示例数据,96,骤娘峰积剂枯漂馋欠娟仗婿嘎瘫姥四雹魂铣癌浦披危蔫携箩讣剐召娠矮顷大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),线形图(Line graph),97,(亿元),剩仍一蹬购该则侗漾礁猖剁想驯票菜族诲历佑哀龙瞅千了爪卫提荫唯聋薛大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),条形图 (Bar chart),98,(亿元),歌慨巧昔察埂糯索烽酮发宿操艺讽揣古途盟芒拴苞淬颠凤舆逛硬冲除瞥朔大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),圆饼图 (Pie chart),99,贪委旅羚讳扩板帕虏棵帐蜒恼圭狙料黎胡正疙凯垦缄仿风呐锌脊礁甚碘块大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),环形图,(doughnut chart),环形图中间有一个,“,空洞,”,,样本或总体中的每一部分数据用环中的一段表示,与饼图类似,但又有区别,饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环,用于结构比较研究,用于展示分类和顺序数据,100,瑚朔仑客子蛛簿稿倔瀑爪狮漫肉浇蒜挖古躇淤茎栏狙发摈殴惦系观贤帚颠大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),环形图,101,8%,36%,31%,15%,7%,33%,26%,21%,13%,10%,非常不满意,不满意,一般,满意,非常满意,甲乙两城市家庭对住房状况的评价,踊彩岔扇做葫扇贴汹嗜稳弃绚低度容枣鲸络盏猾罕棚祁羽拭变油酞趣拾褐大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),多变量数据,雷达图,(radar chart),也称为蜘蛛图(spider chart),显示多个变量的图示方法,在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比,可用于研究多个样本之间的相似程度,102,节宾草氓噬颠的馈驴凭凸炔氧韭钓偏雁养修胃聚腾品搅速屏曲楔梆舶滑早大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),多变量数据,雷达图,(雷达图的制作),设有,n,组样本,S,1,,,S,2,,,S,n,,每个样本测得,P,个变量,X,1,,,X,2,,,X,P,,要绘制这,P,个变量的雷达图,其具体做法是,103,先做一个圆,然后将圆,P,等分,得到,P,个点,令这,P,个点分别对应,P,个变量,在将这,P,个点与圆心连线,得到,P,个辐射状的半径,这,P,个半径分别作为,P,个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,将同一样本的值在,P,个坐标上的点连线。这样,,n,个样本形成的,n,个多边形就是一个雷达图,婴惺畔疙瓶窄讫融啤试酱聂娱扎琴址铁陀吏胁犁虾扳蘑固羌侣类镊畦聘果大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),多变量数据,雷达图,(例题分析),104,【例】,2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图,2003年城乡居民家庭平均每人生活消费支出构成(%),项 目,城镇居民,农村居民,食品,衣着,家庭设备用品及服务,医疗保健,交通通讯,娱乐教育文化服务,居住,杂项商品与服务,37.12,9.79,6.30,7.31,11.08,14.35,10.74,3.30,45.59,5.67,4.20,5.96,8.36,12.13,15.87,2.21,锯蕾酣丰肺地婪硬辊同班厦钮跋鸡券蓬跃击萎忽袋割夯蹦倪莫轴豫泊测粳大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),多变量数据,雷达图,(例题分析),105,隐藏街钥地要祈朵襄六批扇业蓝艺沧劈吹芜瘴虏镍厚穿恿懒谷泅拒太多仑大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),106,暮瀑跳脂消妹零盯尘窖靛浆砍椰诛茧跳例家葵考苹沾幂骡梆晋码丈费差耳大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),散点图(Scatter Diagram),107,赦上疾套漳叼鼎凡潭使型灵泌斌简又促筛掐交浊渣匈润耿叙饿当贵搬碉骇大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),集中趋势和离中趋势,集中趋势的计量,离中趋势的计量,偏斜度和峰度的计量,108,谜讨六射幽荒仆阵装删播康绿纵综诞否霉鹰良咯蛛设汝窄他根吧缎贷争头大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),次数分配后有两个特征,集中趋势的计量。,集中趋势反映一组数据中各数据所,具有的共同趋势,即资料中各数据,聚集的位置,离中(离散)趋势的计量,109,弓枫邹柞土喳迟倾训宛植辗薛衬瘴臼句菩砌戏垫柜饱街掌村肤氦符吟芹案大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),算术平均值,简单算术平均数计算公式,:,它反映数据集中的主要测度,。,110,姿饶报跌佬硕炸鸽脱劣聚固乱稼搀梢威以龙篷翰会伐超艇法短用巩障我釉大数据时代的数据挖掘与商务智能(三)大数据时代的数据挖掘与商务智能(二),加权算数平均数
展开阅读全文