资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,8/24/2019,#,数据分析方法培训,数据分析方法培训,1,目录,数据分析前的思考,案例分享,深层次数据分析,目录数据分析前的思考案例分享深层次数据分析,2,数据分析前,我们需要思考,3,孙子兵法谋攻篇:故,上兵伐谋,,其次伐交,其次伐兵,,其下攻城;攻城之法为不得已。,像一场战役的总指挥影响着整个战役的胜败一样,,数据分析,师的思想,对于整体分析思路,甚至分析结果都有着关键性的,作用。,数据分析前,我们需要思考3 孙子兵法谋攻篇:故上,3,问题,分析结,果呈现,分析思,路与方,法,数据选取,数据分析前,我们怎么去思考?,每一个步骤可能面临的问题以及需要准备的东西?,4,问题分析结分析思数据选取数据分析前,我们怎么去思考?每一个,4,选取的分析,软件以及分,析方法(统,计学相关方,法)。,分析问题和解决问题的思路,5,定义问题,第一步,首先,要搞清,问题的实质,,准确、完整、,真实地表达问,题。,其次,弄清楚,为什么要解决,这个问题?,最后,解决这,个问题的意义,何在?是必须,解决还是无关,紧要,或是需,要马上解决还,是不太着急。,第二步,收集整理,信息,搜集、整理,关于要解决,问题的历史,资料、类似,情况和现状。,第三步,选取分析,方法,分析涉及到,的主要维度,,为后面提取,数据需求作,准备;,第四步,数据提取,整理,根据分析内,容以及分析,方法,提出,分析所需的,数据需求;,对于反馈回,来的数据,,需要进行部,分加工,以,便更能反应,所要分析的,问题。,第五步,分析结果,及结论,根据分析的,结果,得出,一些当前问,题产生的一,些结论。这,里注意分析,的方法以及,维度,结果,的展示方式,等。,结论需要求,足够的数据,做支撑。,第六步,实施及建,议措施,针对数据分,析结论,给,出当前问题,的解决建议,措施。,一方面从业,务层面进行,建议措施,,另一方面,,可以就问题,点进行更深,层次分析,,给出数据挖,掘层面的解,决措施。,第七步,实施效果评,估及报告整理,根据措施实,施效果进行,实际评估,,将完成的分,析过程,结,果以及评估,整理报告,,为以后出现,问题提供经,验教训。,对于本次没,有完全解决,的问题,进,行说明。,例如,从现,有的报表数,据中就能够,看到当前问,题点的数据,情况或者一,段时间的趋,势;,两个重点步骤,选取的分析软件以及分析方法(统计学相关方法)。分析问题,5,精确的陈述问题,W,here-哪里存在问题?,W,hat-存在的问题是什么?,W,hy-原因在哪里?,W,hen-什么时候开始出现这样的问题?,W,ho-与什么对象有关?,H,ow,many-发生的次数和数量?,H,ow,much-损失有多大?,爱因斯坦说:“精确的陈述问题比解決问题还来得重要”,5W2H法:,5W:What,When,Where,Who,Why;,2H:How及How,many;,使用这,个方法,阿根廷队世界杯,输球了,如果你,是马拉多纳,你,怎么去思考?,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,精确的陈述问题Where-哪里存在问题?Why-,6,问题展现方式,问题现状,直接原因,最终原因,问题的结构如同这座冰山,初步的问题分析,深层次的问题分析,问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步,问题分析,针对最终原因进行分析的叫深层次问题分析。,7,治标,治本,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,问题展现方式问题现状最终原因问题的结构如同这座冰山深层次的问,7,问题分解,8,问题陈述,问题/假设1,问题/假设2,问题/假设3,分支问题,分支问题,分支问题,分支问题,分支问题,分支问题,为什么使用逻辑树?,1.将问题分成几个部分使,解决问题的工作可以分成智力上能够解,决的几个部分,不同部分可按轻重缓急区分,工作责任能分派到各人,2.保证问题获得完整地解决,将问题的各个部分解决好,即可解决整,个问题,所分问题的各个部分各不相同,而且包,括了各个方面(即没有重叠没有遗漏),3.使项目小组共同了解解决问题的框架,4.协助重点使用组织框架及理论,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,问题分解8 问题陈述问题/假设1问题/假设2问题/假设,8,分析方法,统计方法的三大特性,用三句话来简单概括一下:,反应客观现象,的数据,描述性统计,(包括统计数据的收,集、整理、显示和分,析),实用性:除了实情,数据能证明一切;,丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命,的;,公平性:我们相信上帝,其它人请用数据说话。,概率论,(包括分布理论、,大数定律和中心极,限定理),推断统计,(利用样本信息和概率论对总体,的数量特征进行估计和检验等),总体内在的数量,规律性,9,样本数据,总体数据,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,分析方法统计方法的三大特性,用三句话来简单概括一下:反应客,9,描述性统计分析,“五点法”:最小值,1/4分位数,均值,3/4分位数,最大值,“两度”:峰度,偏度,六西格玛:,检验统计量的取值空间,6,10,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,描述性统计分析“五点法”:最小值,1/4分位数,均值,3/,10,2,1,2,0,y,-1,y,-2,-2,-1,0,1,-1,-2,0,2,2,1,y,0,y,4,6,8,负相关,相关但非线性相关,推断统计分析,11,回归分析是统计分析思想中最基础、最集中的一个领域。,高斯、高尔顿,相关分析&回归分析,-3,-2,1,2,(a),-2,1,2,(b),x,-2,-1,0,1,2,x,-3,-2,-1,0,1,2,3,x,-1,0,不相,x,关,(c),-1,0,正相关,(d),变量的选取;,预测推断;,P值:回归分析就是放“P”,放,得好,就合格。,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,2120y-1y-2-2-101-1-20221y0y468,11,变量分析方法选取,对,象,变,量,的,关,系,类,型,因,变,量,自,变,量,预,测,和,解,释,变,量,的,个,数,变,量,的,相,互,关,系,变,量,的,结,构,关,系,多,因,变,量,与,自,变,量,多,因,变,量,与,自,变,量,单,一,变,量,存,在,多,存,在,多,重,关,系,存,在,单,一,关,系,重,关,系,变,量,样,本,因,变,量,测,量,尺,度,结构方程式模式,数,量,型,非,数,量,型,数,量,型,非,数,量,型,自,变,量,尺,度,测,量,典型相关分析,多元方差分析,因,变,量,尺,度,测,量,多元回归,分析,结合分析,数,量,型,非,数,量,型,多元判别分析,Logistic回归,离散选择模型,CHAID,因子分析/主成分析,聚类分析,变,量,测,量,尺,度,数,量,型,非,数,量,型,多维尺度分析,对应分析,一张简单的图胜过千言万语!,12,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,变量分析方法选取对变类因预变相互变结构多存变样因结构方程式模,12,数据挖掘分析,13,按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,,其中:,统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分,析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。,机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗,传算法等。,神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特,征映射、竞争学习等)。,数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。,关联规则,关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事,物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其,他事物预测到。,Ps:,多元统计分析中的聚类分析有个,阈,值,用于确定分类的一个临界值,平时会遇到把,它读成f,误以为它是“,阀,”字。正确的应该是阈(念y)值,而不是阀值.,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据挖掘分析13 按挖掘方法分类:包括统计方法,机器学,13,网管中心数据,CRM数据,一经数据,第三方调查数据,14,海量的数据,eg,数据提取时注意的几点问题。,经分数据,BOSS数据,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,选取分析所需的相关数据,网管中心数据 一经数据海量的数据eg数据提取时注意的,14,制定数据提取需求,15,人口统计,性别,年龄,户藉,职业,婚姻状况,教育程度,收入,客户,办理时间地点,办理的渠道,办理的业务种类,生效和失效时间,购买行为,消费行为,沟通记录,销售概率,帐单信息,分群特征,离网概率,离网原因,客户价值,高利润率,中等利润率,低利润率,负利润率,服务与产品,使用的产品,使用的服务功能,接受的营销offer,享受的客户服务,态度,形象,价值观,生活方式,心理因素,客户偏好,渠道偏好,联络时间偏好,服务内容偏好,帐户信息,高级资料,性格和爱好,反感的业务,家庭情况,缴费方式,使用清单,缴费记录,行为信息,基本资料,地址、电话、,email、籍贯等,语言、行业,手机相关信息,网络状况,业务办理信息,行为方式,通话时段,繁忙和非繁忙通话,量,漫游服务,方便程度,行为方式的变化,客户交互信息,客户交互概况,整合的投诉历史,整合的咨询历史,主动联络客户历史,客户分析信息,注意数据提取粒度,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,制定数据提取需求15 人口统计客户 办理时间地点,15,数据质量的评估,在现实社会中,存在着大量的“脏”数,据,不完整性,(数据结构的设计人员、数据采集,设备和数据录入人员),缺少感兴趣的属性,感兴趣的属性缺少部分属性值,仅仅包含聚合数据,没有详细数据,噪音数据(采集数据的设备、数据录入人员、,数据传输),数据中包含错误的信息,存在着部分偏离期望值的孤立点,不一致性(数据结构的设计人员、数据录入人,员),数据结构的不一致性,Label的不一致性,数据值的不一致性,业务角度对于数据质量进行,初步评估!,16,数据类型冲突,性别:,string(Male,、,Female),、,Char,(,M,、,F,)、,Interger,(,0,、,1,),日期:,Date,、,DateTime,、,String,数据标签冲突:解决同名异义、异名同,义,学生成绩、分数,度量单位冲突,学生成绩,百分制:,100,0,五分制:,A,、,B,、,C,、,D,、,E,字符表示:优、良、及格、不及格,概念不清,最近交易额:前一个小时、昨天、本周、本,月?,聚集冲突:根源在于表结构的设计,定义问题,收集整理,信息,选取分析,方法,数据提取,整理,分析结果,及结论,实施及建,议措施,实施效果评,估及报告整理,数据
展开阅读全文