资源描述
单击此处编辑母版标题样式,12/17/2009,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,经济信息工程学院 王涛,金 融 智 能,经济信息工程学院 王涛金 融 智 能,1,1,数据可视化,西南财经大学,经济信息工程学院,1数据可视化西南财经,2,无图无,真相?,无图无真相?,3,无图无,真相?,无图无真相?,4,无图无,真相?,一张图片等于一千个字,图形理解起来并不困难,这就是注入微软电子表格软件(,Mocrisoft Excel,)和苹果电子表格软件(,Apple Number,)这类程序内置图表生成功能的原因之一。,无图无真相?,5,无图无,真相?,可视化是传递数据信息最有效的方法之一。,可视化是压缩知识的一种方法,减少数据粮食一种压缩方式,如采用速记、简写的方式来表示一个词或者一组词。但是,数据经过压缩之后,虽然更容易存储,但却让人难以理解。然而图片不仅可以容纳大量信息,还是一种便于理解的表现方式。这就叫做数据的可视化。,无图无真相?,6,数据可视化的必要性,首先,一般数据很难满足人们希望将所有数据相互衔接并出现在同一个地方的愿望。,其次,内部环境和外部环境的数据信息可能存储在不同的地方(行业数据可能存储在市场调查报告之中,而公司的具体销售数据则存储在公司的数据库中,公司的销售数据可能按天存储,而行业的数据可能是季度数据),最后,数据信息不统一的叫法也是我们难以理解数据真正想传达的信息(例如硬盘在行业报告中称为“硬盘驱动器”,但在内部销售数据中可能被叫做“产品编号”),通过获取数据信息,并将之绘制成图表,数据就不再是简单的数据了,它变成了知识。可视化是一种压缩知识的形式,看似简单的图片却包含了大量结构化或非结构化的数据信息。,数据可视化的必要性,7,信息图,当代生物学,杂志描述人类视网膜“视觉输入(信息)的速度可以和以太网的传输速度相媲美,人类视网膜能以大约每秒,10,兆的速度传达信息。,视觉接受,的信息比其他任何一种感官都多。如果我们视觉接收信息的速度和计算机网络相当,那么我们通过触觉接受信息的速度只有他们的,1/10,,嗅觉和听觉接收信息的速度更慢,大约是触觉接收速度的,1/10,信息图,8,信息图,信息图,9,信息图,信息图,10,图片和分享的力量,Facebook,的用户在,2011,年末,每天的图片平均下载量达到了,2.5,亿张,每月达到了,75,亿张。,一,个拥有优先信息资源的营销人员该做些什么来让搜索更加吸引人呢?答案是制作一张信息图。信息图可以吸纳广泛的数据资源,使这些数据相互吻合,然后编造一个引人入胜的故事(例如,设计网页浏览器的时候,可以讲关于浏览器战争的故事),京,东案例:,http:/ analysis,)的工具。,Twitter,的用户每天在网络上发送大概,5,亿条推文,通过分析推文中使用的词语,计算机程序不仅可以发现流行的话题,即受到更多关注的话题,还可以得出人们感觉如何、持什么观点的结论。,具体做法就是通过分析大约每秒,2,万条的推文,分析这些推文所使用的语言,找出通用词汇,然后将所有的数据以可视化的形式呈现出来。,与电话投票耗时长且没场面太通常要花费大约,20,美元相比,上述公司所采用的实时调查只需话费几个计算周期,并且没有规模限制,它还可以将手机到的数据及时进行可视化处理。,实时可视化,12,打造最好的可视化效果,“神经营销学”(,neuromarketing,)运用科学方法来判断哪种可视化效果最好,神经营销学使用“核磁共振成像”和其他科技来观察在面对各种各样广告方式的时候,大脑的哪个部分会兴奋起来。营销人员甚至能通过场景模拟来确定广告放在哪里会产生最好的效果,例如将广告放在广告牌上还是公交车的车身上。,打造最好的可视化效果,13,2,数据,量化,西南财经大学,经济信息工程学院,2数据量化西南财经大,14,无形之物有法可测,经常发现有人说缺乏某些关键数据,这些数据对其决策产生重大影响,但他们根本没想过量化这些数据。当某人称呼某物为不可量化的东西时,其实可以找出一个量化它的具体方法。,当,你能够量化你谈论的事物,并且能用数字描述它时,你对他就确实有了深入了解。但如果你不能用数字描述,那么你的头脑根本就没有跃升到科学思考的状态,英国物理学家 开尔文,如果人们找到观测事物的方式,并找到某种方法,无论这种方法多么“模糊”,它能让你知道得比以前更多,那么他就是一种量化方法。,无形之物有法可测,15,解决商业领域中的量化难题的,3,个建议,关心量化工作,因为它会为决策提供信息。,决策,前,需要量化多方面的事物,量化方案也很多,面对多种方案,管理者可能难以取舍。,管理者需要运用一些方法来,分析、选择这些方案,以减少决策的不确定性,解决商业领域中的量化难题的3个建议,16,不同领域的量化案例,爆炸当量,用碎纸片估算原子弹爆炸当量,1945,年第一颗原子弹爆炸试验时,费米就展示了他的量化技巧。在其他科学家对量化爆炸当量的仪器进行最后校正时,费米正在把一张纸撕成碎片。当第一波冲击波冲进营帐时,他把水纸屑慢慢撒向空中,观察他们在冲击波的冲击下能飘多远,最远的碎片承受的就是波的压力峰值。费米据此得出结论,爆炸当量应该大于,10000,吨。最终计算结果是,18000,吨。,不同领域的量化案例 爆炸当量,17,不同领域的量化案例,费米分解法,估算芝加哥的钢琴调音师的人数,芝加哥的当前的人数(,19301950,年,略超过,300,万)、,每家平均几口人(,2,或,3,)、,家庭平均拥有的需要定期调音的钢琴数量(,10,家里最多,1,家,但,30,家至少有,1,家),每部钢琴需要调音的频率(也许平均,1,年,1,次),一个调音师平均每天能调多少部钢琴(,45,部,包括交通时间)、,一年工作多少天(约,250,天),由此就可以计算结果,芝加哥调音师的数量,=,(人口,/,每家人口),X,有钢琴的家庭百分比,X,每年调音次数,/(,调音师每天调音的钢琴数,X,年工作天数),根据选择的不同特定值,所得结果在,20200,之间,一般是,50,左右。当费米把猜测值和真实值比较死,发现他总是比学生们猜测的更接近真实值。或许,20200,这个范围看起来很大,但考虑到学生最初从“我们怎么猜得到”进而得来的,已经很不错了),不同领域的量化案例 费米分解法估算芝加哥的钢琴调音师的人,18,不同领域的量化案例,开设心的保险公司获利空间如何,用新品牌在同一个市场上开设新的保险公司,获利空间大吗?,查克,麦凯(,Chuck McKay,)号称广告巫师,为评估某种产品在规定区域的市场规模,一次,一个保险机构请查克评估在德克萨斯州的一个小镇上简历一个新公司的市场机会,因为该公司在当地没有任何业务,不知这个市场是否还能容得下另一个保险公司。,为了评估商业可行性,查克利用搜索引擎回答了几个费米问题。,该小镇一共有,62172,辆汽车:德克萨斯州每辆车的每年保险金额是,837,美元,查克假设几乎所有汽车都有保险,这是强制性的,因此该镇一年汽车保险总额是,52062833,美元。保险公司的平均佣金率是,12%,,因此每年总佣金收入是,6247540,。根据,Switchboard,显示,该镇一共有,38,家保险机构,折合,Y,的数据十分接近。当总佣金被这,38,家机构瓜分时候,平均每家机构每年可得到,164409,美元。,City-D,显示,该镇人口从,2000,年的,104197,人下降到,2005,年的,99846,人,可见市场正在紧缩。而且几家大公司可能会扩大规模,因此年收益估计比预计的还要少。,查克的结论:开设新公司不太可能获得良好收益,应放弃这个机会。,不同领域的量化案例 开设心的保险公司获利空间如何用新品牌,19,量化问题,请,估算中国有多少加油站?,可提供信息如下:,中国有,13,亿人口,中国千人汽车拥有量是,38,辆,请估算本次,PACIS,会议能收到多少篇学术论文?,可提供的信息如下:,PACIS,官方网站,www.pacis2014.org,PACIS,的全名为,Pacific Asia Conference on Information Systems,量化问题请估算中国有多少加油站?,20,没有什么不可以量化,量化不需要彻底消除不确定性。,量化通常使用几种量表,包括“分类”和“等级”量表。,分类量,表根据简单的属性分类,分类量表中没有次序之分(例如性别),数字不表示相对大小,仅仅表示某个事物是否属于某个集合而已。,等级量表可以让我们说一个值大于另一个值,而差值并不表示精确差距(例如金融信用评级,莫氏硬度表),没有什么不可以量化量化不需要彻底消除不确定性。,21,莫氏硬度表,莫氏硬度表,22,量化方法隐藏在量化目标中,怎样量化师徒关系的好坏?首先要解决的是师徒关系是什么意思?如果回答“我不知道”,那么这就是你相信它难以量化的真正原因,因为你没有弄清楚他到底是什么?,确定真正要量化什么,是几乎所有研究的起点。商业领域的管理者需要认识到,某些食物看起来完全无影无踪,是因为你还没给所谈论的事物下定义。搞清楚它的意思是什么,就已经完成了量化工作的一半。,量化方法隐藏在量化目标中怎样量化师徒关系的好坏?首先要解决的,23,校准训练,对数量上不确定的一种表达方式是将它想象成一个可能取值的范围。在统计学中,以特定的概率表示一个正确答案的范围被称为“置信区间(,Confidence Interval,,,CI,)”。一个,90%,的执行取件就是它包含正确答案的可能性有,90%,。,例如根据目前的潜在客户数量,你不能确切地指导下一个季度有多少人会成为你的签约客户,但你觉得大概不会少于,3,个,但也不会多余,7,个。如果你有,90%,的把我认为实际的数字将在,3,和,7,之间,就可以说你的,90%,的置信区间是,37,。,校准训练对数量上不确定的一种表达方式是将它想象成一个可能取值,24,主观信心的两个极端,过于自信,当一个人经常自夸其拥有的知识,并且正确率要比他所估计的低时,就是过于自信的表现。例如,当要求默认估算一个,90%,的置信区间时,实际结果在置信区间中的概率远小于,90%,。,过于不自信,当一个人经常低估其拥有的知识,并且正确率比他估计的高时,就是这种情况。例如,当要求某人估计一个,90%,的置信区间时,实际结果在置信区间中的概率明显大于,90%,主观信心的两个极端过于自信 当一个人经常自夸其拥有的知识,并,25,校准测试题,90%,置信区间,对于每个,90%,置信区间的问题都提供上限和下限。请记住该范围应该足够宽,以便答案有,90%,的机会落在你设置的区间中。,校准测试题90%置信区间 对于每个90%置信区间的问题都提,26,主观信心的两个极端,在完成后看答案之前,做一个小小的实验,看看你各处的范围是否真的反映了,90%,的置信区间。现在就考虑一个,90%,置信区间的问题,牛顿什么时候发表万有引力定律?假设给你一个赢得,1000,元的机会,青葱一下两个方法中选择一种。,A,方法 如果真正地发表年份确实在你给出的日期上下限之间,你就赢得,1000,美元,否则什么也得不到。,B,方法 旋转一个分成两个大小不等的“扇形”转盘,一个扇形占,90%,的面积,而另一个占,10%,,转盘上有个固定指针。如果转盘指针停在大扇形区域,你就赢得,1000,元,否则什么也得不到(也就是说,你有,90%,的机会赢得,1000,元),主观信心的两个极端在完成后看答案之前,做一个小小的实验,看看,27,主观信心的两个极端,80%,以上的人会选择转盘,因为他们认为转盘有更高的或升级会,对此我们不得不得出这样的结论:你当初估计的,90%,的置信区间实际上并不是你的,90%,置信区间,或者他是你的,50%,,,60%,,或者,80%,。也就是说,你最初的估计是过于自信了,你表达的不确定性的方式说明,你内心的不确定性比你声称的要大。,另外一个不希望的结果是你又选择了,A,方法:如果答案在你的范围里你就赢得,1000,元。这意味着你认为
展开阅读全文