资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,3,章 数据的图表展示,3.1,数据的预处理,3.2,品质数据的整理与显示,3.3,数值型数据的整理与显示,3.4,合理使用图表,数据的预处理,数据审核,数据审核,原始数据,(raw data),完整性审核,准确性审核,二手数据,(second hand data),适用性审核,时效性审核:尽可能使用最新的数据,有必要做进一步的加工整理,数据筛选,(data filter),找出符合条件的数据 例,3-1,数据排序,升序和降序,数据透视表,(pivot table),按需要汇总 例,3-2,品质数据的整理与显示,分类数据,频数和频数分布(,frequency distribution,),条形图,(,bar Chart,)、,柱形图,(column chart),、,对比条形图,帕累托图,(pareto chart),饼图,(pie Chart),环形图,(doughnut Chart),顺序数据,累积频数(,cumulative frequency,)、累积频率(,cumulative percentages,),累积频数分布或频率图,分类数据的整理,(,可计算的统计量,),频数,(,frequency),:,落在各类别中的数据个数,比例,(proportion),:,某一类别数据个数占全部数据个数的比值,百分比,(percentage),:,将对比的基数作为,100,而计算的比值,比率,(ratio),:,不同类别数值个数的比值,分类,频数,比例,百分比,比率,A,B,C,D,E,顺序数据的整理,(,可计算的统计量,),1.,累积频数,(,cumulative frequencies,),:各类别频数的逐级累加,2.,累积频率,(cumulative percentages),:各类别频率,(,百分比,),的逐级累加,向上累积,顺序数据:从开始向结尾累加,数值型数据:变量值小向变量值大的方向累加,向下累积,顺序数据:从结尾向开始累加,数值型数据:变量值大向变量值小的方向累加,数值型数据的整理:分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,遵循“,不重不漏,”原则,等距分组或不等距分组,组数,应以能显示数据分布特征和规律为目的。实际中,组数一般为,5,K 15,组距,是一个组上、下限之差,根据数据的最大值和最小值及组数确定。即,组距,(,最大值最小值,),组数,统计频数可整理出频数分布表,1.,下上限,(lower,、,upper limit),:,一个组的最小最大值,2.,组距,(class width),:,上下限之差,3.,组中值,(class midpoint),:,上下限,间的中点值,下限值,+,上限值,2,组中值,=,频数分布表的编制,(,例题分析,),【,例,】,某电脑公司,2005,年前四个月各天的销售量数据,(,单位:台,),。试对数据进行分组,Max=237Min=141,等距分组表,(,上下组限重叠,),Max=237Min=141,(Max-Min)/10=(141-237)/10=9.6,10,上限(一个组的最大值)不在内。,160,、,180,这几个数究竟属于哪一组?,149,等距分组表,(,使用开口组,),开口组如何计算组距、组中值?,10,分组,Step 1:Decide on the number of classes.,确定组数,A useful recipe to determine the number of classes(,k,)is the“,2 to the,k,rule,.”such that 2,k,n,.,There were 80 vehicles sold.So,n=,80.If we try,k=,6,which means we would use 6 classes,then 2,6,=64,somewhat less than 80.Hence,6 is not enough classes.If we let,k=,7,then 2,7,=,128,which is greater than 80.So the recommended number of classes is 7.,Step 2:Determine the class interval or width.,确定组距,The formula is:,i,(H-L)/k,where,i,is the class interval,H,is the highest observed value,L,is the lowest observed value,and,k,is the number of classes.,If($35,925-$15,546)/7=$2,911,Round,up to some convenient number,such as a multiple of 10 or 100.Use a class width of$3,000,11,Step 3:Set the individual class limits,确定各组组限,Put each observation into only one category,namely avoiding overlapping or unclear class limits.,Put approximately equal amounts of the excess in each of the two tails.,Select convenient class limits.A guideline is to make the lower limit of the first class a multiple of the class interval.,分组,18,000 is in the first class or second class?,Higher limit,isnt,in this class.,12,Step 4:Tally the vehicle selling prices into the classes.,数据归入各组,分组,Step 5:Count the number of items in each class.,计算各组频数,Class frequency,组频数,数值型数据的显示,数值型数据的图示,分组数据:,直方图,(histogram),未分组数据,茎叶图,(stem-and-leaf display),箱线图,(,box plot,),时间序列,数据,线图,(,line plot,),两个变量间的关系,二维散点图,(2D Scatterplots),三个变量间的关系,气泡图,(,bubble chart,),多变量数据,雷达图,(,radar chart,),分组数据,直方图,(histogram),用矩形的,面积,表示频率分布,横轴表示数据分组,纵轴表示频率,/,组距,各组与相应的频率就形成了一个矩形,即直方图,140,150,210,某电脑公司销售量分布的直方图,190,200,180,160,170,25,20,15,10,5,30,220,230,240,我一眼就看出来了,销售量在,170,180,之间的天数最多,!,频率,组距,频数,分组数据,直方图,(,直方图与条形图的区别,),条形图是用条形的长度,(,横置时,),表示各类别频数的多少,其宽度,(,表示类别,),则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义,直方图的各矩形通常是连续排列,条形图则是分开排列,条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,未分组数据,茎叶图,(stem-and-leaf display),用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字,5.,茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,直方图适用于大批量数据,茎叶图适用于小批量数据,未分组数据,茎叶图,(,例题分析,),某电脑公司销售量分布的茎叶图,未分组数据,箱线图,(,box plot,),用于显示未分组的原始数据的分布,由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成,绘制方法,首先找出一组数据的,5,个特征值,即,最大值、最小值、中位数,M,e,和两个,四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),连接两个四分位数画出箱子,再将两个极值点与箱子相连接,未分组数据,单批数据箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,Median/Quart./Range,箱线图,未分组数据,单批数据箱线图,(,例题分析,),最小值,141,最大值,237,中位数,182,下四分位数,170.25,上四分位数,197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售量数据的,Median/Quart./Rang,箱线图,未分组数据,多批数据箱线图,(,例题分析,),【,例,】,从某大学经济管理专业二年级学生中随机抽取,11,人,对,8,门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,11,名学生各科的考试成绩数据,课程名称,学生编号,1,2,3,4,5,6,7,8,9,10,11,英语,经济数学,西方经济学,市场营销学,财务管理,基础会计学,统计学,计算机应用基础,76,65,93,74,68,70,55,85,90,95,81,87,75,73,91,78,97,51,76,85,70,92,68,81,71,74,88,69,84,65,73,95,70,78,66,90,73,78,84,70,93,63,79,80,60,87,81,67,86,91,83,77,76,90,70,82,83,82,92,84,81,70,69,72,78,75,78,91,88,66,94,80,85,71,86,74,68,79,62,81,81,55,78,70,75,68,71,77,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),8,门课程考试成绩的,Median/Quart./Range,箱线图,11,名学生,8,门课程考试成绩的,Median/Quart./Range,箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),股票分析中的,K,线图与箱线图类似,线图最早是日本德川幕府时代大阪的米商用来记录当时一天、一周或一月中米价涨跌行情的图示法,后被引入股市。,线图有直观、立体感强、携带信息量大的特点,是各类传播媒介、电脑实时分析系统应用较多的技术分析手段。,以日,K,线为例:是根据股价,(,指数,),一天的走势中形成的四个价位即:,开盘价,收盘价,最高价,最低价,绘制而成的。,收盘价高于开盘价,时,则开盘价在下收盘价在上,二者之间的长方柱用红色或空心绘出,称之为阳线;其上影线的最高点为最高价,下影线的最低点为最低价。,收盘价低于开盘价,时,则开盘价在上收盘价在下,二者之间的长方柱用绿色或实心绘出,称之为阴线,其上影
展开阅读全文