资源描述
,单击此处编辑母版标题样式,*,第二章,单变量统计描述分析,第一节 分布 统计表 统计图,第二节 集中趋势测量法,第三节 离散趋势测量法,第一节,分布 统计表 统计图,分布:,变量的各个取值出现的次数(频数)或频次(频率),称为频数或频次分布,常用统计表和统计图来表示分布。,分布:,变量的各个取值出现的次数(频数)或频次(频率),称为频数或频次分布,常用统计表和统计图来表示分布。,一、数据的计量尺度,统计数据,是对客观现象计量的结果。,按照对事物计量的,精确,程度,可将所采用的,计量尺度,由低级到高级分为,四个层次,:,定类尺度,(Nominal Level),定序尺度,(Ordinal Level),定距尺度,(Interval Level),定比尺度,(Ratio Level),(一)定类尺度,(列名尺度):按照事物的某种,属性,对其进行平行的分类或分组。,例,1,:,人口的性别(男、女);企业的所有制性质(国有、股份、民营等),特点:,1.,定类尺度只,测度,了事物之间的,类别差,,而对各类之间的其他差别却无法从中得知,,因此各类地位相同,顺序可以任意改变;,2.,对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数,(,frequency),。,注意:,对事物进行分类时,必须符合,穷尽,和,互斥,要求。,(,二)定序尺度,(顺序尺度):是对事物之间,等级,或,顺序,差别的一种测度。,例,2,:,产品等级(一等品、二等品,),考试成绩(优、良、中、可、差),特点:,1.,不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序);,2.,无法测出类别之间的准确差值,因此该尺度的计量结果只能排序,不能进行算术运算。,(,三)定距尺度,(间隔尺度):是对事物类别或次序之间,间距,的测度。,例,3,:,100,分制考试成绩;,摄氏温度对不同地区温度的测量,特点:,1.,不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少;,2.,定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值;,3.,计量结果可以进行加减运算,(,加减运算有意义,),;,4.,“,0,”,是测量尺度上的一个测量点,并不代表,“,没有,”,(,四),定比尺度,(比率尺度):是能够测算两个测度值之间,比值,的一种计量尺度。,例,4,:,电视收看时长;职工月收入;距离、重量,特点:,1.,与定距尺度属于同一层次,计量结果也表现为数值;,2.,除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点;,3.,“,0,”,表示,“,没有,”,,即它有一固定的绝对,“,零点,”,,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算),(四)定比尺度,1.,高层次的计量尺度,可以计量,低层次计量尺度能够计量的事物,但反之不行;,2.,可将高层次计量尺度的,计量结果转换,为低层次计量尺度的计量结果,但不能反过来。,指出下面变量的测量尺度:,学生住址距学校的距离;,学生某门课的一次测验成绩,(5,分制);,学生的出生地;,按年级分类的高校学生,每周学生学习的小时数,二、统计表(频数分布表、,百分比分布表,),制作统计表的要求,1.,要有表号、表头、标识行、主体行、表尾,2.,表的两端不封口,3.,简单明了,中间不画线,4.,百分比分布表要有样本单位总数,一般用得比较多的是百分比分布表,,因为百分比分布表可以还原成频数分布表,统计表,家庭结构,频次,百分比,核心家庭,直系家庭,联合家庭,其它,1050,720,110,250,49.3,33.8,5.2,11.7,总数,2130,100,.0,家庭结构的频次分布,(,地,2010.6,),表头,标识行,主体行,源自,表尾,(表2-1),不同类型变量的取值特点及统计表特点,不同类型变量的取值特点,定类变量,变量值是哑元,不是连续实数。,定序变量,变量值可以比较大小,不连续。,定距变量,离散型:观测值不多,连续型:观测值众多,统计表(频数分布表、,百分比分布表,),怎么样制作统计表?,定类变量,定序变量,定距/定比变量,各类变量所对应统计表的特点,定类变量,百分比统计表中最后要注明统计总数。,变量的取值次序可根据需要调整。,定序变量,定序变量的取值有大小次序之分,应保留其变化趋势,不要打乱。,定距变量,离散型定距变量的制表方法与定序变量的制表方法相同。,将连续型定距变量的变量值分为若干区间或组,然后统计每个组内的频次或百分数,组距式分组。,定距变量分组的注意问题,1.等距分组与非等距分组:一般采用等距分组,有时非等距分组更能反映现象的本质。,2.组数:,调查总数,N,分组数,K,50 100,100 250,250以上,6 10,7 12,10 20,3.决定分点的精度:分组点的小数点精确位数比原统计资料高一位。,标明组界,:根据分组要求得到的分组点,其精度与原始数据相同,前后分组点不连续。,真实组界,:将标明组界的精度提高一位,使前后分组点连续。,例:设一统计资料中变量年龄的取值范围为18岁,按2岁一组,写出标明组界和真实组界。,标明组界,真实组界,1 2,3 4,5 6,7 8,0.5 2.5,2.5 4.5,4.5 6.5,6.5 8.5,问题:真实组距是否违反变量值必须互斥的原则?,注意:只有定距变量的统计表存在分组问题!,规定:组限重迭的组距式分组,各组不包括它的上限,例:100个同龄儿童的身高统计(单位:米),1.43,1.43,1.33,1.39,1.37,1.44,1.38,1.42,1.41,1.40,1.39,1.36,1.42,1.44,1.42,1.30,1.41,1.33,1.43,1.37,1.40,1.44,1.27,1.37,1.33,1.36,1.40,1.46,1.39,1.36,1.38,1.38,1.44,1.56,1.42,1.46,1.38,1.31,1.49,1.49,1.43,1.35,1.41,1.39,1.40,1.36,1.43,1.42,1.32,1.38,1.39,1.41,1.48,1.44,1.41,1.34,1.38,1.51,1.36,1.40,1.41,1.36,1.33,1.37,1.45,1.39,1.44,1.42,1.34,1.43,1.38,1.45,1.40,1.44,1.32,1.44,1.40,1.46,1.46,1.37,1.48,1.36,1.47,1.42,1.47,1.38,1.43,1.42,1.39,1.41,1.39,1.45,1.41,1.37,1.49,1.47,1.37,1.50,1.43,1.40,表2-5,步骤1:收集数据,写成数据表。,步骤2:找出数据中最大值,L,,最小值,S。,步骤3:根据表2-4取合适的分组数。此处,K=10。,步骤4:计算组距,h=(LS)K。,结果比原始数据多精确小数点后一位。,步骤5:根据组距,h,和分点精度比原统计数据高一位的原则,将数据分组。,步骤6:计算各组的中心值,bi。bi=(,第,i,组真实下界值第,i,组真实上界值)2,步骤7:作频次分布表。,统计表的特点,不需要文字叙述就能反映出资料的特性及资料间的关系。有较高的精确性,但不直观。,组号,真实组界限,中心值,频次,n,i,相对频次=,n,i,n,i,1,2,3,4,5,6,7,8,9,10,1.2651.295,1.2951.325,1.3251.355,1.3551.385,1.3851.415,1.4151.445,1.4451.475,1.4751.505,1.5051.535,1.5351.565,1.28,1.31,1.34,1.37,1.40,1.43,1.46,1.49,1.52,1.55,1,4,7,22,24,24,10,6,1,1,0.01,0.04,0.07,0.22,0.24,0.24,0.10,0.06,0.01,0.01,总和,n,i,=100,1,表2-6,统计表的特点,不需要文字叙述就能反映出资料的特性及资料间的关系。有较高的精确性,但不直观。,三、统计图,例:考察马萨诸塞州,New Bedford,地方法庭判决的72犯人在服完刑一年到两年半的时间里是否又因新的罪行被判决。结果24个犯了新罪,而剩下的48个在数据收集时还没有。,33%,67%,33%,67%,图2-1,图2-2,统计图(分布图),定类变量:圆瓣图(圆饼图);条形图,圆瓣图:用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。,条形图:用长条的高度来表示资料类别的次数或百分数。一般画成等宽长条。若变量是定类变量,则长条排列次序可以任意,条形离散。,条形图优点:易于显示每一变量的观测值。,条形图缺点:不易显示总的观测数。,图2-4不易于显示第一类外的其它类观测数,且变量值越多,等高不等宽的条形图越复杂。,注意:上述条形图的值都是从0开始,然而有时也不是这样。,思考:怎样为两个分类变量作图?,例:马萨诸塞州,New Bedford,地方法庭的法官,Robert Kane,在马萨诸塞州大学,Robert P.Waxler,教授鼓励下,让在他的法庭上被判罪的犯人选择进监狱或上由,Robert,教授教的文学课。印地安那大学的,Roger,教授跟踪调查了选择听课的32人,发现以后又有6人犯了新罪;而选择去监狱的40人中,18人在被释放后又犯了新罪。(来源:,The New York Times,Oct.6,1993,),罪犯数,(人),罪犯数,(人),50,40,30,20,10,文学课 监狱,(2)定序变量:条形图(长条按序排列,条形可以离散,也可以紧挨)。,(3)定距变量:直方图;折线图。,直方图:由紧挨着的长条组成,但长条的宽度有意义。以长条的宽度表示组距,条形的长度表示频次密度或相对频次密度(频率密度),长条的面积来表示频次或相对频次。,频次密度=,频次,组距(条宽),相对频次密度=,相对频次(频率),组距(条宽),注意:直方图仅适用于定距变量。当变量取值是等距分组时,直方图和条形图在本质上是相同的;但在非等距分组的情况下,直方图和条形图完全不同,尤其应该注意。,(1)定类变量:饼形图;条形图。,(2)定序变量:条形图(长条按序排列,条形可以离散,也可以紧挨)。,(3)定距(分组)变量:直方图;折线图。,直方图:由紧挨着的长条组成,但长条的宽度有意义。以长条的宽度表示组距,条形的长度表示频次密度或相对频次密度(频率密度),长条的面积来表示频次或相对频次。,表2-4 一星期内新娘人数的分布,图2-4 一星期内新娘人数的分布,2.2,2.0,1.8,1.6,1.4,1.2,1.0,0.8,0.6,0.4,0.2,0,15.5 20.5 25.5 30.5 40.5 65.5,频次密度,年龄,年龄段,15.5-20.5,20.5-30.5,30.5-40.5,40.5-65.5,频次,1,22,9,5,频次密度,0.2,2.2,0.9,0.2,折线图:用直线连接直方图中条形顶端的中点就得到折线图。折线图可使资料频次分布的趋势更明显。当组距逐渐减小时,折线将逐渐平滑为曲线。,年龄,2.2,2.0,1.8,1.6,1.4,1.2,1.0,0.8,0.6,0.4,0.2,0,15.5 20.5 25.5 30.5 40.5 65.5,图2-4 一星期内新娘人数的分布,频次密度,
展开阅读全文