九章资料的统计分析

上传人:无*** 文档编号:179894398 上传时间:2023-01-03 格式:PPT 页数:94 大小:1.79MB
返回 下载 相关 举报
九章资料的统计分析_第1页
第1页 / 共94页
九章资料的统计分析_第2页
第2页 / 共94页
九章资料的统计分析_第3页
第3页 / 共94页
点击查看更多>>
资源描述
统计整理是与统计分组相联系的。所谓统计分组,就是将情况相同或相近的数据资料加以分门别类的归并,使之简单明晰,以便为统计分析中提取各种有用信息打下基础。经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。60名男性青年的身高表名男性青年的身高表(原始资料)(原始资料)单位:厘米单位:厘米 161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178 171 152 176 167 171 161 176 168 181 175 159 162 165 168 164 179 157 173 166 172 167 现在我们用现在我们用从某大学大一男从某大学大一男同学中抽取出来同学中抽取出来的的6060人的身高资人的身高资料来编制频数分料来编制频数分布表,布表,6060名男同名男同学身高(以厘米学身高(以厘米计)的原始资料计)的原始资料如右:如右:60名男性青年的身高表名男性青年的身高表 (序列资料)(序列资料)单位:厘米单位:厘米 152 160 163 165 167 169 170 171 174 177 155 161 163 165 167 169 170 172 174 178 157 161 164 166 168 169 170 172 175 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 179 159 162 165 167 168 169 171 173 176 181 很显然,面很显然,面对这一堆原始数对这一堆原始数据,如果我们不据,如果我们不作简化处理,是作简化处理,是不容易从中看出不容易从中看出什么规律性的。什么规律性的。为此,我们先将为此,我们先将它们由低到高排它们由低到高排成序列资料:成序列资料:ifif 某校大一某校大一60名男生身高频数分布表名男生身高频数分布表 if 频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。某校大一某校大一60名男生身高频率分布表名男生身高频率分布表 1 1矩形图矩形图2 2方条图方条图4 4曲线图曲线图主要内容算术平均数中位数众数NXXNXX769748791698574XPXffXX人)(4.450220ffXXf X fX 算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。可用于定序、定距、定比资料。你会吗?例 求72、81、86、69、57这些数字的中位数。解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是。中位数对于分组资料对于分组资料hfNFUMmmd2/hfFNLMmmd12/25372/10025372/10016202/60请你用第二种方法来做一下hfFNLMmmd12/中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得分组资料有不确定组距时,仍可求得中位数。中位数。(4)中位数受抽样变动的影响较算术平均中位数受抽样变动的影响较算术平均数略大。数略大。众数只与次数有关,可以用于定类、定序、众数只与次数有关,可以用于定类、定序、定距、定比资料。定距、定比资料。Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。oohLM211)(4.1684466166211cmhLMoo 为什么众数有时不存在,有时有两个以上?所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。NfVVoMRoMfN%0.68501650NfVVoMRNXX2)(NXXSS22)(XNXXS22)(一个数据与该组数据的算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差()。将方差开平方后所得的值就是标准差。方差方差:标准差标准差:X2S22)(NXNX06.105506)(2NXXS0.735365NXX06.105365527151)(222NXNXSNXXfS2)(22)(NfXNfX 计算左边数列的标准差)(5.6602499)(2cmNXXfSXX 2)(XX 2)(XXf22)(PXPXS2)(XXPS 值得注意的是,计算分组资料的标准差,也可以依据值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:频率分布来进行计算式由此可以写成:或者或者 随机现象具有一定随机现象具有一定条件呈现多种可能结条件呈现多种可能结果的特性。果的特性。人们把随机现象的结人们把随机现象的结果以及这些结果的集合体果以及这些结果的集合体称作随机事件。称作随机事件。361以抛掷十枚硬币的试验为例,概率分布不仅要回答一共会发生11种结果(从没有一枚硬币面朝上到所有十枚硬币面全朝上),而且要回答全部11种结果发生的概率各是多少。解决了这两个问题,我们的讨论便从概率过渡到了概率分布。在推论统计中,我们是用先验的方法就每种结果算出其发生概率的,将它们一一列入右表中,我们就得到了著名的二项分布。1P 推而论之,在随机变量的取值满足“穷举”和“互斥”这两个原则的前提下,概率分布的一般形式如下表所示。现在我们把这里所讲的概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相象。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分布,而概率分布则被称为随机变量的理论分布。iiPxXP)(xnxxniqpCxXP)(xxxXxxPxX)(lim)(0)(x)(x(x)(x这样一来,随机变量X取值在区间x1,x2上的概率等于概率密度曲线 下面x1与x2两点之间面积,即21)()(21xxdxxxXxP0)(x1)(dxx1)()(PXP)(x)(xFxxXdxxXPxF)()()()()(xXPxF)()()(1221xFxFxXxP3611P36103623613633613643653663615362636213633363036363635362363365364363366)(xF)(ixXP)(x)(xFdxxxPxXEniii)()(1xPXE)(200)500000(015.0985.011xxX和和 都是为都是为服务的,服务的,E(X)是是“期望期望”XX数学期望的几个基本性质:数学期望的几个基本性质:(1)常数)常数c的期望等于该常数,即的期望等于该常数,即 E(c)c(2)常数)常数c与随机变量与随机变量X之积的期望等于之积的期望等于X的期望与的期望与c的积,的积,即即 E(cX)cE(X)(3)两个随机变量之和的期望等于它们的期望之和,)两个随机变量之和的期望等于它们的期望之和,即即 E(X+Y)E(X)+E(Y)(4)两个独立随机变量乘积的期望等于它们的期望之积,)两个独立随机变量乘积的期望等于它们的期望之积,即即E(XY)E(X)E(Y)dxxXExPXExXDniii)()()()(212)(2xD)(xD)()(22XEXD22)()()(XEXEXD试求两颗骰子点数试求两颗骰子点数的变异数的变异数D(X)(1)常数常数c的方差等于的方差等于0,即,即D(c)0 (2)常数常数c与随机变量与随机变量X之积的方差,等于随机变量之积的方差,等于随机变量X的方差的方差c2倍,即倍,即D(cX)c2D(X)(3)随机变量与常数之和的方差等于随机变量的方差,随机变量与常数之和的方差等于随机变量的方差,即即D(X+c)D(X)(4)两个独立随机变量之和的方差等于它们的方差和,两个独立随机变量之和的方差等于它们的方差和,即即D(X+Y)D(X)+D(Y)(1)建立假设建立假设(2)求抽样分布求抽样分布(4)计算检验统计量计算检验统计量(3)选择显著性选择显著性水平和否定域水平和否定域(5)判定判定所所包有含统的计步检骤验 概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于对数学的爱好,而是因为统计推论的有关工作需要它。现在,我们要进入系统讨论统计假设检验的实际步骤的阶段。所有的统计检验都包含某些特定的步骤,这里先列示如下:零假设与备择假设零假设与备择假设否定域否定域两类错误及其关系两类错误及其关系显著性水平显著性水平 在统计中,在统计中,必须把否定域必须把否定域分配到抽样分分配到抽样分布的两端的检布的两端的检验,被称为双验,被称为双侧检验。侧检验。在统计中,可以事先能在统计中,可以事先能预测偏差方向,因而可以预测偏差方向,因而可以把否定域集中到抽样分布把否定域集中到抽样分布更合适的一端的检验,被更合适的一端的检验,被称为单侧检验。称为单侧检验。双侧检验和单侧检验双侧检验和单侧检验222/)(21)(xexXXZ2/221)(ZeZ),(,10)(2NN21)()(21xxdxxxXxPZdzzzZPzF0)()0()(XZ 总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移1.96个标准差,曲线下方便包含了大约95的面积;如移动2.58个标准差,则面积几乎是99。附录4已编制了关于Z和标准正态曲线所含面积之间关系的精确数值表,即Z从0到+变化,相应区间含的面积从0变至0.5。08.212168143xz 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。XSX 在一个总体中可以产生无数个样本,所以样本统计量(比如均值 )必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?Xn2nXXZXnXZ/nXXX实际上是要检验“随机抽样”这个零假设 实际上是要检验“随机抽样”这个零假设 7500:7500:10HH)1,010015007500 N(X Z65.167.2100150075007900 Z65.1ZXXnX/nSX/81/15023302350此乃“总体均值”零假设的检验1 区间估计的任务是,在点估计值的两侧设置区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增一个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性加。可靠性和精确性(即信度和效度即信度和效度)在区间估计中在区间估计中是相互矛盾的两个方面。是相互矛盾的两个方面。1XXX111XXZXZXZZ2/Z1005.7nSZX2/1nXS
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!