数值变量的统计描述.ppt

上传人:xin****828 文档编号:15898140 上传时间:2020-09-13 格式:PPT 页数:39 大小:328.05KB
返回 下载 相关 举报
数值变量的统计描述.ppt_第1页
第1页 / 共39页
数值变量的统计描述.ppt_第2页
第2页 / 共39页
数值变量的统计描述.ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
第一章 数值变量资料的统计描述,统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。 目的是根据样本中所包涵的信息,客观、正确地推论出其总体规律。,第一节 频数分布,频数(frequency)是相同观察值或观察结果出现的次数。 分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。 频数分布(frequency distribution)即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。,一、频数分布的特征,1.集中趋势(central tendency):指一组变量值的集中倾向或中心位置。 2.离散趋势(tendency of dispersion):即一组变量值的离散倾向。,二、频数分布的类型,1.对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。分为正态分布和非正态分布两种类型。 2.非对称分布:亦称偏态分布,是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为正偏态和负偏态分布。,三、频数分布表/图的作用,1.直观地揭示数据的分布类型和特征。 2.便于发现资料中某些远离群体的特大或特小的可疑值。 3.描述频数分布的集中趋势与离散趋势。 4.便于进一步计算统计指标。,四、频数表,频数表(frequency table):是频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。,频数表的编制方法,例题:随机抽取某地120例正常人,测得血清铜的含量如下表,试编制频数表。,某地120名正常人血清铜含量(mol/L),13.84 12.53 13.70 14.89 17.53 13.19 18.82 14.73 17.44 13.99 14.10 12.29 12.61 14.78 14.59 14.71 18.62 19.04 10.95 13.81 10.53 13.56 11.48 13.07 16.88 17.04 17.98 12.67 11.03 9.23 15.04 14.09 15.90 11.48 14.64 13.64 14.39 15.74 13.99 11.31 17.61 16.26 13.53 11.68 13.25 11.88 14.21 15.21 15.29 13.70 14.45 11.23 19.84 13.11 15.15 11.70,频数表的编制方法,1.找极值:Xmax 19.84,X min 9.23 2.求全距: XmaxX min , 19.849.2310.61 3.定组数:K=815,一般取11组。 4.求组距:i=/( K1) i=10.61/(11-1)=1.061 1 5.确定各组段的上下限: 6.归纳计数:,某地120名正常成年人血清铜含量频数表,组段 频数 频率() () 9.00 3 2.5 3 2.5 10.00 4 3.3 7 5.8 11.00 12 10.0 19 15.8 12.00 13 10.8 32 26.6 13.00 17 14.2 49 40.8 14.00 22 18.3 71 59.1 15.00 18 15.0 89 74.1 16.00 13 10.8 102 84.9 17.00 11 9.2 113 94.1 18.00 5 4.2 118 98.3 19.00 2 1.7 120 100.0 合 计 120 100.0,五、频数图,频数图(frequency graph):亦称直方图(histogram),是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。 1.等距分组 以横轴表示变量,以纵轴表示频数。 2.不等距分组 以横轴表示变量,但纵轴是每个横轴单位的频数。,第二节 数值变量资料集中趋势的描述,集中趋势(central tendency)是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。 平均数 (average)是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。 算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode),一、算术平均数,1.定义:算术平均数简称均数(mean)。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。 表示样本均数,表示总体均数。 2.适用条件:正态或近似正态分布的资料。如生理指标。,3.计算方法,直接法:有n个观察值,分别为X1,X2,Xn, 式中是求和的符号 。,例题,10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。,加权法,用于观察值中相同数据较多或频数表资料。 1737.00/12014.48(mol/L),某地120名正常成年人血清铜含量频数表,组段 频数 组中值x fx 9.00 3 9.50 28.50 10.00 4 10.50 42.00 11.00 12 11.50 138.00 12.00 13 12.50 162.50 13.00 17 13.50 229.50 14.00 22 14.50 319.00 15.00 18 15.50 279.00 16.00 13 16.50 214.50 17.00 11 17.50 192.50 18.00 5 18.50 92.50 19.00 2 19.50 39.00 合 计 120 1737.00,二、几何均数,1.几何均数(geometric mean)个数值连乘积的次方根。是比例或倍数上的平均。统计符号。 2.应用条件:等比数列资料。如抗体滴度。 3.计算方法,例题,6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。 平均滴度为1:8。,三、中位数,1.中位数(median):将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。 2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。,3计算方法,n为奇数时 n为偶数时 式中 、 及 均为下标,表示有序数列中观察值的位次。,例题,某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,求其中位数。 本例n=9, M=X5=3(天)。 如果本例n=10,第10个数值为16天,则M=(3+4)/2=3.5(天)。,频数表法,用于观察值例数较多或频数表资料。 为所在组段的下限; i为该组段的组距; m为该组段的; n为总例数; fL为小于的各组段的。,905例男性银屑病病人的发病年龄,年龄 频数f 累计频数f 累计频率p() 10 54 54 5.97 10 252 306(f) 33.81 20 346(f) 652 72.04 30 128 780 86.19 40 84 864 95.47 50 29 893 98.67 60 5 898 99.23 70 7 905(n) 100.00 20(10/346)(905/2306)24.23(岁),第三节 数值变量资料的离散趋势描述,离散趋势(dispersion)亦称变异性,是描述一组同质观察值的变异程度大小的指标。 不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。 极差(range,R ) 四分位数间距(quartile range,QR ) 方差(variance,2 ) 标准差(standard deviation,s ) 变异系数(coefficient of variation,CV )。,变异指标示意(两个学生五门成绩分布),学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76 、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。 较集中,变异较小; 较分散,变异较大。,一、全距(range),全距()亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。 1.意义明确、计算简便。 2.稳定性较差。 3.受n大小的影响。,二、百分位数和四分位间距,1.百分位数 (percentile):是把一组观察值从小到大排列,分为100等份,与位次所对的数值即为第百分之位数。以x表示。 一个x将全部观察值分为两部分,理论上有的观察值比它小,有(100)的观察值比它大。是一种位置指标。M 即。,2.四分位数间距(quartile range),四分位数间距(quartile range):是上四分位数Q()与下四分位数Q()之差,符号为QR。 是中间50观察值的极差。 QRQQ,905例男性银屑病病人的发病年龄,年龄 频数f 累计频数f 累计频率p() 10 54 54 5.97 10 252 306(f) 33.81 20 346(f) 652 72.04 30 128 780 86.19 40 84 864 95.47 50 29 893 98.67 60 5 898 99.23 70 7 905(f) 100.00,计算方法,以计算中位数的资料为例,求其2、 7和QR。 10(10/252)(9050.2554)16.84(岁) 30(10/128)(9050.75652)32.09(岁) QR32.0916.8415.25(岁),三、方差 (variance),方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2。 由于2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。,四、标准差(standard deviation),标准差:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为SD。,标准差的用途,表示观察值的变异程度。 结合均数描述数值变量的频数分布特征( )。 制定医学参考值范围。 计算变异系数。 计算标准误。,例题,A学生:n=5, X78+79+80+81+82=400 X2782+792+802+812+82232010,五、变异系数(coefficient of variation),变异系数是一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV。用于: 比较度量单位不同或均数相差悬殊时几组样本资料的离散性。 比较实验指标的稳定性及测定方法的精密度。,例题,某单位测得28例成年脾虚病人的红细胞数为3.10土0.861012L;血红蛋白值为87.2土33.3gL,试比较该两项指标的变异程度。 CVRBC(0.863.10)10027.74 CVHb(33.387.2)10038.19 可认为Hb的变异程度比RBC大。,例题,某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52.8土1.5,试比较两种实验动物ALT指标的实验稳定性。 ALT大鼠(1.429.4)1004.76 ALT家兔(1.552.8)1002.84 可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!