中科院心理所心理统计学2统计量数

上传人:xx****x 文档编号:243442861 上传时间:2024-09-23 格式:PPT 页数:53 大小:159.50KB
返回 下载 相关 举报
中科院心理所心理统计学2统计量数_第1页
第1页 / 共53页
中科院心理所心理统计学2统计量数_第2页
第2页 / 共53页
中科院心理所心理统计学2统计量数_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,常用统计量数,授课教师:禤宇明,1,本章内容,描述统计,统计量数:定义、性质、用法,集中量数,众数、中数、算术平均数、加权平均数、几何平均数,差异量数,全距、平均差、方差、标准差、差异系数,地位量数,百分位数、十分位数、四分位数、中(位)数,2,1. 描述统计 descriptive statistics,描述统计,对数据特征的描述,数据的两个主要特征,中心位置,离散性,3,2. 集中量数,集中量数,对数据的集中趋势的度量,确定一组数据的代表值,4,2.1 常用集中量数,众数mode,中数median,算术平均数 mean,加权平均数 weighted mean,几何平均数 geometric mean,调和平均数 harmonic mean,5,问题,某部门有5名一般职员和1名经理。一般职员的薪水是3000元,而经理的薪水是10000元,请问该部门收入的平均水平是多少?,6,2.1.1 众数(Mode,Mo),众数:一组数据中出现次数最多的数,如2、3、5、3、4、3、6的众数为3,卡尔皮尔逊 1894,如果次数分布最多的有两个数,而且两个数是相邻的,那么一般取两者的平均值作为众数;如果这两个数不相邻,那么一般需要报告两个众数,而且认为该组数据是bimodal双峰分布的,计算众数的皮尔逊经验法Mo3Mdn2M,7,众数的用途,快速粗略寻求一组数据的代表值,做不同质数据的代表值,如工资,次数分布中有两极端的数目(一般用中数,有时用众数),用平均数和众数之差作为次数分布是否偏态的指标,8,众数与从众,买东西,9,2.1.2 中数(Median,Md或Mdn),中数:一组数据中按从小到大排序后,处于中间位置上的变量值,1883 高尔顿,将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数例:4、7、8、9、10、11、12、13、14Mdn10,如果项数是偶数,则正中央的那两项的平均值即为中位数例: 2、3、5、7、8、10、15、19Mdn(78)/27.5,10,思考题,某病患者的潜伏期如下,求中数2,3,3,3,4,5,6,9,16,若增加1例患者,其潜伏期为30天,求中数,求15,35,25,5的中数,11,中数的应用,不易受极端值的影响,当数据呈明显偏态时,中数较均数或几何均数合理,12,2.1.3 平均数(Mean)2.1.3.1 平均数的定义,又叫均数、算术平均数,缩写,M,,,设一组数据为,x,1,,x,2,,x,n,13,10名健康人的 白细胞总数(10,9,个/L)5.50, 7.00, 8.20, 4.80, 6.70, 5.75, 6.10, 9.30, 7.60, 7.15,14,练习,15,2.1.3.2,平均数的特点,一组数据的每一个数与平均数的差(离均差)的总和等于零,一组数据的每一个数加上常数C,其平均数为原来的平均数加常数C,一组数据的每一个数乘以常数C,其平均数为原来的平均数乘常数C,一组数据的每一个数与常数C的差的平方和不小于该组数据的每一个数与平均数的差的平方和,16,17,2.1.3.3 算术平均数的优点和缺点,优点,反应灵敏,确定严密,简明易解,计算简单,符合代数方法进一步演算,较少受抽样变动的影响,缺点,易受极端值的影响,若出现模糊不清的数据时无法计算,18,2.1.3.4 算术平均数的适用条件,数据必须是同质的,如:如果身高均数在性别上有差异,那么不分性别地求某一年龄组的身高均数时没有实际意义的,数据取值必须明确,适用于呈正态分布的数据,数据离散不能太大,19,2.1.3.5 思考题,你们念统计的常以算术平均数来代表总体 (population),那么你们一手泡在沸水中,另一手浸在冰水中,一定会感到很舒服,因为你们的平均感受是正常体温。,请举例说明什么情况下我们会对估计总体的平均数感兴趣。,20,2.1.4 加权平均数(Weighted mean),用于分组数据,学校,均数,人数,A,B,C,72.6,80.2,75,32,40,36,21,2.1.5 几何平均数(Geometric mean),数据分布近似正态分布,但呈偏态,传染病的潜伏期,心理物理学的等距与等比量表实验,22,呈(近似)等比数列变化的数据,即变量值呈倍数关系或近似倍数关系的数据,用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等,血清中抗体滴度、血清凝集效价,23,年度,人数,变化率,1987,1988,1989,1990,1991,2000,2200,2430,2600,2880,1.1000,1.1045,1.0700,1.1077,24,25,例:某学生背单词周次12345记住单词2023263034求该生记忆单词的平均进步率,26,2.1.6 调和平均数 (harmonic mean),即倒数平均数的倒数,用于求平均速度,27,例,被试号123456,完成题数101010101010,时间(小时)0.81.01.21.52.55.0,28,2.2 平均数、中数和众数的关系,在一个正态分布中,三者相等,在正偏态分布中,,M Md Mo,在负偏态分布中,,M Md Mo,一般偏态情况下,,Md,离,M,较近,而离,Mo,较远,,皮尔逊经验关系:,29,平均数:支点两端的力矩相等,中数:两侧数据个数相同,众数:出现次数最多,30,2.3 集中量数的适用数据,类别数据顺序数据等距数据比例数据,*众数*中数*均数*均数,四分位 众数 调和平均数,众数 中数几何平均数,四分位数 中数,四分位数,众数,*表示该数据类型最适合用的量数,31,思考题,不做运算比较下面两个数列的平均数,10, 7, 8,3, 5, 9,10, 7, 8,3, 5, 9, 11,32,3. 差异量数,又叫离中量数,是表示数据分散程度的统计量,反映的是各变量值远离其中心值的程度,表示数据离中趋势的量数有,全距,平均差,方差,标准差,差异系数,33,3.1 全距(range),也称极差,是一组数据的最大值与最小值之差。R=max(X,i,)-min(X,i,),34,3.2 平均差(Average deviation),Mean absolute deviation,各变量值与均值之差的绝对值的平均数,不利于代数运算,35,3.3方差和标准差3.3.1 定义,36,37,3.3.2 方差和标准差的变式,38,X,i,x,X,X,i,=,-,(,),2,2,X,X,x,i,-,=,2,i,X,6,0,0,36,5,-,1,1,25,7,1,1,49,4,-,2,4,16,6,0,0,36,8,2,4,64,N,=6,=,36,i,X,=,0,x,=,10,2,x,=,226,2,i,X,39,40,3.3.3样本方差与总体方差的区别,在计算上,总体方差是用数据个数或总次数去除离差平方和,而样本方差则用样本数据个数或总次数减一去除离差平方和,样本方差是统计量,用S,2,表示;总体方差是总体参数,用,2,表示,当n很大时, S,2,与,2,相差很小,前者是后者的无偏估计,41,3.3.4 标准差的性质,一组数据的每一个数据都加常数C后标准差不变,一组数据的每一个数据都乘常数C后标准差变为原来的C倍,42,3.3.5方差与标准差的优点,方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点:,(1)反应灵敏。,(2)由计算公式严格确定;,(3)容易计算;,(4)适合代数运算;,(5)受抽样变动的影响小,既不同样本的标准差或方差比较稳定;,(6)简单明了;,(7)具有可加性。可以把总变异分解为不同来源的变异。,(8)各变量值对均值的方差小于对任意数的方差。,43,标准差的应用,表示数据的离散程度,标准差越大越离散,结合均数描述正态分布特征,根据正态分布原理求正常值范围,44,3.3.6由各小组的标准差、方差求总标准差、方差,P 45,45,3.4 差异系数,(Coefficient of variation),变异系数指出了标准差对于平均值的大小,用于比较不同总体或样本数据的离散程度。,同一样本不同测量的变异的比较,如相同班级不同科目的变异的比较;,不同样本同一测量的变异的比较,如不同年级同一科目变异大小的比较。,46,例:已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?,解:CV,体重,=3.7/25100%=14.8%,CV,身高,=6.2/110 100%=5.64%,,所以, 体重的离散程度比身高的离散程度大。,例: 通过同一个测验,一年级学生的平均分数为60分,标准差为4.02分,五年级学生的平均分数为80分,标准差为6.04分,问这两个年级的测验分数中哪一个离散程度大。,解:CV,一年级,=4.02/60 100%=6.7%,,CV,五年级,=6.04/80 100%=7.55%,,所以,五年级的测验分数的分散程度大。,47,3.5 数据类型和差异量数,四分位差 Quartile deviationQD = (Q,U,-Q,L,)/2,48,思考题,以下每组数的平均数均为50,哪组数在平均数附近的散布程度最大?哪组最小?,A,0,,,20,,,40,,,50,,,60,,,80,,,100,0,,,48,,,49,,,50,,,51,,,52,,,100,0,,,1,,,2,,,50,,,98,,,99,,,100,B,47,,,49,,,50,,,51,,,53,46,,,48,,,50,,,52,,,54,46,,,49,,,50,,,51,,,54,49,4. 地位量数,百分位数(Percentile):第p百分位是这样一个值,它使得至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值,四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。三个四分位数分别为:Q,L,(下四分位),,Md,(中数),,Q,U,(上四分位),十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位数,50,计算第p百分位步骤,第一步:从小到大排列原始数据,第二步:计算指数i,i=(p/100)n, n为项数,p为所求的百分位的位置,第三步:若i不是整数,将i向上取整;若i是整数,则第p百分位数是第i项与第 i+1 项数据的平均值,例:有12个职员薪金的数据,求第85和第50百分位数。,解:(1)将12个数据从小到大排序如下:,2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825,(2) i=(p/100)n=(85/100)12=10.2,(3) 由于i=10.2不是整数, 向上取整,所以第85百分位数对应的是第11项, 其值为2630。,同理,计算第50百分位(中位数)。i=(50/100) 12=6,是整数,第50百分位数是第6项和第7项的平均值,即(2390+2420)/2=2405。,51,百分位数的应用,常用于确定医学参考值范围reference ranges,正常值范围,习惯上确定95%(也可用80%, 90%, 99%)的人的界线,双侧参考值,计算P,2.5,和P,97.5,白细胞总数过高过低均属异常,单侧参考值,计算P,5,或P,95,肺活量:过低为异常,尿铅:过高为异常,52,思考题,如图为对某口服药物进行的两项研究。一项研究中服用该药会增加血压10mm左右;在另一项研究中,服用该药约会增加血压10%,(分散程度变大),。哪一幅图对应哪一项研究?,50 100 150 200,50 100 150 200,53,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!