资源描述
统计学简答汇总第1章 :绪论(无)第2章 :定量变量的统计描述1均数几何均数和中位数的适用范围有何异同? 答:相同点,均表示计量资料集中趋势的指标。不同点:表2-5. 表2-5 均数,几何均数和中位数的相异点 平 均 数 意 义 应用场合 均 数 平均数量水平 应用甚广,最适用于对称分布,特别是正态分布几何均数 平均增减倍数 等比资料;对数正态分布资料 中位数 位次居中的观 偏态资料;分布不明资料;分布一端或两察值水平 端出现不确定值 2 中位数与百分位数在意义上计算和应用上有何区别与联系?答: 1) 意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。多个百分位数结合使用,可更全面地描述总体或样本的分布特征。 (2)计算:中位数和百分位数均可用同一公式计算,即 Px=L+(i/fx)(nx%-fL) 可根据研究目的选择不同的百分位数代入公式进行计算分析。 (3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围的确定。中位数常和其它分位数结合起来描述分布的特征,在实际工作中更为常用。百分位数还可以用来描述变量值的离散趋势(四分位数间距)。3同一资料的标准差是否一定小于均数? 答:不一定。同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。 变异大,标准差就大,有时比均数大;变异小,标准差小。4测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些? (1)样本含量的大小,样本含量越大,标准差越稳定。 (2)分组的多少 (3)分布形状的影响,偏态分布的标准差较近似正态分布大 (4)随机测量误差大小的影响 (5)研究总体中观察值之间变异程度大小5. 标准差与变异系数的异同点有哪些? 答:标准差:是以算数平均数为中心,反映各观测值离散程度的一个绝对指标.当需要对同一总体不同时期或对不同总体进行对比时,缺乏可比性.当总体平均水平不同或计量单位不同时,用标准差是无法实现两组数据离散程度大小对比的.变异系数:标准差与平均数的比值称为变异系数,记为CV.变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。6. 如何表达一批计量数据的基本特征?答:从集中趋势和离散趋势两方面回答。7. 描述计量资料离散程度(差别大小)的指标有哪些,各适用于什么情况? 答:常见的几种描述离散程度的指标:极差或全距,四分位数差距,方差与标准差,变异系数。 极差适合:数据分布非对称的情形。 四分位数差距适合:数据分布非对称的情形。方差与标准差适合:对称分布或近似正态分布资料,能充分利用全部个体的信息。 变异系数适用:当比较两资料的变异程度大小时,如果变量单位不同或均数差别较大时,直接比较 无可比性,适用变异系数比较。 8. 标准差有何用途?答:描述正态分布的变异程度;正态分布时,均数与标准差同时写出:+S;计算变异系数;用标准差估计变量值的频数分布;用标准差计算标准误。9. 统计描述的基本方法有哪些,各自有何特点? 答:统计描述的基本方法:用表、图和数字的形式概括原始资料的主要信息。 表:详细、精确。图:直观。指标:综合性好。 10简述变异系数的实用时机。 答:变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。 11. 怎样正确描述一组计量资料? 答:(1).根据分布类型选择指标。(2).正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。 12. 原始数据单位变换后,对均数和方差有何影响? 答:均数和方差均改变。用实例说明。13.列表的原则和基本要求是什么? 答:(1)列表的原则:重点突出,简单明了;主谓分明,层次清楚。 (2)列表的基本要求: 应有简明扼要说明统计表内容的标题。既不能过与简略,也不呢能过于繁琐或不确切。 标目文字要简明,有单位的标目要注明,标目不宜过多,层次应清楚。 线条不宜过多。除顶线、底线、纵标目下与合计行上面的线条外,其他线条一般均应省去。表的左上角不宜有斜线。 表内数字小数位数保留应一致,位次应对齐,不宜留空格。暂缺或未记录用“”表示,无数字用“”表示,数字是“0”则应填写“0”。 备注一般不列入表内,应用“”号引出,写在表的下面。14.常用的统计图有哪几种?他们的适用条件是什么? 答:常用的统计图有条图、百分条图、圆图、线图、半对数线图、直方图、散点图和统计地图等。(1)直条图:用等宽直条的长短来表示相互独立的各项指标的数值大小,如发病率等。(2)百分条图、圆图:用长条各段的面积、圆的扇形面积来表示事物内部各构成部分的分布情况,即各构成比重的大小,如构成比。(3)普通线图:用线段的升降来表示连续性资料随时间的变迁、某事物现象的动态及变化趋势。(4)半对数线图:用线段的升降来表示连续性资料随时间的变迁和某事物现象发展变化的速度。(5)直方图:用直方面积的大小表示数值变量资料频数分布的情况。(6)散点图:用点的密集程度和趋势表示两变量间的相关关系。(7)统计地图:用不同的纹线或颜色说明指标高低,描述某事物现象在行政区域上的分布情况。15.半对数线图的图形如何做分析? 答:用于表示事物的发展速度(相对比)。其横轴为算数尺度,纵轴为对数尺度,在比较几组数据的变化速度(相对比)时,特别是两组数据相差悬殊时,宜用半对数线图。第三章:定性变量的描述1.为什么不能以构成比代率? 答:二者说明的问题不同。构成比只能说明某事物内部各组成部分在全体中所占的比重或分布,不能说明某现象发生的频率或强度。 2.简述相对数标准化的基本思想。 答:基本思想: 采用统一的标准人口年龄构成,以消除不同人口构成对两地死亡率的影响,使得到的 标准化死亡率具有可比性。 3.解释在何种情况下应选用率的直接标化法,何种情况选用间接标化法? 答: 率的直接标化法:已知各组的年龄别死亡率pi。间接标化法:已知各组的死亡总数和各年龄组人口数.4.率的直接标化法,与间接标化法有何不同? 答: (1)适用条件不同(见第上题);(2)“标准”不同:前者选定一个“标准人口”或“标准人口构成” 。 后者选定一套“标准年龄别死亡率” 。 5.应用相对数时应注意哪些问题? 答:应用相对数指标的时候要注意:分母不宜过小;不要以比代率;资料的可比性;样本指标比较 时应做假设检验。 6.常用相对数指标有哪些? 它们的意义上有何不同? 答:常用相对数指标:率、构成比、比。率又称频率指标或强度相对数。说明某现象发生的频率或 强度。常用来表示某一事物发展的趋势或水平及特征。构成比又称构成指标或结构相对数。部分与全部之比,说明某事物内部各组成部分在全体中所占的比重或分布。常用来表示疾病或死亡的顺位、位次或所占比重。比(又称相对比)表示同类的或有联系的两个现象间的对比关系,常用倍数或百分数表示。 7.统计学上资料是否“具有可比性”指的是什么? 你能举出一些不可比的例子吗? 答:除研究因素外,其余重要影响因素应相同或相近。一般观察单位同质,研究方法相同,观察时 间相等,以及地区、民族等客观条件一致。例如内科和外科的治愈率就无可比性。 8.何谓人口老龄化?请简述其影响因素。 答 1:人口老龄化是指老年人口(65 岁及以上)在人口中所占的比重升高的现象。在没有迁移的 情况下,人口老龄化的进程主要受生育率和死亡率两种因素的影响。生育率下降,使低年龄人口的比重降低,高年龄人口的比重相应增加;死亡率(主要是中老年人口的死亡率)降低,使寿命延长,老年人口比重增加。一般来说,人口老龄化的速度和程度主要取决于生育率的下降速度。当生育率水平下降达到很低的水平且很难再有较大程度的降低时,中老年人口死亡率的降低对人口老龄化的影响才比较明显。 9.发病率、时点患病率、时期患病率的区别。 答:(1)发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率。 (2)时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观 察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过个月。 (3)时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现 患病例数,为慢性病的统计指标。 10.疾病统计的观察单位 “病人”和“病例”的区别。 答:(1)一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律。 (2)病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种 类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体 的患病人群,便于开展对病人个人的防治工作。 11.病死率和死亡率的区别。 答:(1)某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率。它是反映疾病的严重程度的指标。在用病死率进行比较时应注意病情轻重等内部构成不同的影响。计算公式为:观察期内因某病死亡的人数 某病病死率= 同期该病患者数 1000 (2)某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代 某种疾病的死亡水平。计算公式为: 观察期内因某病死亡的人数 某病死亡率= 同期平均人口数 1000 12.简述婴儿死亡率指标的实际意义。 答:婴儿死亡率指某地某年不满一周岁婴儿的死亡数与同期活产总数的比值。 婴儿死亡率= 某年不满周岁婴儿死亡数 1000 /同期活产数 婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指 标,也是死亡统计指标中较为敏感的指标。婴儿死亡率不受年龄的影响,不同国家或地区之间可以相互比较。13.请说明频率型指标与强度型指标的主要区别?答:主要区别:指标的解释不同,频率型指标是表示事物内部某个组成部分所占的比重或分布,或指某现象发生的频率。强度型指标是指单位时间内某现象发生的频率。14.标准化法的基本思想?答:采用统一标准构成以消除某因素的内部构成不同对总率的影响,使通过标准化后的标准化率具有可比性。15.请比较发病率和患病率的不同。答:发病率表示一定时期内,在可能发生某病的一定人群活过的总人年中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:PR=IRD。16.请比较死亡率与病死率的不同。答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。17.应用相对数应注意的事项。答:1.理解相对数的含义不可望文生义;2.频率型指标的解释要紧扣总体和属性;3.计算相对数时分母应有足够数量;4.正确地合并频率(强度)型指标;5.相对数间的比较要具备可比性;6.对相对数的统计推断。18.应用标准化的注意事项。答:1.标准化的应用范围很广,适用于“某事件的发生率”可以是治愈率,也可以是患病率,还可以是发病率、病死率等。当某个分类变量在两组中分布不同时,这个分类变量就成为两组频率比较的混杂因素,标准化法的目的就是消除这个混杂因素的影响。19. 疾病统计有几类指标,各有什么意义? 答:发病率、时点患病率、期间患病率、治愈率、生存率、残疾患病率。前3种详见上述简答题。治愈率:表示受治病人中治愈的频率。有效率表示受治病人中治疗有效的频率。两个率主要用于对急性病危害或防治效果的评价。但治愈和有效的标准要有明确而具体的规定,只有在标准相同的情况下才可以相互比较。生存率:病人能活到某一时点的概率。常用于对慢性病及心血管病等的治疗效果评价和预后评估。20. 反映疾病的预防效果和治疗效果的指标有哪些?各有什么特点? 答:发病率:疾病防治效果;患病率:慢性病预防效果;治愈率:急性病防治效果;生存率:慢性病的治疗效果。各指标含义详见上述简答题。21. 测量生育水平有几个指标?各指标有什么不同? 答:粗生育率;总生育率;年龄别生育率;总和生育率。各指标含义详见教材P41。22. 测量人口再生育水平有几个指标?各指标有什么不同? 答:自然增长率;粗再生育率;净再生育率。各指标含义详见教材P42。23. 人口统计应包括哪几个方面? 答:医学人口统计是从卫生保健的角度研究和描述人口数量、分布、结构、变动及其规律,研究人口与卫生事业发展的相互关系,是卫生统计学的重要组成部分。包括描述人口学特征的指标,生育和人口死亡的指标。详见书本P40-44。24. 人口金字塔有几种典型的形状?各说明什么? 答:人口金字塔直观地表示了人口的年龄、性别结构。每一层代表一个年龄组的人口,上部代表老年人,下部代表少年儿童,左半部代表男性,右半部代表女性,水平方向的长度表示男性和女性人口的数量各在总人口中所占的百分比。人口金字塔一共分3种类型:年轻型:下宽上窄,呈真正的金字塔形,表明少年儿童人口占总人口的比重大,预示着未来人口的发展趋势是增长的。其人口增长模式一般为“高-低-高”模式,主要存在有发展中国家;成年型:底部与中部的宽窄基本相近,出生率、死亡率差不多,预示着未来人口的发展趋势是稳定的。其人口增长模式一般为“低-低-低”模式;老年型:上宽下窄,表明少年儿童人口的比重缩小,老年人口比重增大,是出生率长期下降的结果。这种类型的人口问题主要是育龄人口比重低,如果生育水平不变,预示着未来人口的发展趋势是负增长的。其人口增长模式一般为“低-低-低”模式,一般存在于发达国家。第4章 :常用概率分布1.正态分布标准正态分布与对数正态分布在概念上和应用上有何异同? 答:概念上:相同点:正态分布、标准正态分布与对数正态分布都是变量的连续型分布。其特征是:分布曲线在横轴上方,略呈钟型,以均数为中心,两边对称,均数处最高,两边逐渐减小,向外延伸,不与横轴相交。相异点:表示方法不同,正态分布用N(,2)表示,标准正态分布用N(0,1)表示,对数正态分布N(lgX,2lgX)表示。(1) 应用上:相同点:正态分布、对数正态分布都可以转换为标准正态分布。相异点:标准正态分布是标准正态变量u的分布,标准正态曲线下的面积唯一的由u决定,给应用带来极大方便。对医学资料呈偏态分布的数据,有的经对数变换后服从正态分布。正态分布、对数正态分布可描述变量值的分布特征,可用于正常值范围估计和质量控制等。正态分布是很多统计方法的理论基础。2.医学中参考值范围的含义是什么?确定的原则和方法是什么?含义:参考值范围亦称正常值范围,它是指特定健康状况人群(排除了有关疾病和因素对所研究指标有影响的所谓“正常人”不同于“健康人”概念)的解剖、生理、生化等数据绝大多数人的波动范围。(2)原则: 抽取有代表性的足够例数的正常人群样本,样本分布越接近总体,所得结果越可靠。一般认为样本含量最好在100例以上,以能得到一个分布较为稳定的样本为原则。 对选定的正常人进行准确而统一的测定,保证测定数据可靠是确定正常值范围的前提。 判定是否要分组(如男女、年龄、地区等) 确定正常值范围。 决定取双侧范围值还是单侧范围值。 选择适当的百分范围 确定可疑范围 估计界值 (3)方法: 百分位数法:Px=L+(i/fx)(nx%-fL) 正态分布法(对数正态分布): 百分位数法用于各种分布型(或分布不明)资料;正态分布法用于服从或近似正态分布(服从对数正态分布)的资料。3.对称分布资料在“均数1.96倍标准差”的范围内,也包括95%的观察值吗? 答:不一定。均数1.96倍标准差是正态分布的分布规律,对称分布不一定是正态分布。4.正态分布的主要特征有哪些? 答:(1)正态曲线在横轴上方均数处最高。 (2)正态分布以均数为中心,左右对称。 (3)正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)。 (4)正态曲线下的面积分布有一定规律。 5.参考值范围是指什么? 答:参考值范围又称正常值范围,即大多数正常人某指标值的范围。“正常人”是指排除了影响研究指标的疾病和有关因素的同质人群。 6.简述估计参考值范围的步骤与要点。 答:设计:样本: “正常人” ,大样本 n100。单侧或双侧。指标分布类型。 计算:若直方图看来像正态分布,用正态分布法。若直方图看来不像正态分布,用百分位数法。 7.简述正态分布的用途。 答:(1)估计频数分布。(2)制定参考值范围。(3)质量控制。(4)统计检验的理论基础。 8.简述可信区间在假设检验问题中的作用。 答:可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一个较为确切的概率 P 值。故将二者结合起来,才是对假设检验问题的完整分析。 9. 二项分布、Poisson分布各有哪些特征? 答:二项分布和 Poisson 分布都是离散型分布。 二项分布的形状取决于与 n 的大小:=0.5 时,不论 n 大小,分布对称。0.5时,图形呈偏态,随n 的增大,逐渐对称。当 n足够大, 或 1-不太小,二项分布 B(n,)近似于正态分布 N( n, n(1-) )。 Poisson 分布:值愈小分布愈偏,愈大分布趋于对称,当足够大时,分布接近正态分布 N(, )。 10.简述二项分布、Poisson分布、正态分布的关系。 答:当 n 足够大,或 1-不太小时,二项分布近似于正态分布。当 n 足够大,或 1-很小时,二项分布近似于 Poisson分布。较大时,Poisson 分布近似于正态分布。 11.二项分布的应用条件是什么? 答:每次试验有且仅有两个互相排斥的结果(A或非 A)。 每次试验中,发生 A的概率相同,均为。 各次试验独立,即 n 次观察结果相互独立。 12.医学参考值范围确定的方法是什么?答:百分位数法和正态分布法。13.简述二项分布、Poisson分布、正态分布的区别与联系。答:区别:二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。联系:Poisson分布可以视为n很大而很小的二项分布。当n很大而和1都不是很小的时候二项分布渐近正态分布,当=20的时候Poisson分布渐近正态分布。14.控制图的基本原理。答:当影响某一数值指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。相反,如果除随机误差外,还存在某些影响较大的因素导致的误差,称为系统误差,这时指标的波动就不再服从正态分布。15.二项分布的特征?答:二项分布图的高峰在=n处或附近;为0.5时,图形是对称的;当不等于0.5时,分布不对称,且对同一n,离0.5愈远,对称性愈差。对同一,随着n的增大,分布趋于对称。当n时,只要不太靠近0或1,二项分布趋于对称。16.Poisson分布的特征?答:(1)Poisson分布的总体均数与总体方差相等,均为。(2)当较小时,图形呈偏态分布;当较大时,图形呈正态分布。(3)Poisson分布的观察结果具有可加性。17.正态分布曲线的位置与形状的特点? 答:(1)关于=对称。(2)在=处取得该概率密度函数最大值,在=处有拐点。(3)曲线下面积为1。(4)决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。(5)决定曲线的形状,当恒定时,越大,数据越分散,曲线越“矮胖”; 越小,数据越集中,曲线越“瘦高”。18. 什么叫标准正态分布? 答:标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。标准正态分布曲线下面积分布规律是:在-1.96+1.96范围内曲线下的面积等于0.9500,在-2.58+2.58范围内曲线下面积为0.9900。统计学家还制定了一张统计用表(自由度为时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。19. 确定医学参考值范围的方法及特点? 答:百分位数法:双侧95%医学参考值范围是(P2.5,P97.5),单侧范围是P95以下(人体有害物质如血铅、发汞等),或P5以上(如肺活量)。该法适用于任何分布类型的资料。正态分布法:若X服从正态分布,医学参考值范围还可以依正态分布的规律计算。20. 二项分布的定义是什么?二项分布有哪些基本性质? 答:定义:二项分布是n个独立的是/非实验中成功次数的离散概率分布,其中每次实验成功的概率均为p。基本性质:图形特征:具体见15题简答题;二项分布的均数和标准差:详见教材P66页公式。21. 二项分布原理可进行哪些统计分析? 答:资料需首先满足以下条件:每次实验只能发生两种对立的可能结果之一,分别发生两种结果的概率之和恒等于1;每次实验产生某种结果的概率固定不变;重复实验是相互独立的,任何一次实验结果的出现不会影响其他实验结果出现的概率。可做统计分析包括:总体率的区间估计:n50时,用查表法;n50时,用正态近似法,(p-ZSp,p+ZSp);样本率与总体率的比较:n50时,直接概率法;n50时,用正态近似法;两样本率的比较。22. 二项分布的拟合优度检验有什么实际意义? 答:拟合优度检验,即依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。实际意义在于可以判断某些疾病是否具有家族聚集性等。23. Poisson分布的定义?列举几个Poisson分布变量分布的实例? 答:Poisson分布属于离散型分布,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。例如:每毫升水中的大肠杆菌数、每个立升空气中的粉尘计数等。24. Poisson分布理论可进行哪些统计分析? 答:资料首先满足以下条件:事件发生的概率固定不变;每个事件的发生相互独立。可做统计分析包括:区间估计;单样本资料Z检验;两独立样本资料Z检验。25. 对数正态分布数据如何制定正常值范围? 答:log-1(Yba-1.96Sy) log-1(Yba+1.96Sy);其中:Y=logX。 第5章 :参数估计基础 1标准差和标准误有何区别和联系? 表3-6 标准差与标准误的区别 标准差(或s) 标准误() 意义上 描述一组变量值之间的离散趋势 描述样本均数间的离散趋势 应用上 s越小,表示变量值围绕 越小,表示样本均数与均值分布越密集,说明均数 总体均数越接近,说明样本 的代表性越好。 均数推断总体均数可靠性越大。 可用估计变量值分 可用估计总体 布范围 均数可信区间 与n的关系 n越大,s越趋于稳定 n越大,越小 (2)联系 二者均是表示变异度大小的统计指标。 标准误与标准差大小成正比,与抽样例数n的平方根成反比。 当n一定时,同一份资料,标准差越大,标准误也越大。 2可信区间和参考值范围有何不同? 参考值范围是指同质总体中个体变量值的分布范围,如X1.96s说明有95%的变量值分布在此范围内,它与标准差的大小有关,若个体变异越大,该范围越宽,分布也就越散。而可信区间是指在可信度为(1-)时,估计总体参数可能存在的范围。即从同一总体中随机抽样,当n一定时,每抽一次即可得一个样本均值,以计算可信区间,如95%可信区间,类似的随机抽样进行一百次,平均有95次,即有95个可信区间包括了总体均数,有5次没有包括括总体均数,5%是小概率事件,实际发生的可能性很小,因此实际应用中就认为总体均数在求得的可信区间。这种估计方法犯错误的可能性最大不超过5%。可信区间与标准误大小有关,标准误越大,可信区间则越大。3.t分布图形的特征?答:(1)单峰分布,以0为中心,左右对称;(2)越小,t值越分散,曲线的峰部越矮,尾部越高;(3)随着逐渐增大,t分布逐渐接近标准正态分布;(4)当趋向时,t分布趋近标准正态分布。4.总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。5.样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)前者表示均数变异的指标,后者是表示观察值变异的指标。(2)用途不同,标准差与均数结合估计参考值范围,计算变异系数,和标准误等;标准误用于估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n足够大时,标准差趋向稳定,而标准误随的增大而减小。联系:当样本量n一定时,标准误随标准差的大小而变化。6.用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。7.满足什么条件时可以采取正态近似法估计总体概率的置信区间?答:当n足够大,且样本频率p和1p均不太小时,如np与n(1p)均大于5时,可用正态近似法求总体概率的置信区间。8.什么是抽样误差?如何减少抽样误差? 答:抽样误差:从某一总体中随机抽取一个或多个样本,所得的样本统计量与相应的总体参数之间的差异,或者各个样本统计量之间的差异称为抽样误差。可通过增加样本量来减少抽样误差。9. 总体分布的形态和样本含量对样本均数的抽样误差分布会产生何种影响? 答:在服从正态分布的总体中进行随机抽样,样本均数呈近似正态分布。在非正态分布的总体中随机抽样,当样本量较小时,样本均数的分布呈非正态分布;当样本量足够大时(如n30),样本均数的分布近似服从正态分布。10. 样本均数的分布有哪些基本特征? 答:样本均数恰好等于总体均数是极其罕见的;样本均数之间存在差异;样本均数围绕总体均数,中间多,两边少,左右基本对称,呈近似正态分布;样本均数之间的变异明显小于原始变量之间的变异。11. 总体均数的可信区间中的可信度和区间的宽度各说明什么问题? 答:可信度:反映了估计准确度;区间宽度的一半:反映了估计的精度。12.抽样误差的大小受哪些因素的影响? 答:抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位数目越少,抽样误差越大。这是因为随着样本数目的增多,样本结构越接近总体。抽样调查也就越接近全面调查。当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。总体标志的变异程度越大,抽样误差越大。抽样误差和总体标志的变异程度成正比变化。这是因为总体的变异程度小,表示吝惜体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样误差小。抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。通常,我们不常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。13.可信区间的含义是什么?可信区间的准确度和精密度指的是什么? 答:可信区间:将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。准确度:即为置信度;精确度:置信区间宽度的一半。第6章 :假设检验基础1.假设检验和区间估计有何联系?假设检验和区间估计都属于统计推断的内容。假设检验用以推断总体参数间是否有质的区别,并可获得样本统计量,以得到相对精确的概率值。而可信区间用于推断总体参数的大小,它不仅可用以回答假设检验的问题,尚可比假设检验提供更多的信息。但这并不意味着用可信区间代替假设检验,因为假设检验可得到P值,比较精确地说明结论的概率保证,而可信区间只能告诉我们在某水准上有无统计意义,却不能像P那样提供精确的概率。因此,只有将二者有机地结合起来,相互补充,才是完整的分析。 2.假设检验时,一般当P 0.05时,则拒绝H 0,理论依据是什么? 假设检验时,当P0.05,则拒绝Ho,其理论依据是在Ho成立的条件下, 出现大于等于现有检验统计量的概率P0.05,它是小概率事件,即在一次 抽样中得到这么小概率是事件是不大可能发生的,因而拒绝它。由此可见, 假设检验的结论是具有概率性的,它存在犯错误的可能性小于等于0.05。3.t检验和方差分析的应用条件有何异同?(1)相同点:在均数比较中,t检验和方差分析均要求各样本来自正态总体;各处理 组总体方差齐且各随机样本间相互独立,尤在小样本时更需注意。(1) 不同点:t检验仅用于两组资料的比较,除双侧检验外,尚可进行单侧检验,亦可计算一定可信度的可信区间,提示差别有无实际意义。而方 差分析用于两组及两组以上均数的比较,亦可用于两组资料的方差齐性检验。4.怎样正确使用单侧检验和双侧检验? 根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,两种可 能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或研究者仅关心 其中一种可能时,可选用单侧。一般来讲,双侧检验较稳妥故较多用,在预实验有 探索性质时,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出效率 高,但应慎用。5.第一类错误与第二类错误的区别及联系何在?了解这两类错误有何实际意义? (1)假设检验中、型错误的区别。 型错误是拒绝了实际上成立的Ho,也称为“弃真”错误,用表示。统计推断时,根据研究者的要求来确定。 型错误是不拒绝实际上不成立的Ho,也称为“存伪”错误,用表示。它只能与特定的H1结合起来才有意义,一般难以确切估计。 (2)、型错误的联系。 当抽样例数一定时,越大,越小;反之,越小,越大。 统计推断中,、型错误均有可能发生,若要使两者都减小,可适当增加样本含量。 根据研究者要求,n一定时,可通过确定水平来控制大小。 (3)了解两类错误的实际意义。 可用于样本含量的估计。 可用来计算可信度(1-),表明统计推断可靠性的大小。 可用于计算把握度(1-),来评价检验方法的效能等。 有助于研究者选择适当的检验水准。 可以说明统计结论的概率保证。6.简述可信区间在假设检验问题中的作用。 答:可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一个较为确切的概率 P 值。故将二者结合起来,才是对假设检验问题的完整分析。 7.假设检验时,当 P 0.05,则拒绝 H0,理论依据是什么? 答:P 值为 H0成立的条件下,比检验统计量更极端的概率,即大于等于检验统计量的概率。当 P0.05 时,说明在H0 成立的条件下,得到现有检验结果的概率小于0.05,因为小概率事件几乎不可能在一次试验中发生,所以拒绝 H0。下差别“有统计学”意义的结论的同时,我们能够知道可能犯 错误的概率不会大于0.05,也就是说,有了概率保证。 8.假设检验中与 P 的区别何在? 答:以 t 检验为例,与 P 都可用 t 分布尾部面积大小表示,所不同的是:值是指在统计推断时预先设定的一个小概率值,就是说如果 H0是真的,允许它错误的被拒绝的概率。P 值是由实际样本获得的,是指在 H0 成立的前提下,出现大于或等于现有检验统计量的概率。 9.什么叫两型错误?作统计学假设检验为什么要加以考虑? 答:如果 H0 正确,检验结果却拒绝 H0,而接受 H1,则犯 I型错误,记为; 如果 H0 错误,检验结果却不拒绝 H0,未能接受 H1,则犯 II型错误,记为。 一般情况下,越大,越小;越小,越大。如果要同时减少两类错误,则需最大样本 含量。因为假设检验的结论都有犯错误的可能性,所以实验者在下假设检验有无统计学意义的结论 时,都要考虑到两型错误。 10.配对比较是不是就比成组比较好?什么情况下用配对比较比较好? 答:配对比较可以控制实验单位个体间的变异,从而减少实验误差,提高检验性能。但这并不是说凡是配对试验就一定比成组比较好。实验是否应做配对比较,首先应根据业务知识判断,看配成对子的个体间是否比不配对的个体间相似程度更高。 11. t 检验有几种?各适用于哪些情况? 答:t 检验以 t 分布为理论基础。小样本时要求假定条件:资料服从正态分布,方差齐同。一般分为三种: 一是样本均数与总体均数比较的 t 检验。即将一个样本均数X与一已知的总体均数作比较; 二是配对资料的 t 检验。例如治疗前后的比较,或配成对子的实验动物之间的比较。 三是两个样本均数比较的 t 检验;两组的样本量可以不相同。 此外尚有相关系数、回归系数的 t 检验。 12.什么叫假设检验?医学研究中常用的假设检验有哪些? 答:判断总体与样本之间、样本与样本之间的差异有无统计学意义的统计分析方法,一般步骤 是:提出检验假设 0 H ,确定单双侧与检验水准;计算检验统计量;确定概率 P 值;判 断结果。 在医学研究中常用的显著性检验有 u 检验、t 检验、F 检验、 2 c 检验及非参数秩和检验等多种,不 论那种检验均以假设成立时得到的统计量的概率来判断。 13.通过实例说明为什么假设检验的结论不能绝对化? 答:统计的结论为概率性的结论。拒绝 H0 时,可能犯型错误。不拒绝 H0 时,可能犯型错误。 14.假设检验的理论依据是什么?(或者问基本思想)答:采用逻辑上的反证法,利用“小概率思想”。小概率思想是是指概率事件(p0.05或p0.01)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;如可能性大,则还不能认为假设不成立。15.假设检验的一般步骤。答:(1)根据所讨论的实际问题建立原假设H0及备择假设H1;(2)选择合适的检验统计量,并明确其分布;(3)对预先给定的小概率,由确定临界值;(4)由样本值具体计算统计量的观察值,并作出判断接受H0还是拒绝H0。16.假设检验的两类错误之间的区别与联系是什么?答:假设检验时,拒绝实际上成立的H0,犯第类错误,俗称“弃真”错误;不拒绝实际上并不成立的H0,范第类错误,俗称“存伪”错误。犯第类错误错误的概率用表示,假设检验时,根据研究者的要求来确定;犯第二类错误的概率用表示,它只有与特定的H1结合起来才有意义。对于某一具体的检验来说,当样本含量n一定时,越小,越大;越大,越小。17.检验假设中P值的意义是什么?答:如果总体状况与H0一致,统计量获得现有数值以及更不利于H0的数值的概率。18.如何确定检验水准?答:检验水准确定需根据研究设计的类型、研究目的、变量类型及变异水平、样本大小等诸多因素。19.如何恰当地应用单侧与双侧检验?答:单侧与双侧检验的应用首先应考虑所要解决问题的目的,根据专业知识来确定。若从专业知识判断一种方法的结果不可能低于或高于另一种方法的结果时,可用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,则用双侧检验。一般认为双侧检验较保守和稳妥。20.t检验的应用条件是什么?答:(1)随机事件,(2)来自正态分布总体,(3)均数比较时,要求两总体方差相等。21.配对t检验与两样本t检验的基本原理有何不同? 答:独立样本t检验:用于检验两个独立样本是否来自具有相同均值的总体,相当于两个正态分布总体的均值是否相等,即假设检验:H0:1=2是否成立,此检验以t分布为检验基础;配对t检验:检验两个相关的样本是否来自具有相同均值的正态总体,即检验假设H0:d=0,实质就是检验差值的均值和零均值之间的显著性。22. 两样本均数比较时为什么要做假设检验? 答:因为要确定两样本所表现出来的差异是两个总体本质上不同导致的,还是在相同总体中抽样由抽样误差导致的。23. 在假设检验中,无效假设与备择假设的含义是什么?两种假设之间有何关系? 答:无效假设:研究者想收集证据予以反对的假设,又称“0假设”,总是有符号=、和,表示为H0。备择假设:研究者想收集证据予以支持的假设,也称“研究假设”,总是有符号,表示为H1。原假设和备择假设是一个完备事件组,并且相互对立;在一项假设检验中,原假设和备择假设有且仅有一个成立;先确定备择假设再确定原假设;等号“=”总是放在原假设上;因研究目的不同,对同一问题可能提出不同的假设。24. 样本均数与总体均数比较时,何时用t检验,何时用u检验? 答:t检验与u检验均可用于样本均数与总体均数的比较或两样本均数的比较。理论上要求样本来自正态分布总体。但在实际应用时,只要样本例数n50,或者n较小但总体标准差已知时,可用u检验。n小且总体标准差未知时,可用t检验,但要求样本来自正态分布总体。两样本均数比较时,还要求两总体方差齐。25. 什么是配对设计?如何使配对研究设计的更好? 答:配对设计:将起始条件一致的两个实验个体配成对,并设有多个配对,每对个体分别随机给予不同处理,即为配对设计,目的是提高同质性,减少误差。配对设计分为以下几种情形:配对的两个受试对象分别接受两种不同的处理;同一受试对象接受两种不同的处理;同一受试对象处理前后的结果进行比较;同一对象的两个部位给予不同的处理。正确应用配对设计:实验对象的同质性欠佳时,采用配对设计可以提高处理组间的可比性和均衡性;配对设计的成败取决于配对的条件,只有当两组观察值间的相关大于0时,配对才是成功的,且能提高检验效能;当采用左右配对设计时,实验因素的效应必须是局部的,不可经过其他途径影响对侧;采用自身前后配对设计时,应考虑到环境、气候或疾病的自然进程等引起的效应改变;配对设计的资料结合相关或回归分析,有时能得到更丰富的结论。26. 方差不齐时,两样本均数比较应采取什么方法做假设检验? 答:若两小样本,且来自正态总体,则用t,检验;若两小样本,不来自正态总体,则用秩和检验;若为两大样本,n均50,则用u检验。第7章 :方差分析基础1.方差分析的基本思想是什么?答:方差分析的基本思想是把全部观察值间的变异按设计和需要分解成两个或多个组成部分,然后将各个部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。2.方差分析的应用条件是什么?答:(1)各样本是相互独立的随机样本,(2)都采自正态总体,(3)各个总体方差相等。3.方差分析的检验假设(H0)是什么? 答:各总体均数相等 4.方差分析中,各离均差平方和之间有何联系?各自由度之间又有何联系?完全随机设计、随机区组设计的方差分析的离均差平方和与自由度分别如何分解? 答:总的离均差平方和等于各部分离均差平方和之和. 总的自由度等于各部分自由度之和. 完全随机设计: SS 总SS 组内SS 组间 V 总V 组内V 组间 随机区组设计: SS 总SS 组内SS 处理组间+SS 区组间 V 总V 组内V 处理组间+ V 区组间 5.三组均数比较时,为什么不能直接作一般的两两均数比较的 t 检验? 答:增大犯第一类错误的可能性. 6.两组均数差别的假设检验能否作方差分析,为什么? 答:可以.方差分析与 t 检验关系:k=2 时,F=t 2, P 值相等,即两检验等价。 7.方差分析中,组间变异是来源于那些方面的变异? 答:该变异除随机原因的影响外,有可能存在处理因素的作用。8.对多组均数作方差分析的主要步骤和结果有那些? 答:(1)建立检验假设和检验水准 (2)计算统计量 F 值(列出方差分析表) (3)确定 P 值和作出推断结论 (4)作两两均数之间的比较(若 P0.05 则可省略此步骤)。9. 方差分析是用于研究何种数据的统计方法? 答:用于定量变量资料,可以比较两个及两个以上均数的差别,并且应满足以下条件:各样本是相互独立的随机样本,均服从正态分布;各样本的总体方差相等,即方差齐。10. 两独立样本t检验与完全随机设计资料的方差分析有何关系?配对样本t检验与随机区组设计资料的方差分析有何关系? 答:对同一资料而言,两独立样本t检验等价于完全随机设计资料的ANOVA,且有F=t2;对同一资料,配对样本t检验等价于随机区组设计资料的ANOVA,且有F=t2。11. SNK-q检验Dunnett-t检验都可用于均数的多重比较,它们有何不同? 答:SNK-q检验和Dunnett-t检验虽然都可用于ANOVA得出多个总体均数不全等提示后的多重比较,但SNK-q检验常用于探索性研究,是对多个均数每两个均数间的比较;而Dunnett-t检验常用于事先有明确假设的证实性研究,用于在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较,如多个处理组与对照组的比较,某一对或某几对在专业上有特殊意义的均数间的比较等。12. 数据变换在资料处理中起到什么作用? 答:资料不满足方差分析条件时,处理方法之一是数据变换。对于明显偏离正态性和方差不齐的资料,通过适当的数据变换可以近似的满足假定条件,便于进行方差分析。13.什么是方差分析?方差分析的主要用途是什么? 答:方差分析:又称F检验,包括单因素方差分析和多因素方差分析。无论哪种方差分析都是通过对数据变异的分解,判断不同样本所代表的总体均数是否相同。用途:均数差别的显著性检验;分离各有关因素并估计其对总变异的作用;分析因素间的交互作用;方差齐性检验。14. 何为单因素方差分析和双因素方差分析,各适用于什么情况? 答:单因素方差分析:即影响样本的因素只有一个,用于完全随机设计的多个样本均数间的比较,其统计判断是判断各样本所代表的总体均数是否相等。双因素方差分析:影响样本的因素有两个,双因素方差分析是对影响因素进行检验,研究是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不明显。15. 有人说,多个样本均数间的两两比较无非就是做若干次t检验。您的看法如何? 答:不正确,多个样本均数间两两比较时,若采用t检验的方法,则会增大第一类错误的概率,即拒绝实际上成立H0,接受H1,可能将实际上无差异的两个总体均数误判为有差异,造成了假阳性。应采用专用的两两比较的方法。16. t检验与方差分析的区别是什么? 答:t检验只能用于两样本均数及样本均数与总体均数之间的比较;方差分析可以用于两样本及以上样本之间的比较。17. t检验和方差分析的应用条件有何异同? 答:相同点:独立随机;正态;方差齐;配伍组比较的方差分析是配对比较t检验的推广,成组设计多个样本均数比较的方差分析是两样本均数比较t检验的推广;对于两个样本之间的比较,方差分析和t检验是等效的,F=t2。不同点:t检验只能用于两样本均数的比较,而方差分析可以用于两样本及以上样本之间的比较。第八章:2检验1.X检验适用于解决那些问题?对资料的设计类型和应用条件有何不同要求? (1)X检验适用于: 两个及两个以上的率或构成比的比较; 计数资料两因素间的相关关系; 频数分布的拟合优度检验。 (2)对资料的设计类型和应用条件。 1)四格表的X检验: 基本公式 T5且n40 专用公式 校正公式 1T5且n40 或 当T1或n40时,可使用确切概率计算法直接计算概率,应用时注意区分单、 双侧检验。双侧检验。双侧检验取两侧累积概率,单侧检验只取一侧累积概率。
展开阅读全文