资源描述
生物统计学第三版 课后作业答案(李春喜、姜丽娜、邵云、王文林编著)第一章 概论(P7)习题1.1 什么是生物统计学?生物统计学的主要内容和作用是什么?答:(1)生物统计学(biostatistics)是用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料,是研究生命过程中以样本来推断总体的一门学科。(2)生物统计学主要包括实验设计和统计推断两大部分的内容。其基本作用表现在以下四个方面:提供整理和描述数据资料的科学方法;确定某些性状和特性的数量特征;判断实验结果的可靠性;提供由样本推断总体的方法;提供实验设计的一些重要原则。习题1.2 解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。答:(1)总体(populatian)是具有相同性质的个体所组成的集合,是研究对象的全体。(2)个体(individual)是组成总体的基本单元。(3)样本(sample)是从总体中抽出的若干个个体所构成的集合。(4)样本容量(sample size)是指样本个体的数目。(5)变量(variable)是相同性质的事物间表现差异性的某种特征。(6)参数(parameter)是描述总体特征的数量。(7)统计数(statistic)是由样本计算所得的数值,是描述样本特征的数量。(8)效应(effection)试验因素相对独立的作用称为该因素的主效应,简称效应。(9)互作(interaction)是指两个或两个以上处理因素间的相互作用产生的效应。(10)实验误差(experimental error)是指实验中不可控因素所引起的观测值偏离真值的差异,可以分为随机误差和系统误差。(11)随机误差(random)也称抽样误差或偶然误差,它是有实验中许多无法控制的偶然因素所造成的实验结果与真实结果之间产生的差异,是不可避免的。随机误差可以通过增加抽样或试验次数降低随机误差,但不能完全消。(12) 系统误差(systematic)也称为片面误差,是由于实验处理以外的其他条件明显不一致所产生的倾向性的或定向性的偏差。系统误差主要由一些相对固定的因素引起,在某种程度上是可控制的,只要试验工作做得精细,在试验过程中是可以避免的。(13) 准确性(accuracy)也称为准确度,指在调查或实验中某一实验指标或性状的观测值与其真值接近的程度。(14) 精确性(precision)也称精确度,指调查或实验中同一实验指标或性状的重复观测值彼此接近程度的大小。(15)准确性是说明测定值堆真值符合程度的大小,用统计数接近参数真值的程度来衡量。精确性是反映多次测定值的变异程度,用样本间的各个变量间变异程度的大小来衡量。习题1.3 误差与错误有何区别?答:误差是指实验中不可控制因素所引起的观测值偏离真值的差异,其中随机误差只可以设法降低,但不能避免,系统误差在某种程度上可控制、可克服的;而错误是指在实验过程中,人为的作用所引起的差错,是完全可以避免的。第二章 实验资料的整理与特征数的计算(P22、P23)习题2.1 什么是次数分布表?什么是次数分布图?制表和绘图的基本步骤有哪些?制表和绘图时应注意些什么?答:(1)对于一组大小不同的数据划出等距的分组区间(称为组距),然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式,这种统计表称之为次数分布表。(2)次数分布图是指把次数分布资料画成图状,包括条形图、饼图、直方图、多边形图和散点图。(3)制表和绘图的基本步骤包括:求全距;确定组数和组距;确定组限和组中值;分组,编制次数分布表。(4)制表和绘图时需要注意的是事先确定好全距、组数、组距、各组上下限,再按观测值的大小来归组。习题2.2 算数平均数与加权数形式上有何不同?为什么说它们的实质是一致的?答:(1)形式不同在于计算公式的不同:算数平均数的计算公式为M =;加权平均数的计算公式为M =。(2)因为它们反映的都是同一组数据的平均水平。 习题2.3 平均数与标准差在统计分析中有什么作用?它们各有哪些特性?答:(1)平均数(mean)的用处:平均数指出了一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平;作为样本或资料的代表数据与其它资料进行比较。(2)平均数的特性:离均差之和等于零;离均差平方和为最小。(3)标准差(standard deviation)的用处:标准差的大小,受实验或调查资料中多个观测值的影响,如果观测值与观测值之间差异较大,其离均差也大,因而标准差也大,反之则小;在计算标准差时,如果对各观测值加上火减去一个常数a,标准差不变;如果给各观测值乘以或除以一个常数a,则所得的标准差扩大或缩小了a倍;在正态分布中,一个样本变量的分布可以作如下估计: s内的观测值个数约占观测值总个数的68.26,2s内的观测值个数约占总个数的95.49,3s内的观测值个数约占观测值总个数的99.73。(4)标准差的特性: 表示变量的离散程度,标准差小,说明变量的分布比较密集在平均数附近,标准差大,则说明变量的分布比较离散,因此,可以用标准差的大小判断平均数代表性的强弱;标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例;估计平均数的标准误,在计算平均数的标准误时,可根据样本标准差代替总体标准差进行计算;进行平均数区间估计和变异系数的计算。习题2.4 总统和样本的平均数、标准差有什么共同点?又有什么联系和区别?答:(1)总体和样本的平均数都等于资料中各个观测值的总和除以观测值的个数所得的商。二者区别在于,总体平均数用表示,=,公式中分母为总体观测值的个数N,样本平均数用=,公式中的分分母为样本观测值的个数n。样本平均数是总体平均数的无偏估计值。(2)总体和样本的标准差都等于离均差的平方和除以样本容量。二者的区别在于,总体标准差用表示,=(x-x)2N,分母上总体观测值的个数N;标准差用s表示,s=(x-x)2n-1,分母上是样本自由度n-1。样本标准差s是总体标准差的无偏估计值。习题2.5答:见下图100例30-40岁健康男子血清总胆固醇(mol/L)的次数分布表组限(mol/L)组中值(mol/L)次数频率累积频率2.60-2.870 20.02 0.02 3.10-3.370 80.08 0.10 3.60-3.850 120.12 0.22 4.10-4.375 240.24 0.46 4.60-4.845 200.20 0.66 5.10-5.325 180.18 0.84 5.60-5.825 70.07 0.91 6.10-6.345 80.08 0.99 6.60-0.000 00.00 0.99 7.10-7.220 10.01 1.00 习题2.6答:见下图这100例男子的血清总胆固醇基本呈正态分布,中间4.1-5.1mol/L的最多,两边少,但6.6-7.1 mol/L的没有。习题2.7答:见下图由上表可知:平均数=4.7389,标准差s=0.86665,而CV=s /* 100% =18%习题2.8答:由习题2.7的表可知:中位数Median=4.6600,平均数=4.7389,两数相差0.0789,符合正态分布。习题2.9答:分析见下图:由上图可知:“24号”玉米的平均数=20,标准差s=1.24722,而CV=s /* 100% =6.24%;“金皇后”玉米的平均数=20,标准差s=3.39935,而CV=s /* 100% =17.00%,比较二者的变异系数CV,“24号”玉米的的变异系数CV 比“金皇后”玉米的小得多,说明“24号”玉米的整齐度大于“金皇后”玉米。习题2.10答:分析见下图:由上图可知,贻贝单养的平均数1=42.46,极差R1=53-25=28.00,标准差s1=6.97579,CV1=s1 /1 * 100% =16.43%;贻贝与海带混养的平均数2=52.10,极差R1=69-39=30.00,标准差s2=6.33503,CV2=s2 /2* 100% =12.16%,虽然单养的极差较小(28),但贻贝与海带混养的平均数更大(52.10),且混养的变异系数更小,即其整齐度更有优势,由此得出,贻贝与海带混养的效果更好。第三章 概率与概率分布(P48)习题3.1 试解释必然事件、不可能事件和随机事件。举出几个随机事件例子。答:(1)必然事件(certain event)是指在一定条件下必然出现的事件;相反,在一定条件下必然不出现的事件叫不可能事件(impossible);而在某些确定条件下可能出现,也可能不出现的事件,叫随机事件(random event)。(2)例如,发育正常的鸡蛋,在39下21天会孵出小鸡,这是必然事件;太阳从西边出来,这是不可能事件;给病人做血样化验,结果可能为阳性,也可能为阴性,这是随机事件。习题3.2 什么是互斥事件?什么是对立事件?什么是独立事件?试举例说明。答:(1)事件A和事件B不能同时发生,即AB=V,那么称事件A和事件B为互斥事件(mutually exclusion event),如人的ABO血型中,某个人血型可能是A型、B型、O型、AB型4中血型之一,但不可能既是A型又是B型。(2)事件A和事件B必有一个发生,但二者不能同时发生即A+B=U,AB=V,则称事件A与事件B为对立事件(contrary event),如抛硬币时向上的一面不是正面就是反面。事件A与事件B的发生毫无关系。(3)事件B的发生与事件A的发生毫无关系,则称事件A与事件B为独立事件(independent event),如第二胎生男生女与第一台生男生女毫无关系。习题3.3 什么是频率?什么是概率?频率如何转化为概率?答:(1)事件A在n次重复试验中发生了m次,则比值mn称为事件A发生的频率(frequency),记为W(A)。(2)事件A在n次重复试验中发生了m次,当试验次数n不断增加时,事件A发生的频率W(A)就越来越接近某一确定值p,则p即为事件A发生的概率(probability)。(3)二者的关系是:当试验次数n充分大时,频率转化为概率 。习题3.4 什么是正态分布?什么是标准正态分布?正态分布曲线有何特点?u和 对正态分布曲线有何影响?答:(1)正态分布是一种连续型随机变量的概率分布,它的分布特征是大多数变量围绕在平均数左右,由平均数到分布的两侧,变量数减小,即中间多,两头少,两侧对称。(2)=0,=1的正态分布为标准正态分布,记为N(0,1)。(3)正态分布具有以下特点:正态分布曲线是以平均数为峰值的曲线,当x=时,f(x)取最大值;正态分布是以为中心向左右两侧对称的分布 的绝对值越大,f(x)值就越小,但f(x)永远不会等于0,所以正态分布以x轴为渐近线,x的取值区间为(-,+); 正态分布曲线完全由参数和s来决定 正态分布曲线在x=s处各有一个拐点;正态分布曲线与x轴所围成的面积必定等于1。(4)正态分布具有两个参数和s,决定正态分布曲线在x轴上的中心位置,减小曲线左移,增大则曲线右移;s决定正态分布曲线的展开程度,s越小曲线展开程度越小,曲线越陡,s越大曲线展开程度越大,曲线越矮宽。习题3.5答:查附表1可得:(1)P=(0.31.8)=F(=1.8)-F(=0.3)=0.96407-0.6107=0.3533(2)P=(-11)=F(=1)-F(=-1)=0.8413-0.1587=0.6826(3)P=(-22)=F(=2)-F(=-2)=0.97725-0.02275=0.9545(4)P=(-1.961.96)=F(=1.96)-F(=-1.96)=0.97500-0.02500=0.9500(5)P=(-2.582.58)=F(=2.58)-F(=-2.58)=0.99506-0.00494=0.9901习题3.6解:因为x服从=4,=4的正太分布N(4,16),故通过标准化转换公式u=可转化为:(1) P(-3x4) P(-1.750) P=(-1.750)=F(=0)-F(=-1.75)=0.5000-0.04006=0.45994(2) P(x2.44) P(-0.39) P=(-1.5) P(-1.375)P(-1.38) P=(-1.38)=1-F(= -1.38)=1-0.08379=0.91621(4) P(x-1) P(-1.25)P=(-1.25)=1-F(= -1.25)=1-0.1056=0.89440习题3.7解:(1) 根据基因分离定律和基因自由组合定律可知:F1代非糯稻Ww与糯稻ww回交,F2代糯稻和非糯稻的概率均为1/2,其中糯稻有200*1/2=100株,非糯稻有200*1/2=100株。 (2) 糯稻为2000*1/4=500株,非糯稻为2000*3/4=1500株。习题3.8解:由题意可知这种遗传符合泊松分布,P=0.0036(1) Px=e-xx!, = np =200*0.0036=0.72,P (1) =0.721*e-0.45 / 1!= 0.72* e-0.45 =0.4591 (2) 调查的株数n应满足e-=e-np =0.01 因此n = =1280 (株)习题3.9解:此题符合二项分布,n=5,p=0.425,q=1-0.425=0.575 故 “四死一生”的概率P(4)= p4q1 = 5*0.425 4*0.5751 = 0.09378习题3.10解:设x服从这一正态分布。因为x服从=16,=2的正太分布N(16,4),故通过标准化转换公式u=可转化为:(1) P(10x20) P(-32)P=(-32)=F(=2)-F(=-3)=0.97725-0.001350=0.97590落于10到20间的数据的百分数为97.59%。(2) P(x20) P(2) P1=(2)=1-F(=2)=1-0.97725=0.02275 P1 (2)的总概率P=P1+ P2=0.02275+0.02275=0.04550小于12或大于20的数据的百分数为4.55%。习题3.11解:(1)查附表3可知,当df =5时: P (t= 2.571)=0.05,故P (t-2.571)=0.05/2=0.025 P (t= 4.032)=0.01,故P (t4.032)=0.01/2=0.005(2)查附表4可知,当df =2时: P (= 0.05) =0.975,故P (0.05) =0.975 P (= 5.99) =0.05,故P (5.99) =1-0.05=0.95 P (= 0.05) =0.975,故P 0.05) = 1-0.975=0.025P (= 7.38) = 0.025,故P (7.38) =0.025P (0.057.38)= P (0.05)=0.025-0.025=0 (3)查附表5可知,当df1 =3,df2 =10时: P (F3.71)=0.05P (F6.55)=0.01第四章 统计推断(P78-79)习题4.1 什么是统计推断?统计推断有哪两种?其含义是什么?答:(1)统计推断(statistical inference)是根据总体理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。(2)统计推断主要包括参数估计和假设检验两个方面。(3)假设检验是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率水平(或显著水平)上应该接受或否定的哪种假设的推断。参数估计则是由样本结果对总体参数在一定概率水平下所做出的估计。参数估计包括点估计(point estimation)和区间估计(interval estimation)。习题4.2 什么是小概率原理?它在假设检验中有什么作用?答:(1)小概率原理(little probability)是指概率很小的事件在一次试验中被认为是几乎不可能会发生的,一般统计学中常把概率概率小于0.05或0.01的事件作为小概率事件。(2) 它是假设检验的依据,如果在无效假设H0成立的条件,某事件的概率大于0.05或0.01,说明无效假设成立,则接受H0,否定HA;如果某事件的概率小于0.05或0.01,说明无效假设不成立,则否定H0,接受HA。习题4.3 假设检验中的两类错误是什么?如何才能少犯两类错误?答:(1)在假设检验中如果H0是真实的,检验后却否定了它,就犯了第一类错误,即错误或弃真错误;如果H0不是真实的,检验后却接受了它,就犯了第二类错误,即错误或纳伪错误。(3) 假设检验中的两类错误是弃真错误和取伪错误。为了减少犯两类错误的概率要做到:显著水平的取值不可以太高也不可太低,一般去0.05作为小概率比较合适,这样可以使犯两类错误的概率都比较小;尽量增加样本容量,并选择合理的实验设计和正确的实验技术,以减小标准误,减少两类错误。习题4.4 什么叫区间估计?什么叫点估计?置信度与区间估计有什么关系?答:(1)区间估计(interval estimation)指根据一个样本的观测值给出总体参数的估计范围,给出总体参数落在这一区间的概率。(2)点估计(point estimation)是指从总体中抽取一个样本,根据样本的统计量对总体的未知参数作出一个数值点的估计。(3)置信度与区间估计的关系为;对于同一总体,置信度越大,置信区间就越小,置信度越小,置信区间越大。习题4.5解:(1)假设,即改变饵料后对虾体重无显著变化;,即改变饵料后对虾体重显著变化。由于置信度,确定显著水平。计算统计量:作出推断:由于,否定,接受。认为改变饵料后对虾体重显著变。(2)鲜活与人工配饵料各半喂养方式对虾体重的点估计为:(3)鲜活与人工配合饵料各半喂养方式下对虾体重的区间估计为:推断:认为采用鲜活与人工配合饵料各半喂养方式下对虾体重为19.764820.2352g,这个估计置信度为95%。习题4.6解: (1)假设H0:该测定结果与常规枝条含氮量没有显著差异; HA:该测定结果与常规枝条含氮量有显著差异。(2)确定显著性水平=0.05(3)计算统计量,经SPSS单样本T检验得到如下结果:(4)作出推断:由上表可知 P=0.719=0.05 ,故接受原假设即接受H0,否定HA认为该测定结果与常规枝条含氮量没有显著差异。习题4.7解:本题中,s1=25.4,n1=128,s2=46.8,n2=69(1)假设 ,即三化螟两代每卵块的卵数没有显著差异;,即三化螟两代每卵数有显著差异。(2)确定显著性水平。(3)计算统计量:(4)作出推断:因为,否定,接受。认为三化螟两代每卵块的卵数有极显著差异。习题4.8解: 首先作F检验(1)假设H0:即北方、南方动物鸟翅长变异一样; HA:即北方、南方动物鸟翅长变异不一样。(2)确定显著性水平=0.05(3)计算统计量,经SPSS独立样本T检验得到如下结果:(4)作出推断:由上表可知 P=0.561=0.05 ,故接受原假设即接受H0,否定HA ,即北方、南方动物鸟翅长具有同质性。再进行平均值的检验:(1)假设H0:即北方、南方动物鸟翅长没有显著差异; HA:即北方、南方动物鸟翅长有显著差异。(2)确定显著性水平=0.05(3)计算统计量,经SPSS独立样本T检验得到如下结果:(4) 作出推断:由上表可知 P=0.886=0.05 ,故接受原假设即接受H0,否定HA,认为 北方、南方的动物鸟翅没有显著差异。 习题4.9解:(1)假设H0:即治疗前后血压没有显著差异; HA:即治疗前后血压有显著差异。(2)确定显著性水平=0.05(3)计算统计量,经SPSS配对样本T检验得到如下结果:(4)作出推断:由上表可知:P值为0.000 =0.05 ,故否定H0,接受HA认为中草药青木香治疗高血压的效果达到极显著水平。习题4.10解:(1)假设H0:即两种病毒的致病力没有显著差异; HA:即两种病毒的致病力有显著差异。(2)确定显著性水平=0.05(3)计算统计量,经SPSS配对样本T检验得到如下结果:(4)作出推断:由上表可知:P=0.034 0.8,即该批棉花种子合格(2)确定显著性水平=0.05(3)计算统计量,经SPSS独立样本T检验得到如下结果:(4)作出推断:由上表可知 P=0.261 =0.05,故接受H0,否定HA;认为该批棉花种子不合格。习题4.12解:(1)假设H0:即两医院乳腺癌手术后5年的生存率间没有显著差异;HA:即两医院乳腺癌手术后5年的生存率间有显著差异。(2)确定显著性水平=0.05(3)计算统计量,经SPSS独立样本T检验得到如下结果:(4)作出推断:由上表可知 P=0.296 =0.05,故接受H0,否定HA;即两医院乳腺癌手术后5年的生存率间未达著差异。习题4.13解:(1)假设H0:即两种饵料的方差相同;HA:即两种饵料的方差不同(2)确定显著性水平=0.05(3)计算统计量,经SPSS独立样本T检验得到如下结果:(4)作出推断:由上表可知方齐次性检验中P=0.523 =0.05,故接受H0,否定HA;认为两种饵料的方差具有同质性。第五章 检验 (P89-90)习题5.1 什么是检验?什么情况下的假设检验?答:(1)检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。所以,凡是可以应用比率进行检验的资料,都可以用检验。(2)检验主要有三种用途:一个样本方差的同质性检验,适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。习题5.2 检验的主要步骤有哪些?什么情况下需要进行连续性矫正?答 :(1)检验的步骤为:提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值 备择假设HA:观测值与理论值的差值不等于0,即观测值理论值确定显著水平一般可确定为0.05或0.01计算样本的,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的。进行统计推断。(2)自由度时,值需进行连续性矫正,矫正的为:习题5.3解:(1)H0:野兔性别比例符合1:1的比例;HA:野兔性别比例不符合1:1的比例;(2)选择显著水平为0.05(3)经SPSS卡方分析得到如下结果: (4)作出推断:由上表可知 P=0.015 =0.05,故接受H0,否定HA,认为大麦F2代芒性状表型比率符合9:3:4的理论比率。习题5.5解:(1)H0:这群儿童性别比合理;HA:这群儿童性别比不合理;(2)选择显著水平为0.05(3)经SPSS卡方分析得到如下结果:(4)作出推断:由上表可知 P=0.001=0.05,所以接受H0 ,否定HA,即两种苹果的耐储性差异未达显著。习题5.7解: (1)H0:不同小麦品种与赤霉病的发生无显著关系;HA:不同小麦品种与赤霉病的发生有显著关系;(2)选择显著水平为0.05;(3)经SPSS卡方分析得到如下结果(4)作出推断:由上表可知 P值为0.000=0.05,故接受H0,否定HA说明水稻灌溉方式与叶片衰老无关。第六章 方差分析(P128-129)习题6.1 什么是方差分析?方差分析的基本思想是什么?进行方差分析一般有哪些步骤?答:(1)方差分析是对两个或多个样本平均数差异显著性检验的方法。(2)方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和误差效应,并作出数量估计,在一定显著水平下进行比较,从而检验处理效应是否显著。(3)方差分析的基本步骤如下:将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。列方差分析表进行F检验,分析各变异因素在总变异中的重要程度。若F检验显著,对个处理平均数进行多重比较。习题6.2 什么是多重比较?多重比较有哪些方法?多重比较的结果如何表示?答:(1)多个平均数两两间的相互比较称为多重比较。(2)多重比较常用的方法有最小显著差数法(LSD法)和最小显著极差法(LSR法),其中最小显著极差法又有新复极差检验(SSR法)和q检验法。(3)多重比较的结果常以标记字母法和梯形法表示。标记字母法是将全部平均数从大到小依次排列,然后再最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数不显著的继续标以字母b,直至差异显著的平均数标以字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。这样各平均数间,凡有一个相同标记的字母即为差异不显著,凡具不同标记的字母即为差异显著。差异极显著标记方法同上,用大写字母标记。梯形法是将各处理的平均数差数按梯形列于表中,并将这些差数进行比较。差数LSD(LSR)0.05说明处理平均数间的差异达到显著水平,在差数的右上角标上“*”号;差数LSD(LSR)0.01,说明处理平均数间的差异达到极显著水平,在差数的右上角标上“*”号。差数30的计算所得,求出所需调查6对鸡,还得以n=6再做进一步计算,以取得一个稳定的n值。当n=6时,自由度df=n-1=5,=2.571,则:n=(对)再以n=10,自由度df=10-1=9,=2.262,计算得:n=(对)再以n=8,自由度df=8-1=7,=2.365,计算得:n=(对)答:该调查方案应至少调查8对鸡才能达到目的。习题7.6解:本题为非成对资料样本量的确定。由题意可知:,允许误差。 以=0.05,n30,计算,则:再以n=14,自由度df=14+14-2=26,=2.056,计算得:再以n=15,自由度df=15+15-2=28,=2.048,计算得:答:该调查方案中,每组实验至少应调查15条鱼才能达到目的。习题7.7解:根据题意可知:n=10,s=46.59,df=10-1=9,查表得=2.262故样本估计标准误(g)其95%的置信区间为:即这批平菇平均单重有95%的可能性在g范围内,也就是在区间(431.474,498.126)内。第八章 实验设计及其统计分析(一)(P164-165)习题8.1 何为试验设计?生物学试验的基本要求是什么?答:(1)试验设计(experimental design)包括广义的试验设计和狭义的试验设计。广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择,分组的排列,试验过程中试验指标的观察记载,试验资料的整理,分析等内容;而狭义的试验设计则仅是指试验单位的选择、分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。 (2)生物学试验的基本要求是:试验目的要明确;试验条件要有代表性;试验结果要可靠;试验结果要能重演。习题8.2 试解释什么是处理、处理效应、主效应、互作?答:(1)处理(treatment)是指对受试对象给予的某种外部干预,是试验中实施的因子水平的一个组合,又称为处理因素(treatment factor)。(2)处理效应(treatment effect)是指处理因素作用于受试对象的反应,是研究结果的最终体现。(3)主效应(main effect)是指由于因素水平的改变而造成因素效应的改变。(4)互作(interaction)是指两个或两个以上处理因素间的相互作用产生的效应。习题8.3 简述试验误差的来源及其控制途径。答:(1)试验误差的来源主要有:试验材料固有的差异;试验条件不一致;操作技术不一致;偶然性因素的影响。(2)针对试验误差来源,控制试验误差的途径主要有:选择纯合一致的试验材料;改进操作管理制度,使之标准化;精心选择试验单位;采用合适的试验设计。习题8.4 试验设计的基本原理和作用是什么?答:(1)试验设计有3项基本原则:重复,随机和局部控制。(2)重复原则的主要作用是估计试验误差,降低试验误差;随机原则的主要作用是提供无偏的试验误差估计;局部控制原则的主要作用是降低试验误差。总之,只有遵循重复、随机、局部控制3项基本原则的试验设计,才能由试验获得真实的处理效应和无偏的、最小的试验误差估计,从而对各处理间的比较得出可靠的结论来。习题8.5 本章讲述的常用试验设计有哪几种?这些方法各适宜在什么情况下使用?答:(1)对比设计(comparison design)是一种最简单的试验设计方法,适用于单因素试验。对比设计分为邻比设计(neighbour comparison design)和间比设计(interphase comparison design)。邻比设计的优点是简单易行,精度较高,便于田间观察评比,缺点是对照小区太多,一般要占试验地面积的三分之一,一般处理数为10以内而不宜过多。间比设计的精度不够高,但在一个实验中可以包括较多的处理。(2)随机区组设计(randomized blocks design)既适用于单因素试验也适用于多因素试验。该设计不允许处理数太多或太少,太多导致区组增大,局部控制效率降低,太少误差的自由度太小,降低假设检验的灵敏度,因此最好在10个左右。(3)平衡不完全区组设计(balanced incomplete block design, BIB)适用于区组没有均一性的时候。平衡不完全区组设计的优点是利用不完全区组安排试验处理,而仍可作出各处理间的正确比较。其主要缺点是区组数必须严格按照规定数目设置,否则各处理间的比较会失去均衡,所以不完全区组实际的总小区数较多,即同类试验的规模往往比随机区组大,因而只有当难以进行随机区组试验时才采用平衡不完全区组试验。习题8.6解:计算各品种对相邻CK的百分数品种各小区重复产量Kg/100m2Ti对临近CK的% CK20.3 20.0 16.8 57.1 19.03 100.00%A20.1 18.4 17.3 55.8 18.60 97.72%B19.0 20.0 17.0 56.0 18.67 118.64%CK15.7 16.8 14.7 47.2 15.73 100.00%C20.7 17.8 16.9 55.4 18.47 117.37%D21.6 18.1 15.6 55.3 18.43 114.97%CK17.8 16.4 13.9 48.1 16.03 100.00%E20.7 14.9 12.8 48.4 16.13 100.62%F17.3 14.9 18.6 50.8 16.93 101.40%CK19.1 16.2 14.8 50.1 16.70 100.00%由上表可见:B、C、D三个品种的大豆产量超过对照10%以上,大体上可以认为这三个品种优于对照,其他品种A、E、F未超过对照或超过不明显,即与对照无异。习题8.6解:分析见下表:习题8.7解:分析见下表:第十章 直线回归与相关分析(P204)习题10.1 什么叫回归分析?回归截距和回归系数的统计意义是什么?答:(1)回归分析(regression analysis)是用来研究呈因果关系的相关变量间的关系的统计分析方法,其中表示原因的变量为自变量,表示结果的变量为因变量。(2)回归截距是当自变量为零时,因变量的取值,即回归线在y轴上的截距;回归系数是回归直线的斜率,其含义是自变量改变一个单位,因变量y平均增加或减少的单位数。习题10.2 直线回归中总变异可以分解为哪几部分?每一部分的平方和如何计算?答:直线回归中,依变量y是随机变量,y的总变异()可以分解为两部分,即由变异引起的变异()和误差所引起的变异()。(1)SSy=y-y2,为依变量的平方和,称为离均差平方和或者总平方和,记作SSy或SS总。它是的离均差平方和,表示未考虑与的回归关系时y的变异。(2),为因变异引起的变异的平方和,称为回归平方和(regression sum of squares),记作U 或SS回归。它反映在的总变异中由于与的直线关系而使变异减小的部分,也就是在总平方和中可以用解释的部分,即由的变异引起变异的平方和。U越大,说明回归效果越好。(3) 为误差因素引起的平方和,称为离回归平方和或残差平方和(剩余平方和)(residual sum of squares),记作Q、SS离回归或者SS剩余。它放映了除去与的直线回归关系外的其余因素引起变化的大小,即反映对的线性影响之外的一切因素对的变异的作用,也就是在总平方和中无法用解释的部分,即是由误差因素引起的平方和。习题10.3 什么叫相关分析?相关系数和决定系数各具有什么意义?答:(1)相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。(2)相关系数(correlation coefficient)表示变量x与变量y相关的程度和性质;决定系数(coefficient of determination)是相关系数的平方,表示变量x引起y变异的回归平方和和占y变异总平方和的比率,它只能表示相关的程度而不能表示相关的性质。习题10.4
展开阅读全文