应用统计分析复习要点和答案.docx

资源描述

应用统计学复习要点（要求：每人携带具有开方功能的计算器）一、名词解释1.统计学：收集、处理、分析、解释数据并从数据中得出结论的科学。2.方差分析：是通过分析数据的误差判断各总体均值是否相等，研究分类型自变量对数值型因变量的影响，分为单因素方差分析和双因素方差分析。3.假设检验：是事先对总体参数或分布形式做出某种假设，然后利用样本信息来判断原假设是否成立。分为参数假设检验和非参数假设检验。一般采用逻辑上的反证法，依据统计上的小概率原理。4.置信区间：是指由样本统计量所构成的总体参数的估计区间。在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的成都。5.置信水平：是指总体参数值落在样本统计值某一区内的概率。6.抽样分布：从已知的总体中以一定的样本容量进行随机抽样，由样本的统计数所对应的概率分布称为抽样分布。抽样分布是统计推断的理论基础。7.方差分析：是通过分析数据的误差判断各总体均值是否相等，研究分类型自变量对数值型因变量的影响，分为单因素方差分析和双因素方差分析。（重复啦）8.相关分析：是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度是研究随机变量之间的相关关系的一种统计方法。9.推断统计：是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容：参数估计，即利用样本信息推断总体特征；假设检验，即利用样本信息判断对总体的假设是否成立。二、计算题1. 在某地区随机抽取120家企业，按照利润额进行分组后结果如下：按利润额分组（万元）企业数（个）300以下19300400304005004250060018600以上11合计120 计算120家企业利润额的平均数和标准差（注：第一组和最后一组的组距按相邻组计算）。解：2.某银行为缩短顾客到银行办理业务等待的时间，准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短，两种排队方式各随机抽取9名顾客，得到第一种排队方式的平均等待时间为7.2分钟，标准差为1.97分钟，第二种排队方式的等待时间（单位：分钟）如下：5.56.66.76.87.17.37.47.87.8(1) 计算第二种排队时间的平均数和标准差。(2) 比较两种排队方式等待时间的离散程度。(3) 如果让你选择一种排队方式，你会选择哪一种？试说明理由。解：3. 某大学为了解学生每天上网的时间，在全校学生中随机抽取36人，调查他们每天上网的时间（单位：小时），得到的数据如下： 3.33.16.25.82.34.14.42.05.42.66.41.82.11.91.25.14.34.24.71.41.22.93.52.45.43.64.50.83.21.53.50.55.73.62.32.5求该校大学生平均上网时间的置信区间，置信水平分别为90%，95%和99%。（注：z(0.1)、z(0.05)和z(0.01)统计量值分别为1.65、1.96和2.58）解：4. 利用下面的信息，构建总体均值的置信区间。(1)总体服从正态分布，且已知=500，n=15，=8900，置信水平为95%。（注：z统计量值为1.96）(2)总体不服从正态分布，且已知=500，n=35，=8900，置信水平为95%。（注：z统计量值为1.96）(3)总体不服从正态分布，未知，n=35，=8900，s=500，置信水平为90%。（注：z统计量值为1.65）(4)总体不服从正态分布，未知，n=35，=8900，s=500，置信水平为99%。（注：z统计量值为2.58）解：5.对消费者的一项调查表明，17%的人早餐饮料是牛奶。某城市的牛奶生产商认为，该城市的人早餐饮用牛奶的比例更高。为验证这一说法，生产商随机抽取550人的一个随机样本，其中115人早餐饮用牛奶。在=0.05的显著性水平下，检验该生产商的说法是否属实？（注：z统计量值为1.96）解： 6.一项包括了200个家庭的调查显示，每个家庭每天看电视的平均时间为7.25小时，标准差为2.5小时。据报道，10年前每天每个家庭看电视的平均时间是6.7小时。取显著性水平=0.01，这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”？（注：z统计量值为1.96）解：7.下面是7个地区2000年的人均国内生产总值GDP（Y）和人均消费水平（X）的统计数据（注：此题对应的t统计量值为2.57）：地区人均GDP（千元）Y人均消费水平（千元）XY-E(Y)X-E(X)(Y-E(Y)(X-E(X)(X-E(X)2(Y-E(Y)2北京22.4607.32610.2122.81028.6997.899104.276 辽宁11.2264.490-1.022-0.0260.0260.0011.045 上海34.54711.54622.2997.030156.76949.427497.226 江西4.8512.396-7.397-2.12015.6794.49354.722 河南5.4442.208-6.804-2.30815.7025.32546.300 贵州2.6621.608-9.586-2.90827.8738.45491.900 陕西4.5492.035-7.699-2.48119.0996.15359.281 合计85.739 31.609 263.84781.751854.751 （1）计算相关系数，说明二者之间的关系。（2）人均GDP作自变量，人均消费水平作因变量，利用最小二乘法求出估计的回归方程，并解释回归系数的实际意义。（3）计算判定系数和估计标准误差，并解释其意义。（4）检验回归方程线性关系的显著性。（=0.05）（5）如果某地区的人均GDP为5千元，预测其人均消费水平。（6）求人均GDP为5千元时，人均消费水平95%的置信区间和预测区间。解：8.随机抽取7家超市，得到其广告费支出（X）和销售额（Y）数据如下：（注：此题对应的t统计量值为2.57）超市销售额（万元）Y广告费支出（万元）XY-E(Y)X-E(X)(Y-E(Y)(X-E(X)(X-E(X)2(Y-E(Y)2A191-23-7.143164.28651.020529B322-10-6.14361.42937.735100C4442-4.143-8.28617.1634D406-2-2.1434.2864.5924E5210101.85718.5713.449100F5314115.85764.42934.306121G54201211.857142.286140.592144合计29457447288.8571002（1）计算相关系数，说明二者之间的关系。（2）广告费用支出作自变量，销售额作因变量，利用最小二乘法求出估计的回归方程，并解释回归系数的实际意义。（3）计算判定系数和估计标准误差，并解释其意义。（4）检验回归方程线性关系的显著性。（=0.05）（5）如果某超市的广告费用支出为5万元，预测其销售额。（6）求广告费用支出为5万元时，超市销售额95%的置信区间和预测区间。解：列表分析Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95%上限95%Intercept29.399114.8072536.1155730.00169517.0416741.7565517.0416741.75655X Variable11.5474780.4634993.3386880.0205820.3560162.7389390.3560162.738939 （1）r=63.86/（6.424*11.964）=0.831 显示两个变量之间高度相关，有很强的线性关系。（2），代表广告费用每增加1万元，销售额增加1.54748万元。（3）列表中可得：判定系数R=0.6906，估计标准误差4.807253 （4）根据方差分析所示，F=6.608F=11.14684，即广告费支出与销售额之间的线性关系显著。（5）当广告支出为5万元时，销售额为y=29.399+1.54748*5= 37.1364元。（6）三、论述题1.简述样本量与置信水平、总体方差、估计误差的关系。答：（1）估计总体均值时样本量为n，则（2）样本量n与置信水平1-、总体方差、估计误差E之间的关系为：与置信水平成正比，在其他条件不变的情况下，置信水平越大，所需要的样本量越大；与总体方差成正比，总比的差异越大，所要求的样本量也越大；与总体方差成正比，样本量与估计误差的平方成反比，即可以接受的估计误差的平方越大，所需的样本量越小。 2.简述评价估计量的三个标准。（15分）答：评价估计量好坏的标准主要有：无偏性、有效性和相合性。无偏性：估计量抽样分布的数学期望等于被估计的总体参数；有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效；一致性：随着样本量的增大时，点估计量的值越来越接近被估总体的参数。 3.简要说明残差分析在回归分析中的作用。（15分）答：残差是因变量的观测值y与根据估计的回归方程求出的预测值之差，它反映了用估计的回归方程去预测y而引起的误差。回归模型中出现残差的前提条件是：平均值及总和是0，标准误差符合正规分布。因此在回归分析中，可以通过残差进行线性回归适用性检验：回归模型残差的正态性检验：残差的直方图和累计概率图回归模型残差的独立性检验:参数有Dw或D，D的取值范围是0D4,其统计学意义为：D2，残差与自变量相互独立；D2，残差与自变量正相关；D2，残差与自变量负相关。残差的方差齐性检验。另外，残差还可以检验奇异点，评判预测效果等。这在回归分析中对模型的效果检验有着重要的作用。4.简要误差分解的概念和基本原理。（15分）答：（1）误差是测量值与真值之间的差值，误差分为系统误差和随机误差。系统误差是某一确定的因素引起的，它可以测量，有确定性，单向性，系统误差是可以消除的，在正确的操作中不应含系统误差。随时误差是不可测量的，它不能被避免，只能适当减小，就个体而言，它有不确定性，无规律可循，但在等精度条件下的多次测量，其大多数服从正态分布。还有一种是，过失误差是测量过失而产生的明显偏离真值的误差，是完全可以避免的。（2）误差分解的原理：是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小，从而判断该因素对总体是否有统计意义。

展开阅读全文