统计总简答题_装配图网

资源描述

1. 直方图与条形图有何区别？1. 条形图是用条形的长度（横置时）表示各类别频数的多少，其宽度（表示类别）则是固定的。2. 直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或百分比，宽度则表示各组的组距，其高度与宽度均有意义。3. 直方图的各矩形通常是连续排列，条形图则是分开排列。4. 条形图主要用于展示分类数据，直方图则主要用于展示数值型数据。2. 什么是统计学？是收集、处理、分析、解释数据并从数据中得出结论的科学。3. 解释描述统计和推断统计？描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。如人口特征统计就是推断统计。4. 简述众数、中位数和平均数的特点和应用场合答：众数是一组数据中出现次数最多的变量值，用M 0 表示。它不受极端值影响，具有不唯一性。众数主要用于分类数据的集中趋势，当然也适用顺序数据和数值型数据。数据分布偏斜程度较大时应用。中位数是一组数据排序后处于中间位置上的变量值，用 M e 表示，也不受极端值影响。它将全部数据等分成两部分，一部分数据比中位数大，一部分比中位数小。主要用于测度顺序数据的集中趋势，当然也适用于数值型数据，但不适用于分类数据。数据分布偏斜程度较大时应用。平均数是一组数据相加后除以数据的个数得到的结果，是集中趋势的最主要测度值。它易受极端值影响，数学性质优良。主要适用于数值型数据，而不适用于分类数据和顺序数据。数据对称分布或接近对称分布时应用。简洁答案：答：众数是一组数据中出现次数最多的变量值。主要用于测度分类数据的集中趋势，也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下，只有在数据量较大的情况下，众数才有意义。中位数是一组数据排序后处于中间位置上的变量值，主要用于测度顺序数据当然也适用于作为数值型数据的集中趋势，但不适用于分类数据。平均数是一组数据相加后除以数据的个数得到的结果，主要适用于数值型数据，而不适用于分类和顺序数据。5. 为什么要计算离散系数？与方差的区别答：离散系数是一组数据的标准差与其相应的平均数之比。是对数据相对离散程度的测度，消除了数据水平高低和计量单位的影响，主要用于对不同组别数据离散程度的比较。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。6. 饼图和环形图有什么区别？环形图中间有一个“空洞” ，每个样本用一个环来表示，样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例，从而有利于构成的比较研究。7. 茎叶图与直方图相比有什么优点？它们适用的场合是什么？茎叶图类似于横置的直方图，与直方图相比，茎叶图既能给出数据的分布状况，又能给出每一个原始数据，即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布，但不能保留原始的数值。在应用方面，直方图通常适用于大批量数据，茎叶图通常适用于小批量数据。8. 制作统计表应该注意哪几个问题？首先，要合理安排统计表的结构；其次，表头一般应包括表号、总标题和表中数据的单位等内容；再次，表中的上下两条横线一般用粗线，中间的其他线要用细线，这样使人看起来清楚醒目。最后在使用统计表时，必要时可在表的下方加上注释，特别要注意注明数据来源，以表示对他人劳动成果的尊重，以备读者查阅使用。9. 标准分数有哪些用途？给出了一组数据中各数值的相对位置；并可以用它来判断一组数据是否有异常值。在对多个不同量纲的变量进行处理时，常常需要对各变量进行标准化处理。10. 为什么要计算离散系数？对于平均数不同或计量单位不同的不同组别的变量值，是不能用标准差直接比较其离散程度，为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。11. 简述评价估计量好坏的标准？无偏性，指估计量抽样分布的数学期望等于被估计的总体参数；有效性，指对同一参数总体的两个无偏估计量，有更小标准的估计量更有效；一致性，随样本量的增大，点估计量的值越来越接近被估计总体的参数。12. Za/2S / V(n)的含义是什么？Za/2 S / V(n)是估计总体均值时的估计误差。A是事先所确定的一个概率值，也被称为风险值，它是总体均值不包括在置信区间的概率， Za/2 是标准正态分布上侧面积为 a/2 时的 Z 值13. 数据的预处理包括哪些内容？数据的与处理是在对数据分类或分组之前所做的必要处理，包括数据的审核、筛选、排序等。14. 什么是假设检验中的两类错误？一类错误是原假设 H0 为真却被我们拒绝了，犯这种错误的概率用 a (阿尔法)表示，也称a错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用3表示，所以也称3错误或取伪错误。15. 假设检验依据的基本原理是什么？它的基本思想可以用小概率原理来解释 . 所谓小概率原理 , 就是认为小概率事件在一次试验中是几乎不可能发生的 . 也就是说 , 对总体的某个假设是真实的 , 那么不利于或不能支持这一假设的事件 A 在一次试验中是几乎不可能发一的；要是在一次试验中事件 A 竟然发生了 , 我们就有理由怀疑这一假设的真实性 , 拒绝这一假设 .16. 一元线性回归模型中有哪些基本的假定？因变量 y 与自变量 x 之间具有线性关系；在重复抽样中，自变量 x 的取值是固定的，即假定x是非随机的；误差项 &是一个期望值为 0的随机变量，即 E（）=0;对于所有的x值，&的方差&2都相同；误差项 &是一个服从正态分布的随机变量。17. 解释总平方和、回归平方合、残差平方和的含义，并说明它们之间的关系。（具体符号书中修改）对一个具体的观测值来说，变差的大小可以用实际观测值 y 与其均差来表示，而 n 次观察值的总变差可由这些离差的平方和来表示，称为总平方和（SST）。由于自变量x的变化引起的 y 的变化，而其平方和反映了 Y 的总变差中由于 x 与 y 之间的线性关系因其的 y 的变化部分，它是可以由回归直线来解释的变差部分，称为回归平方和（SSR）。除了 x 对 y 眼的线性影响之外的其他因素对 y 变差的作用，是不能由回归直线来解释的变差部分，称为残差平方和（ SSE） .关系： SST=SSR+SSE.18. 简述判定系数的含义和作用？判定系数是对估计的归回方程拟合优度的度量。判定系数RA2测度了回归直线对观测数据的拟合优度。取值范围【 1,1 】。越接近 1，表明回归平方和占总平方和的比例越大，拟合程度越好，反之。19. 怎样评价回归分析的结果？所估计的回归系数 a 3 1的符号是否与理论或事先预期相一致；如果理论上认为y与x 之间的关系不仅是正的，而且是统计上显著的，那么所建立的回归方程也应该如此；回归方程多大程度上解释了因变量 y 取值的差异？考虑关于误差项 &的正态性假定是否成立。20. 多元回归模型中有哪些基本的假定？误差项 &是一个期望值为 0 的随机变量，即 E（&） =0；对自变量 x1,x2,， xk 的所有值， &的方差 &A2 都相同；误差项 &是一个服从正态分布的随机变量，且相互独立，即 & N（ 0， &A2）21. 解释多重判定系数和调整的多重判定系数的含义和作用？是多元回归中的归回平方和占总平方和的比例，它是多元回归方程拟合优度的一个统计量，反映了在因变量 y 的变差中被估计的回归方程所解释的比例。为避免增加自变量而高估RA2，统计学家提出用样本量 n和自变量的个数k去调整RA2，即调整的多重判定系数（ RaA2 ）。22. 简述时间序列的构成要素。成分分为四种，即趋势 - 是时间序列在长时期内呈现出来的某种持续向上或持续向下的变动（T ）、季节性或者季节变动 -是时间序列一年内重复出现的周期性波动（ S ）, 周期性或循环波动-时间序列中呈现出来的围绕长期趋势的一种波浪形或者振荡式变动（C）,随机性或不规则变动（I ）。趋势是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动，也称长期趋势。季节性也称季节变动，它是时间序列在一年内重复出现的周期性波动。周期性也称循环波动，它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡变动。时间序列除去趋势、周期性和季节性之后的偶然性波动，称为随机性，也称不规则波动。23. 简述平稳序列和非平稳序列的含义平稳序列是基本上不存在趋势的序列，这类序列中各观察值基本上在某个固定的水平上波动，虽然在不同的时间段波动的程度不同，但并不存在某种规律，波动可以看成是随机的。非平稳序列是包含趋势、季节性或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。24. 拉氏指数与帕氏指数各有什么特点？拉氏指数：计算综合指数时将作为权数的同度量因素固定在基期；帕氏指数：计算综合指数时将作为权数的同度量因素固定在报告期。25. 什么是指数体系，它有什么作用？指数体系是指，一个总量往往可以分解成为若干个构成要素，其数量关系可以用指标体系的形式表现出来。反映了总量指标与因素指标之间的相互关系，它们之间的这种联系同样可以表现为各指标指数之间的联系。26. 解释中心极限定理的含义答：在抽样推断中，中心极限定理指出，不论总体服从何种分布，只要其数学期望和方差存在，对总体进行重复抽样时，当样本容量充分大，样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。27. 整群抽样的优缺点是什么？答：整群抽样的优点：可以简化抽样框的编制。样本单元比较集中，实施调查便利，且能节约费用。整群抽样的缺点：当群内具有一定的相似性，而不同群之间的差别比较大时，相同样本量下整群抽样的抽样效率比简单随机抽样差，抽样误差较大。28. 简述样本容量与置信水平、总体方差、允许误差的关系答：以估计总体均值时样本容量的确定公式为例：样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。29. 理解原假设与备择假设的含义，并归纳常见的几种建立原假设与备择假设的原则 .答：原假设通常是研究者想收集证据予以反对的假设；而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有：（1）原假设和备择假设是一个完备事件组。（2）一般先确定备择假设。再确定原假设。（3）等号“=”总是放在原假设上。（4）假设的确定带有一定的主观色彩。（ 5）假设检验的目的主要是收集证据来拒绝原假设。30. 第一类错误和第二类错误分别是指什么？它们发生的概率大小之间存在怎样的关系？答：第I类错误指，当原假设为真时，作出拒绝原假设所犯的错误，其概率为a 。第II类错误指当原假设为假时，作出接受原假设所犯的错误，其概率为B。在其他条件不变时，a增大， B减小；B增大，a减小。详细答案：第I类错误原假设为正确时拒绝原假设所犯的错误，第I类错误的概率记为a，被称为显著性水平。原假设是错误的却没拒绝原假设，这时所犯的错误称为第II类错误，犯第H类错误的概率记为因此也成为B错误。假设检验中犯的第I类错误的概率也称为显著性水平，记为a，它是人们事先指定的犯第I类错误概率的最大允许值。显著性水平a越小，犯第I类错误的可能性自然越小，犯第 II 类错误的可能性则随之增大。反之相反。31. 什么是显著性水平？它对于假设检验决策的意义是什么？答：假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值，用于检验结果的可靠性度量，但确定了显著性水平等于控制了犯第一错误的概率，但犯第二类错误的概率却是不确定的，因此作出“拒绝原假设”的结论，其可靠性是确定的，但作出“不拒绝原假设”的结论，其可靠性是难以控制的。32. 什么是 p 值？ p 值检验和统计量检验有什么不同？答： p 值是当原假设为真时，检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。 P 值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平a，来控制犯第一类错误的上限， p值可以有效地补充a提供地关于检验可靠性的有限信息。p值检验的优点在于，它提供了更多的信息，让人们可以选择一定的水平来评估结果是否具有统计上的显著性。33. 什么是统计上的显著性？答：一项检验在统计上是显著的（拒绝原假设），是指这样的（样本）结果不是偶然得到的，或者说，不是靠机遇能够得到的。显著性的意义在于“非偶然的。34. 相关分析与回归分析的区别与联系是什么？答：相关与回归分析是研究变量之间不确定性统计关系的重要方法，相关分析主要是判断两个或两个以上变量之间是否存在相关关系，并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法，不能揭示现象之间的本质关系。35. 为什么在多元回归中要对可决系数进行修正？答：在样本容量一定下，随着模型中自变量个数的增加，可决系数 R2 会随之增加，模型的拟合程度上升，但自由度会损失，从而降低推断的精度，因此需用自由度来修正可决系数，用修正的可决系数来判断增加自变量的合适性。36. 在多元线性回归中，对参数作了 t 检验后为什么还要作方差分析和 F 检验？答： t 检验仅是对单个系数的显著性进行检验，由于自变量之间存在着较为复杂的关系，因此有必要对回归系数进行整体检验，方差分析和 F 检验就是对回归方程的整体统计显著性进行的检验方法。37. 函数关系与相关关系有何不同？答：（ 1）函数关系指变量之间的关系是确定的，而相关关系的两变量的关系则是不确定的。可以在一定范围内变动；（ 2）函数关系变量之间的依存可以用一定的方程 y=f（x）表现出来，可以给定自变量来推算因变量，而相关关系则不能用一定的方程表示。函数关系是相关关系的特例，即函数关系是完全的相关关系，相关关系是不完全的相关关系。38. 什么是标准差和标准误差，两者有和差别？答：标准差作为随机误差的代表 , 是随机误差绝对值的统计均值。在抽样试验（或重复的等精度测量）中 , 常用到样本平均数的标准差 , 亦称样本平均数的标准误或简称标准误。区别：标准差是表示个体间变异大小的指标 , 反映了整个样本对样本平均数的离散程度 , 是数据精密度的衡量指标 ; 而标准误反映样本平均数对总体平均数的变异程度 ,从而反映抽样误差的大小 , 是量度结果精密度的指标。39. 同度量因素固定的固定的一般原则？答：在编制数量指标指数时，用质量指标指数作为同度量因素，并把这个同度量因素固定在基期。在编制质量指标指数时，用数量指标做同度量因素，并且把这个同度量因素，并且把这个同度量因素固定在报告期。40. 同度量因素的作用？答：不仅起着同度量的作用；同时还起着对指标“加权”的作用41. 拉氏指数与帕氏指数同度量因素固定的原则？答：拉氏指数：以基期的质量指标作为同度量因素帕氏指数：以报告期的数量指标作为同度量因素42. 解释描述统计和推断统计描述统计；它研究的是数据收集，处理，汇总，图表描述，概括与分析等统计方法。推断统计；它是研究如何利用样本数据来推断总体特征的统计方法。43. 统计学的类型和不同类型的特点（了解）统计数据；按所采用的计量尺度不同分；（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述；（定性数据）顺序数据：只能归于某一有序类别的非数字型数据。它也是有类别的，但这些类别是有序的。（定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。统计数据；按统计数据都收集方法分；观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。实验数据：在实验中控制实验对象而收集到的数据。统计数据；按被描述的现象与实践的关系分；截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。44. 分类数据和顺序数据的整理和图示方法各有哪些分类数据：制作频数分布表，用比例，百分比，比率等进行描述性分析。可用条形图，帕累托图和饼图进行图示分析。顺序数据：制作频数分布表，用比例，百分比，比率。累计频数和累计频率等进行描述性分析。可用条形图，帕累托图和饼图，累计频数分布图和环形图进行图示分析。45. 数据预处理内容数据审核（完整性和准确性；适用性和实效性），数据筛选和数据排序。46. 分类数据和顺序数据的整理和图示方法各有哪些分类数据：制作频数分布表，用比例，百分比，比率等进行描述性分析。可用条形图，帕累托图和饼图进行图示分析。顺序数据：制作频数分布表，用比例，百分比，比率。累计频数和累计频率等进行描述性分析。可用条形图，帕累托图和饼图，累计频数分布图和环形图进行图示分析。47. 数据型数据的分组方法和步骤分组方法：单变量值分组和组距分组，组距分组又分为等距分组和异距分组。分组步骤： 1 确定组数 2 确定各组组距 3 根据分组整理成频数分布表48. 一组数据的分布特征可以从哪几个方面进行测度？数据分布特征可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或集中的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布的偏态和峰态。49. 怎样理解平均数在统计学中的地位？平均数在统计学中具有重要的地位，是集中趋势的最主要的测度，主要适用于数值型数据，而不适用于分类数据和顺序数据。50. 简述四分位数的计算方法。四分位数是一组数据排序后处于 25%和 75%位置上的值。根据未分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数。51. 估计量和估计值估计量：用于估计总体参数的随机变量估计值：估计参数时计算出来的统计量的具体值52. 评价估计量的标准：无偏性：估计量抽样分布的数学期望等于被估计的总体参数有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数53. 置信区间：由样本统计量所构造的总体参数的估计区间54. 假设检验和参数估计有什么相同点和不同点？答：参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法，总体参数在估计前是未知的。而在参数假设检验中，则是先对卩的值提出一个假设，然后利用样本信息去检验这个假设是否成立。55. 什么是假设检验中的显著性水平？统计显著是什么意思？答：显著性水平是一个统计专有名词，在假设检验中，它的含义是当原假设正确时却被拒绝的概率和风险。统计显著等价拒绝 H0,指求出的值落在小概率的区间上，一般是落在 0.05 或比 0.05 更小的显著水平上。56. 什么是方差分析？它研究的是什么？答：方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是非类型自变量对数值型因变量的影响。57. 要检验多个总体均值是否相等时，为什么不作两两比较，而用方差分析方法？答：作两两比较十分繁琐，进行检验的次数较多，随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会增加。而方差分析方法则是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。58. 方差分析包括哪些类型？它们有何区别？答：方差分析可分为单因素方差分析和双因素方差分析。区别：单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响，而双因素涉及两个分类型自变量。59. 简述时间序列的构成要素。时间序列的构成要素：趋势，季节性，周期性，随机性60. 利用增长率分析时间序列时应注意哪些问题。(1) 当时间序列中的观察值出现 0 或负数时，不宜计算增长率；(2) 不能单纯就增长率论增长率，要注意增长率与绝对水平的综合分析；大的增长率背后，其隐含的绝对值可能很小，小的增长率背后其隐含的绝对值可能很大。61. 简述平稳序列和非平稳序列的含义。1. 平稳序列 (stationary series) 基本上不存在趋势的序列，各观察值基本上在某个固定的水平上波动或虽有波动，但并不存在某种规律，而其波动可以看成是随机的2. 非平稳序列 (non-stationary series)是包含趋势、季节性或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。因此，非平稳序列又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。62. 解释指数的含义。答：指数最早起源于测量物价的变动。广义上，是指任何两个数值对比形成的相对数；狭义上，是指用于测定多个项目在不同场合下综合变动的一种特殊相对数。实际应用中使用的主要是狭义的指数。63. 加权综合指数和加权平均指数有何区别与联系 ? 加权综合指数 : 通过加权来测定一组项目的综合变动，有加权数量指数和加权质量指数。使用条件：必须掌握全面数据 (数量指数，测定一组项目的数量变动，如产品产量指数，商品销售量指数等) ( 质量指数 , 测定一组项目的质量变动 , 如价格指数、产品成本指数等 )拉式公式：将权数的各变量值固定在基期。帕式公式：把作为权数的变量值固定在报告期。加权平均指数 : 以某一时期的总量为权数对个体指数加权平均。使用条件：可以是全面数据、不完全数据。因权数所属时期的不同，有不同的计算形式。有：算术平均形式、调和平均形式。64. 比较概率抽样和非概率抽样的特点，举例说明什么情况下适合采用概率抽样？什么情况下适合非概率抽样？答：概率抽样的特点抽样时是按一定的概率以随机原则抽取样本。每个单位被抽中的概率是已知的，或是可以计算出来的。当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。非概率抽样的特点：操作简便，时效快，成本低，而且对于抽样中的统计学专业技术要求不是很高。非概率抽样适合探索性的研究，调查的结果用于发现问题，为更深入的数量分析提供准备。同时也适合市场调查中的概念测试，如产品包装测试、广告测试等。概率抽样适合调查的目标是用样本的调查结果对总体相应的参数进行估计，并计算估计的误差，得到总体参数的置信区间。65. 制作统计表应该注意哪几个问题？答：要合理安排统计表的结构，比如行标题，列标题，数字资料的位置应安排合理。表头一般应包括表号，总标题和表中数据的时间（When）、地点（Where）以及何种数据（What），即标题内容应确定 3W要求。表中的上下两条横线一般用粗线，中间的其他线要用细线，左右两边不封口，列标题之间可用竖线分开，而行标题之间通常不必用横线隔开，表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一，对于没有数字的表格单元，一般用“”表示。注意注明数据来源。66. 为什么要计算离散系数？答：方差和标准差是反映数据分散程度的绝对值，其数值的大小一方面受原变量本身水平高低的影响，也就是与变量的平均数大小有关，变量值绝对水平高的，离散程度的测度值自然也就大，绝对水平小的离散程度测度值自然也就小。另一方面，它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同。因此，对于平均水平不同或计量单位不同的不同组别的变量值，是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。67. 拉氏指数与帕氏指数各有什么特点拉氏指数：由于拉氏指数是以基期变量值为权数，可以消除权数变动对指数的影响，从而使不同时期的指数具有可比性；物价指数是在假定销售量不变的情况下，报告期价格的变动水平，不能反映出消费量的变化；拉式价格指数实际中应用得很少，拉式质量指数实际中应用得较多。帕氏指数：它是用报告期物量加权来计算物价指数，不能消除权数变动对指数的影响，不同时期的指数缺乏可比性，但可以同时反映出价格和消费结构的变化，具有比较明确的经济意义；由于包含了价格的变动，说明是按调整后的价格来测定物量的综合变动，这本身不符合物量指数的目的；帕氏数量指数实际中应用得较少，帕氏质量指数实际中应用得较多。68. 标准分数有哪些用途？标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时，常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。69. 解释 95%的置信区间。95%的置信区间指用某种方法构造的所有区间中有 95%的区间包含总体参数的真值。70. Za/2 的含义是什么含义： Za/2 是标准正态分布上侧面积为 a/2 的 z 值 , 公式是统计总体均值时的边际误差。71. 解释独立样本和匹配样本的含义。独立样本：如果两个样本是从两个总体中独立抽取的，即一个样本中的元素与另一个样本中的元素相互独立。匹配样本：一个样本中的数据与另一个样本中的数据相对应。72. 简述样本量与置信水平、总体方差、边际误差的关系。样本量越大置信水平越高，总体方差和边际误差越小73. 方差分析中有哪些基本假定？答: 方差分析中有三个基本假定：（1）每个总体都应服从正态分布（2）各个总体的方差（T 2必须相同（ 3 ）观测值是独立的74. 解释置信水平的含义置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。75. 什么是 P 值?利用 P 值进行检验和利用统计量进行检验有什么不同犯第 I 类错误的真实概率就是 P 值。用统计术语来说，如果原假设 Ho 是正确的，所得到的样本结果会像实际观测结果那么极端或更极端的概率成为P 值，也称为观察到的显著性水平。1. P 值决策优先于统计量决策。与传统的统计量相比， P 值决策提供了更多的信息。2. 根据统计量决策，如果拒绝原假设，也仅仅是知道犯错误的可能性是那么大，但究竟是多少却不知道。而 P 值则是算出的犯第 I 类错误的实际概率。在假设检验中 , 为什么采取不拒绝原假设而不采取接受原假设1. “接受”的说法有时会产生误导2. 采用“不拒绝”的表述方法更合理一些，因为这种表述意味着样本提供的证据不够强大，因而没有足够的理由拒绝，这不等于已经证明原假设正确76. 为什么说假设检验不能证明原假设正确1. 假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设2. 假设检验只提供不利于原假设的证据。因此，当拒绝原假设时，表明样本提供的证据证明它是错误的，当没有拒绝原假设时，我们也没法证明它是正确的，因为假设检验的程序没有提供它正确的证据77样本量的大小与显著性有怎样的关系通常在做某种统计推断时，显著性水平要求越高，要达到该显著性水平的样本量越大。样本量越大，检验统计量的值夜就越大，p值就越小，就越有可能拒绝原假设。反之则相反。78. 解释原假设和备择假设原假设：研究者想收集证据予以反对的假设。备择假设：研究者想收集证据予以支持的假设。79. 什么是标准化检验统计量？为什么要对统计量进行标准化?标准化检验统计量是根据样本观测结果计算出对原假设和备择假设作出决策的检验统计量，对样本估计量标准化的结果，它反映了点估计量与假设的总体参数相比相差多少个标准差的距离。标准化检验统计量点估计量一假设值-点估计量的拙样标准差没标准化的统计量不能直接作为判断的依据，只有将其标准化后，才能用于度量它与原假设的参数值之间的差异程度。80. 怎样理解显著性水平通常以a表示，是一个临界概率值。它表示在“统计假设检验”中，用样本资料推断总体时，犯拒绝 “假设”错误的可能性大小。 a越小，犯拒绝 “假设”的错误可能性越小。81. 怎样理解统计显著性与实际显著性在假设检验中，拒绝原假设称样本结果在“统计上是显著的”；不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意义是指“非偶然的”，它表示这样的样本结果不是偶然得到的，同样，结果是不显著的，则表明这样的样本结果很可能是偶然得到的。在进行决策时，我们只能说 p值越小，拒绝原假设的证据就越强，检验的结果也就越显著。当p值很小而拒绝原假设时，并不一定意味着检验的结果就有实际意义，因为假设检验中所说的“显著”仅仅是“统计意义上的显著”。也就是说，一个在统计上显著的结论在实际中却不见得就很重要，也不以为着就有实际意义。82. 简述判定系数的含义和作用1. 回归平方和占总离差平方和的比例2. 反映回归直线的拟合程度在回归分析中，F检验和t检验各有什么作用在线性关系检验中，应用 F检验来分析二者之间的差别是否显著T检验：:在回归系数检验中，检验 x与y之间是否具有线性关系，或者说，检验自变量x对因变量y的影响是否显著小样本估计时对总体有什么假定83. 标准分数：变量值与其平均数离差除以标准差后的值就是标准分数也称标准化值或z分数。84. B错误：原假设为伪是没有拒绝，犯这种错误的概率用表示，所以也称B错误或取伪错误a错误：原假设为真时拒绝原假设，犯这种错误的概率用 a表示，所以也被称为a错误或弃真错误。85. 偏态：由统计学家皮尔逊提出，它是对数据分布对称性的测度。测度偏态的统计量是偏态系数，记作SK。偏态系数=0为对称分布，偏态系数 0为右偏分布，偏态系数 0为左偏分布86. 峰态：由统计学家皮尔逊提出，它是对数据尖峰或平峰程度的测度即数据分布扁平程度的测度。测度峰态的统计量是峰态系数，记作 K。87. 截面数据：在相同或近似相同的时间点上收集的数据，描述现象在某一时刻的变化情况。比如，2005年我国各地区的国内生产总值数据88. 离散系数：标准差与其相应的均值之比，对数据相对离散程度的测度，消除了数据水平高低和计量单位的影响。用于对不同组别数据离散程度的比较。计算公式为：89. 最小二乘法：由德国科学家咼斯提出，也称最小平方法。它是通过因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。90. 众数：一组数据中出现次数最多的变量值。适合于数据量较多时使用，不受极端值的影响，一组数据可能没有众数或有几个众数。主要用于分类数据，也可用于顺序数据和数值型数据91. 中位数：排序后处于中间位置上的值，不受极端值的影响。主要用于顺序数据，也可用数值型数据，但不能用于分类数据92. 异众比率：是对分类数据离散程度的测度，是指非众数组的频数占总频数的比例。用于衡量众数的代表性93. 相关系数：测度2 X2列联表中数据相关程度。对于2X 2列联表，系数的值在01之间。列联表中变量的位置可以互换，的符号没有实际意义，故取绝对值即可94. 显著性水平：是一个统计专用名词。在假设检验中，它的含义是当原假设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率。它是由人们根据检验的要求确定的，用 a表示。95. t分布：高塞特以“ Student ” （学生）为笔名的论文中首次提出。t分布是类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。96. 四分位差：反映了中间50%数据的离散程度，也称为内距或四分间距。是对顺序数据离散程度的测度，不受极端值的影响。用于衡量中位数的代表性上四分位数与下四分位数之差：Qd = QU - QL97. 趋势 : 是时间序列在长时间内呈现出来的某种持续向上或持续下降的变动，也称长期趋势。时间序列中的趋势可以是线性的也可以是非线性的。98. 平稳序列 : 基本上不存在趋势的序列 . 各观察值基本上在某个固定的水平上波动 , 虽有波动，但并不存在某种规律，而其波动可以看成是随机的99. 平均增长率：也称平均增长速度，它是序列中各逐期环比值（也称环比发展速度）的几何平均数减 1 后的结果。100. 判定系数：回归平方和占总误差平方和的比例，记作 R2 . 反映回归直线对观测数据的拟合程度，取值范围在 0 , 1 之间101. 列联系数：又称列联相关系数，简称 C 系数，主要用于大于 2X 2列联表的情况。102. 解释分类数据、顺序数据和数值型数据的含义。分类数据 : 只能归于某一类别的非数字型数据，对事物进行分类的结果，数据表现为类别，用文字来表述。例如，人口按性别分为男、女两类顺序数据：只能归于某一有序类别的非数字型数据，对事物类别顺序的测度，数据表现为类别，用文字来表述。例如，产品分为一等品、二等品、三等品、次品数值型数据：按数字尺度测量的观察值，结果表现为具体的数值，对事物的精确测度。例如：身高为 175cm 、168cm、183103. 数据的预处理包括哪些内容？数据审核：检查数据中的错误数据筛选：找出符合条件的数据数据排序：升序和降序，寻找数据的基本特征数据透视：按需要汇总104. 数值型数据的分组方法有哪些？有单变量值分组和组距分组两种。单变量值分组是把每一个变量值作为一组，这种分组通常只适用于离散变量，且变量值较少的情况下使用。组距分组它是将全部变量值依次划分为若干个区间，并将每一个区间的变量值作为一组，适应于连续性变量或变量值较多的情况下。105. 简述组距分组的步骤。（1）确定组数：组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时，组数一般为 5 K 15（ 2）确定组距：组距（Class Width）是一个组的上限与下限之差，可根据全部数据的最大值和最小值及所分的组数来确定，即组距=（最大值-最小值）十组数（3）统计出各组的频数并整理成频数分布表

展开阅读全文

统计总简答题

最新文档