统计学复习资料

上传人:zou****hua 文档编号:145303370 上传时间:2022-08-29 格式:DOC 页数:9 大小:151.50KB
返回 下载 相关 举报
统计学复习资料_第1页
第1页 / 共9页
统计学复习资料_第2页
第2页 / 共9页
统计学复习资料_第3页
第3页 / 共9页
点击查看更多>>
资源描述
1. 正常条件下新生婴儿的性别比为 107:1002. 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点 的频率各为 1/63. 农作物的产量与施肥量之间存在相关关系4. 普查1. 为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的 重要调查方法。5. 抽样调查1. 抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本 对总体数量规律性进行推断的调查研究方法6. 抽样误差1. 利用样本推断总体时产生的误差2. 由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在 误差,因而抽样误差对任何一个随机样本来讲都是不可避免的7. 非抽样误差1. 由于调查过程中各有关环节工作失误造成的2. 包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总 错误,不完整的抽样框导致的误差,调查中不回答8. 总体1. 研究的所有基本单位(通常是人、物体、交易或事件)的总和9. 变量1. 在研究总体时,我们重点关注的是总体单位具有哪些特征或属性,我们把这 些特征称为变量10. 样本1. 总体的一部分单位组距分组1. 将变量值的一个区间作为一组2. 适合于连续变量3. 适合于变量值较多的情况4. 需要遵循“不重不漏”的原则5. 可采用等距分组,也可采用不等距分组 【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率几何平均:G = 4104 .5% x 102 .1% x 125 .5% x 101 .9% - 1=8.0787 %算术平均:切尾均值 【例】谋次比赛共有 11 名评委,对某位歌手的给分分别是:(一)经整理得到顺序统计量值为 (二)去掉一个最高分和一个最低分,取 1/111)分组数据的标准差计算公式为:2)未分组数据的标准差计算公式为: 10甲乙两个企业生产二种产品的单位成本和总成本资料如下:产品 名称单位成本(元)总成本(元)甲企业乙企业A1521003255B2030001500C3015001500比较哪个企业的总平均成本高?并分析其原因。解:设产品单位成本为X,产量为f 则总成本为f工 、由于:平均成本x=云=总产本,而已知数据中缺产量f的数据,又因个别产品产量f=该产品成本该产品单位成本xfx从而x=于是得:甲企业平均成本= 19.41 (元)2100 + 3000 + 1500210030001500+152030工 xf 3255 + 1500 + 1500“ /一、乙企业平均成本=18.29 (元)工 f3255 + 1500 + 1500x 152030常用的抽样方法3.3.1 简单随机抽样3.3.2 分层抽样3.3.3 系统抽样3.3.4 整群抽样1. 数据分布偏斜程度的测度2. 偏态系数=0为对称分布3. 偏态系数 0为右偏分布4. 偏态系数 0为左偏分布5偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5-1或-0.5-1之间,被 认为是中等偏态分布;偏态系数越接近 0,偏斜程度就越低1. 数据分布扁平程度的测度2. 峰态系数=0扁平峰度适中3. 峰态系数0为扁平分布4. 峰态系数0为尖峰分布点估计1. 用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2. 没有给出估计值接近总体参数程度的信息3. 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等区间估计1. 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加 减抽样误差而得到的2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概 率度量置信水平1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比 率称为置信水平2. 表示为(1 - a%)a为是总体参数未在区间内的比率3. 常用的置信水平值有 99%, 95%, 90%-相应的 a 为 0.01,0.05, 0.10置信区间4. 由样本统计量所构造的总体参数的估计区间称为置信区间 影响区间宽度的因素1总体数据的离散程度,用a来测度2. 样本容量,3置信水平(1 - a),影响z的大小评价估计量的标准无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性:一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数什么是假设?对总体参数的具体数值所作的陈述 总体参数包括总体均值、比率、方差等分析之前必需陈述什么是假设检验?1. 先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成 立的过程2. 有参数检验和非参数检验3. 逻辑上运用反证法,统计上依据小概率原理 假设检验中的两类错误第I类错误(弃真错误)原假设为真时拒绝原假设第I类错误的概率记为a被称为显著性水平第II类错误(取伪错误)原假设为假时未拒绝原假设第I类错误的概率记为卩(Beta)假设检验步骤的总结1. 陈述原假设和备择假设2. 从所研究的总体中抽出一个随机样本3. 确定一个适当的检验统计量,并利用样本数据算出其具体数值4. 确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5. 将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策相关分析与回归分析的联系:共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。 相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖 于回归分析 相关分析中相关系数的确定建立在回归分析的基础上。 样本回归函数与总体回归函数的关系相互联系样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。 是对总体回归函数参数的估计。 是对总体条件期望的估计 残差 e 在概念上类似总体回归函数中的随机误差 u。回归分析的目的:用样本回归函数去估计总体回归函数。样本回归函数与总体回归函数的关系相互区别总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的值是不可直接观测的; 而样本回归函数中的值是只要估计出样本回归的参数就可以计算的数值。什么是时间数列? 按时间顺序记录并排列的数据序列称时间序列时间数列的基本要素:所属的时间范围反映数量特征的数值 时间序列的分析目的: 分析过去,描述动态变化;认识规律,揭示变化规律; 预测未来,未来的数量趋势。 编制时间数列的基本原则:各指标数值应当可比所属时间可比总体范围可比经济内容可比计算口径可比计算方法可比一、时间序列的构成要素 长期趋势:现象在较长时期内受某种根本性因素作用而形成的总的变动趋势 季节变动:现象在一年内随着季节的变化而发生的有规律的周期性变动 循环变动:现象以年为周期所呈现出的波浪起伏形态的有规律的变动若干 不规则变动:是一种无规律可循的变动,包括 严格的随机变动和不规则的突发性影响很大 的变动两种类型二、时间序列构成因素的组合模型乘法模型:Y = TSCI加法模型: Y = T + S + C + I 一、测定长期趋势的移动平均法 基本原理消除时间序列中的不规则变动和其他变动,揭示出时间序列的长期趋势 移动平均方式选择一定的用于平均的时距项数 N,采用对序列逐项递移的方式,对原序列递移的 N项计算一系列序时平均数。测定长期趋势的意义:口把握现象随时间演变的趋势和规律;口 对事物的未来发展趋势作出预测;口 便于更好地分解研究其他因素。测定长期趋势的基本方法:移动平均法趋势线拟合法 移动平均法的步骤:口 1确定移动时距(一般应选择奇数项进行移动平均;若原数列呈周期变动,应选择 现象的变动周期作为移动的时距长度。)2计算各移动平均值,并将其编制成时间数列移动平均法的特点:1、对原序列有修匀或平滑的作用。时距项数N越大,对数列的修匀作用越强2、移动平 均项数N为偶数时,需移正平均3、平均时距项数N与季节变动长度一致才能消除季节变动;时距项数 N 和周期一致才能消除周期波动。4、移动平均会使原序列失去部分信息, 平均项数越大,失去的信息越多。5.由移动平均数组成的趋势值数列,较原数列的项数少, N为偶数时,趋势值数列首尾各少N/2项;N为奇数时,首尾各少N-1/2项;2、时间序列分析指标平均发展水平时间序列速度分析指标发展速度、增长速度、平均发展速度、平均增长速度4、时间序列的长期趋势分析:线性趋势和非线性趋势 常用测定方法:移动平均法和趋势模型法5、时间序列的季节变动分析:原始资料平均法;趋势剔除法;季节变动的调整6、循环变动测定方法直接法和剩余法第9章 统 计 指 数一、指数的概念一种专门的对比分析指标,具有相对数形式()对比方式:不同时间、不同空间、实际 与计划二、指数的分类1“质量指标指数”与“数量指标指数”2“个体指数”与“总指数”3“动态指数”与“静态指 数”4其他,如“综合指数”与“平均指数”、 “简单指数”与“加权指数”、“环比指数”与“定 基指数”等一、总指数编制的基本问题先综合、后对比的方式,即 “综合指数法”;编制综合指数的基本问题是“同度量”问题 先对比、后平均的方式,即 “平均指数法”;编制平均指数的基本问题之一是“合理加权” “简单综合指数”与“简单平均指数”都存在方法上的缺陷;需要改进,编制相应的加权指 数。综合指数的两个问题:同度量因素指标的确定,同度量因素固定水平的选择。 平均指数的两个问题:平均 “型式”的选择,指数“权数”的选择。一、指数体系及其作用广义指数体系:类似于指标体系 狭义指数体系:一个总值指数等于若干个因素指数的乘积。 指数体系的分析作用:因素分析、指数推算9.4 几种常用的经济指数一、消费者价格指数和零售价格指数二、生产指数和生产者价格指数 三、股票价格指数 四、农产品收购价格指数一、综合评价及其方法单项评价:仅就一项指标进行对比和判断综合评价:须就多项指标进行综合判断常规的综合评价方法:“简易计分法”和“参数指标法”规范的综合评价方法:“综合评价指数法”“基本核算表”所包含的五大核算:1.国内生产总值核算。以国内生产总值为核心指标,对国民经济活动基本经济总量进行全面、 系统的核算 2.投入产出核算。运用投入产出表详细地反映国民经济各产品之间、部门之间 互相依存的技术经济联系。3.资金流量核算。以全社会资金运动为对象,核算各部门资金的 来源和运用。4.国际收支核算。综合反映国家的国际收支平衡状况、收支结构和外汇储备状 况。5.资产负债核算。反映一个国家在一定时点上的国民经济资产和负债总量、结构。 11.在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)20030019300400304005004250060018600以上11合计120计算120家企业利润额的均值和标准差。:设各组平均利润为x,企业数为f则组总利润为xf,由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:按利润额分组(万元)组中值企业数(个)总利润xfxf20030025019475030040035030105004005004504218900500600550189900600以上650117150合计12051200于是,120 家企业平均利润为:工xf =Tf51200120=426.67 (万元);分组数据的标准差计算公式为:手动计算须列表计算各组数据离差平方和(x426.67)f,并求和,再代入计算公式:列表计算如下组中值企业数(个)xf(入426.6 7 丿f25019593033.489135030176348.6674504222860.133855018273785.200265011548639.1779合计1201614666.668表格中(x426.67)f的计算方法:方法一:将表格复制到 Excel 表中,点击第三列的顶行单元格后,在输入栏中输入: =(a3 426.67)* (a3 426.67)*b3,回车,得到该行的计算结果;点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“”字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的(x426.67)f 计算完毕;于是得标准差: (见 Excel 练习题 2.11)工(X X)2 f1614666.668-1=116.48(万元)。120 1点击第三列的合计单元格后,点击菜单栏中的“E”号,回车,即获得第三列数据的和。方法二:将各组组中值x复制到Excel的A列中,并按各组次数f在同列中复制,使该 列中共有f个x, 120个数据生成后,点选A列的最末空格,再点击菜单栏中“E”符号右 边的小三角“”,选择“其它函数”一选择函数“STDEV” 一“确定”,在出现的函数参 数窗口中的Numbed右边的空栏中输入:A1:A30,f“确定”,即在A列最末空格中出现 数值:116.4845,即为这120个数据的标准差。(见Excel练习题2.11)于是得标准差:s =116.4845 (万元)。 12为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名717 岁的少年儿童作为样本,另一位调查人员则抽取了 1000名717岁的少年儿童作为样本。请 回答下面的问题,并解释其原因。(1) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者 这两组样本的平均身高相同?(2) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或 者这两组样本的标准差相同?(3) 哪一位调查研究人员有可能得到这 1100 名少年儿童的最高者或最低者?或者对 两位调查研究人员来说,这种机会是相同的?解:(1)(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准 差的大小基本上不受样本大小的影响。(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化 的范围就可能越大。 13一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤; 女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题:(1) 是男生的体重差异大还是女生的体重差异大?为什么?(2) 以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。(3) 粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间?(4) 粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间? 解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:因为女生的离散系数为v=丄=0.150男生体重的离散系数为V=二=0.08X 60对比可知女生的体重差异较大。60 丿公 I斤5 丿公 I斤(2)男生:X = 60 公斤 =27.27 (磅),s =厶斤 =2.27 (磅)2.2 公 斤2.2 公 斤0 /公 I斤5 公 I斤女生:X =公斤=22.73 (磅),s =厶斤 =2.27 (磅)2.2 公 斤2.2公斤(3)68%;(4)95%。 14. 对 10 名成年人和 10 名幼儿的身高(厘米)进行抽样调查,结果如下:成年组166169172177180170172174168173幼儿组68696870717372737475(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么? (2)比较分析哪一组的身高差异大?解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不 合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。(2)利用Excel进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得:4.2成年组身高的离散系数:v = 1 2一 = 0.024 ;s 172 .1又得幼儿组身高的平均数为 71.3,标准差为 2.497,从而得:2.497幼儿组身高的离散系数:v = 0.035 ;s 71.3由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散 程度相对较大。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑环境 > 建筑资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!