统计学(第六版)贾俊平——-课后习题答案

上传人:回**** 文档编号:120472948 上传时间:2022-07-17 格式:DOC 页数:64 大小:2.49MB
返回 下载 相关 举报
统计学(第六版)贾俊平——-课后习题答案_第1页
第1页 / 共64页
统计学(第六版)贾俊平——-课后习题答案_第2页
第2页 / 共64页
统计学(第六版)贾俊平——-课后习题答案_第3页
第3页 / 共64页
点击查看更多>>
资源描述
第一章 导论 1.11(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。1.2 (1)总体是该市所有职工家庭的集合;样本是抽中的个职工家庭的集合。 (2)参数是该市所有职工家庭的年人均收入;记录量是抽中的个职工家庭的年人均收入。1.3 (1)总体是所有IT从业者的集合。 (2)数值型变量。 (3)分类变量。 (4)截面数据。1.4 (1)总体是所有在网上购物的消费者的集合。 (2)分类变量。 (3)参数是所有在网上购物者的月平均耗费。 (4)参数 (5)推断记录措施。第二章数据的收集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们运用的资料称为“二手资料”。 使用二手资料时需要注意:资料的原始收集人、收集资料的目的、收集资料的途径、收集资料的时间,要注意数据的定义、含义、计算口径和计算措施,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例阐明什么状况下适合采用概率抽样,什么状况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目的量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特性,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是根据随机原则,而是根据研究目的对数据的规定,采用某种方式从总体中抽出部分单位对其实行调查。非概率抽样操作简朴、实效快、成本低,并且对于抽样中的专业技术规定不是很高。它适合摸索性的研究,调查成果用于发现问题,为更进一步的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中收集数据的措施重要有自填式、面方式、电话式,除此之外,尚有那些收集数据的措施?实验式、观测式等。4. 自填式、面方式、电话式调查个有什么利弊?自填式长处:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择以便时间答卷,减少回答敏感问题的压力。缺陷:返回率低,调查时间长,在数据收集过程中遇到问题不能及时调节。面谈式长处:回答率高,数据质量高,在数据收集过程中遇到问题可以及时调节可以充足发挥调查员的作用。缺陷:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式长处:速度快,对调查员比较安全,对访问过程的控制比较容易,缺陷:实行地区有限,调查时间不适宜过长,问卷要简朴,被访者不肯回答时,不适宜劝服。5.请举出(或设计)几种实验数据的例子。不同饲料对牲口增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你觉得应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所波及问题的时间范畴。对于故意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7.如何减少无回答?请通过一种例子,阐明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增长样本容量来控制。对于系统误差,做好避免,在调查前做好各方面的准备工作,尽量把无回答率降到最低限度。无回答浮现后,分析武回答产生的因素,采用补救措施。例如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不乐意回答时,可以通过一定的措施劝服被访者,还可以通过馈赠小礼物等的方式提高回收率。第三章 数据的图表收集一、思考题3.1数据的预解决涉及哪些内容?答:审核、筛选、排序等。3.2分类数据和顺序数据的整顿和显示措施各有哪些?答:分类数据在整顿时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算多种的频数、频率,以及合计频数、合计频率。可根据需要绘制条形图、饼图、环形图等。3.3数值型数据的分组措施有哪些?简述组距分组的环节。答:单变量值分组和组距分组。其中组距分组:第一步,拟定组数,组数多少由数据的多少和特点等决定,一般515组;第二步,拟定各组组距,宜取5或10的倍数;第三步,根据分组整顿出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表达各类别频数的多少,其宽度固定,直方图用面积表达各组频数,矩形的高度表达每一组的频数或频率,宽度表达组距,高度与宽度均故意义;2直方图各矩形持续排列,条形图分开排列;3条形图重要展示分类数据,直方图重要展示数值型数据。3.5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。3.6饼图和环形图的不同?答:饼图只能显示一种样本或总体各部分所占比例,环形图可以同步绘制多种样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一种环。3.7茎叶图比直方图的优势,她们各自的应用场合?答:茎叶图既能给出数据的分布状况,又能给出每一种原始数据,即保存了原始数据的信息。在应用方面,直方图一般合用于大批量数据,茎叶图合用于小批量数据。3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。3.9制作登记表应注意的问题?答:1,合理安排登记表构造;2表头一般涉及表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其她用细线,两端开口,数字右对齐,不要有空白格;4在使用登记表时,必要时可在下方加注释,注明数据来源。二、练习题3.1答: (1)表中数据属于顺序数据。(2)用Excel制作一张频数分布表。 服务级别家庭数目(个)好14较好21一般32较差18差15(3)绘制一张条形图,反映评价级别的分布。 (4)绘制评价级别的帕累托图。32 某行业管理局所属40个公司的产品销售收入数据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126规定:(1)根据上面的数据进行合适的分组,编制频数分布表,并计算出累积频数和累积频率。1、拟定组数:,取k=62、拟定组距:组距( 最大值 - 最小值) 组数=(152-87)6=10.83,取103、分组频数表销售收入频数频率%向上合计频数向上合计频率%80 90252590 10037.5512.5100- 110922.51435110 12012302665120 130717.53382.5130 1404103792.5140 15025.03997.5150以上12.540100合计40100.0(2)按规定,销售收入在125万元以上为先进公司,115125万元为良好公司,105115 万元为一般公司,105万元如下为落后公司,按先进公司、良好公司、一般公司、落后公司进行分组。频数频率%向上合计频数向上合计频率%先进公司10251025良好公司12302255一般公司922.53177.5落后公司922.540100合计4010033 某百货公司持续40天的商品销售额如下: 单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635规定:根据上面的数据进行合适的分组,编制频数分布表,并绘制直方图。答 :1、拟定组数: ,取k=62、拟定组距:组距( 最大值 - 最小值) 组数=(49-25)6=4,取53、分组频数表(根据实际资料,调节成分5个组)销售收入(万元)频数频率%向上合计频数向上合计频率%30如下41041030 - 35615102535 - 401537.52562.540 - 45922.5348545以上61540100合计40100.04、直方图34 运用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答:茎叶图 Frequency Stem & Leaf 3.00 1 . 889 5.00 2 . 01133 7.00 2 . 6888999 2.00 3 . 13 3.00 3 . 569 3.00 4 . 123 3.00 4 . 667 3.00 5 . 012 1.00 5 . 7箱线图3.5答 :频数分布表灯泡寿命频率向上累积频率(%)660如下22%660-67057%670-680613%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740397% 740以上3100%合计100直方图 从直方图看,数据的分布呈左偏分布。3.6答 :频数分布表,取k=72、拟定组距:组距( 最大值 - 最小值) 组数=(61-40)7=3,取33、分组频数表(根据实际资料,调节成分5个组)食品重量(g)频数频率%向上合计频数向上合计频率%43如下334343 - 4699121246 - 492424363649 - 521919555552 -5524247979 55 - 5814149393 58 以上77100100合计100100.0从直方图看,数据的分布呈双峰分布。3.7频数分布表重量误差(g)频数频率%向上合计频数向上合计频率%19-2951051029-39714122439-49816204049-591326336659-69918428469-79612489679-892450100合计50100从直方图看,数据的分布呈左偏分布3.8(1)数值型数据(2)频数分布表,取k=72、拟定组距: 组距( 最大值 - 最小值) 组数=(9+25)7=4.86,取5气温()频数频率%向上合计频数向上合计频率%(-25,-20)610.00610.00(-20,-15)813.331423.33(-15,-10)1016.672440.00(-10.-5)1321.673761.67(-5.0)1220.004981.67(0,5)46.675388.33(5,10)711.6760100.00合计60100从直方图看,数据的分布呈左偏分布。3.9 自学考试人员年龄分布集中在20-24之间,分布图呈右偏。3.103.11 3.12 (1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。(3)根据雷达图,两班成绩分布不相似。3.133.14 第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.6(2)四分位数:Q位置=2.5.因此Q=5.5Q位置=7.5,因此Q=13(3)原则差:4.17(4)峰度0.25,偏度0.694.2 (1)众数:19;23中位数:23平均数:24(2)四分位数:Q位置=6.25.因此Q=19+0.250=19Q位置=18.75,因此Q=25+20.75=26.5(3)原则差:6.65(4)峰度0.77,偏度1.084.3(1)茎叶图略(2) 平均数:7,原则差0.71(3)第一种方式的离散系数=0.28第二种方式的离散系数=0.10因此,第二种排队方式等待时间更集中。(4)选择第二种,由于平均等待的时间短,并且等待时间的集中限度高4.4 (1)平均数:274.1,中位数:272.5(2)Q位置=7.5.因此Q=258+0.253=258.75Q位置=22.5,因此Q=284+70.75=289.25(3)日销售额的原则差:21.174.5产品名称单位成本(元)总成本/元产量甲公司乙公司甲公司乙公司A1521003255140217B203000150015075C30150015005050合计66006255340342甲公司总平均成本=19.41(元)乙公司总平均成本=因此甲公司的总平均成本比乙公司的高,因素是甲公司高成本的产品B生产的产量比乙公司多,因此把总平均成本提高了。4.6计算数据如表:按利润额分组(万元)组中值公司数(个)利润额2003002501947505930333004003503010500176349400500450421890022860500600550189900273785600以上650117150548639合计-120512001614666利润总额的平均数=利润总额原则差= 峰态系数偏态系数=4.7(1)不同。1000名的平均身高较高;(2)不同。100名的样本容量的原则差更大;(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。4.8对于不同的总体的差别限度的比较采用原则差系数,计算如下:; (1)女生的体重差别大,由于离散系数大;(2)以磅为单位,男生的平均体重为132.6磅,原则差为11.05磅;女生的平均体重为110.5磅,原则差为11.05磅(3),因此大概有68%的人体重在55kg65kg之间;(4),因此大概有95%的女生体重在40kg60kg之间。4.9;由此可以判断第二项测试更抱负。4.10时间周一周二周三周四周五周六周日产量3850367036903720361035903700z值30.60.20.41.82.20可以看出,周一和周六两天生产线失去了控制。4.11(1)采用离散系数,由于如果比较身高差别,小朋友和成年人属于不同的总体;(2),因此,小朋友的身高差别更大。4.12(1)对集中限度和离散限度分别评价,选择集中趋势数值大的,并且离散限度数值小的方式(2)选择措施A,由于A措施下,工人的平均组装数量为165.6,并且该措施下,工人组装数量的离散系数只有0.012,因此选择A措施。4.13(1)用离散系数(2)商业类(3)高科技第六章 记录量与抽样分布 由样本构建具体的记录量,事实上是对样本所含的总体信息按某种规定进行加工解决,把分散在样本中的信息集中到记录量的取值上,不同的记录推断问题规定构造不同的记录量。构造记录量的重要目的就是对总体的未知参数进行推断,如果记录量中具有总体的未知参数就没措施再对参数进行记录推断。2、是记录量,在不是记录量。 4、假若一种记录量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的记录量称充足记录量。5、记录学上的自由度指当以样本的记录量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、 7、在反复选用容量为n的样本时,由样本记录量的所有取值形成的相对频数分布为记录量的抽样分布。 二、练习1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为原则差为,故 2、若,则,即,又知,故。3、易知服从自由度为6的卡方分布,得(左侧分位数)4、由于服从分布,我们已知,故服从9)分布,我们若取,则可以得到,故。(题中均为左侧分位数)第七章 参数估计7.1 (1)(2)由于1-=95% =5% 因此 估计误差7.2 (1)(2)由于 因此(3)的置信区间为7.3 由于 n=100因此的95%置信区间为7.4(1)的90%置信区间为(2)的95%置信区间为(3)的99%置信区间为7.5 (1)(2)(3)7.6 (1)(2)(3)(4)7.7 90%置信区间为95%置信区间为99%置信区间为7.8 因此95%置信区间为7.9 由于 因此95%置信区间为7.10 (1)(2)中心极限定理7.11 (1)(2)由于因此 合格率的95%置信区间为7.12 由于 因此99%置信区间为7.13 因此90%置信区间为7.14(1)(2)(3)7.15(1)90%置信区间为(2)95%置信区间为7.16 因此n为1667.17(1) 因此n为254(2) 因此n为151(3) 因此n为2687.18(1)(2) 因此n为627.19(1) 因此(2) (3) 7.20(1) (2)7.21 =(1)的90%置信区间为: = =(2)的95%置信区间为: = =(3)的99%置信区间为: =7.22(1)=(2)=18=(3)=17.78=(4)=18.714= =(5)=20.05 =7.23(1) =(2)=7.24 , 的置信区间为:=7.25(1)=(2)=7.26 =2.464=0.405767.27 =47.06因此 n =487.28=138.30因此 n =139第8章 假设检查 二、练习题(阐明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点。其她分位点也可。为了便于查找书后t分布表以便,本答案中,正态分布的分位点均采用了上侧分位点。)8.1解:根据题意,这是双侧检查问题。 已知:总体方差 当,查表得。 回绝域W= 由于,因此不能回绝H0,觉得目前生产的铁水平均含碳量为4.55。(注:为正态分布的1-/2下侧分位点 )8.2解:根据题意,这是左单侧检查问题。 已知:总体方差 当,查表得。 回绝域W= 由于,因此回绝H0,觉得该元件的使用寿命低于700小时。(注:为正态分布的1-下侧分位点 )8.3解:根据题意,这是右单侧检查问题。 已知:总体方差 当,查表得。回绝域W= 由于,因此回绝H0,觉得这种化肥能使小麦明显增产。(注:为正态分布的1-下侧分位点 )8.4解:根据题意,这是双侧检查问题。 方差未知。 已知:总体 根据样本计算得: 当,查表得。 回绝域W=由于,因此不能回绝H0,觉得该日打包机工作正常。(注:为t分布的/2上侧分位点 )8.5解:根据题意,这是右单侧检查问题。 已知: 当,查表得。回绝域W= 由于,因此回绝H0,觉得不符合原则的比例超过5%,该批食品不能出厂。(注:为正态分布的1-下侧分位点 )8.6解:根据题意,这是右单侧检查问题。 已知: 当,查表得。回绝域W= 由于,因此不能回绝H0,觉得该厂家的广告不真实。(注:为t分布的上侧分位点 )8.7解:根据题意,这是右单侧检查问题。 已知: 当,查表得。回绝域W= 由于,因此不能回绝H0,觉得元件的平均寿命不不小于225小时。(注:为t分布的上侧分位点 )8.8解:根据题意,这是右侧检查问题。 已知: 当,查表得。回绝域W= 由于,因此回绝H0,觉得成立。(注:为-分布的上侧分位点 )8.9解:根据题意,这是双侧检查问题。 已知:总体方差 当,查表得。回绝域W= 由于,因此回绝H0,可以觉得A,B两厂生产的材料平均抗压强度不相似。(注:为正态分布的1-/2下侧分位点 )8.10解:根据题意,这是双侧检查问题。 已知:总体方差,但未知 2.3579 当,查表得。回绝域W= 由于,因此回绝H0,觉得两种措施的装配时间有明显差别。(注:为t分布的上侧分位点 )8.11解:根据题意,这是双侧检查问题。 已知: 在大样本条件下 当,查表得。回绝域W= 由于,因此回绝H0,觉得调查数据支持“吸烟者容易患慢性气管炎”这种观点。(注:为正态分布的1-/2下侧分位点 )8.12解:根据题意,这是右单侧检查问题。 (1)等同于(2) 已知: 在n=144状况下,(2)中的H0成立时,t近似服从原则正态分布。 因此P=P(t 2.16)=1-0.9846=0.0154。因此在=0.01的明显水平,不能回绝H0,觉得贷款的平均规模没有明显超过60万元。8.13解:根据题意,这是左单侧检查问题。 已知: 在大样本条件下 当,查表得。回绝域W= 由于,因此回绝H0,觉得阿司匹林可以减少心脏病发生率。(注:为正态分布的1-下侧分位点 )8.14解:(1)根据题意,这是双侧检查问题。 已知: 当,运用EXCEL提供的记录函数“CHIINV”,得。回绝域W= 由于,因此不能回绝H0,觉得成立。(注:为-分布的上侧分位点 )(2)根据题意,这是双侧检查问题。 已知:总体方差 当,查表得。 回绝域W= 由于,因此不能回绝H0,觉得螺栓口径为7.0cm 。(注:为正态分布的1-/2下侧分位点 )因此,由(1)和(2)可得:这批螺栓达到了规定的规定。8.15(1)根据题意,这是双侧检查问题。 已知: 当,运用EXCEL提供的记录函数“FINV”,得。回绝域W= 由于,因此不能回绝H0,觉得成立。(注:为F-分布的/2上侧分位点 )(2)根据题意,这是右单侧检查问题。 由(1)的分析可知:总体方差,但未知 当,查表得。回绝域W= 由于,因此回绝H0,觉得有明显大学中男生学习成绩比女生好。(注:为t分布的上侧分位点 )第十章 方差分析一、思考题10.1 什么是方差分析?它研究的是什么? 答:方差分析就是通过检查各总体的均值与否相等来判断分类型自变量对数值型因变量与否有明显影响。它所研究的是分类型自变量对数值型因变量的影响。10.2 要检查多种总体均值与否相等时,为什么不作两两比较,而用方差分析措施? 答:做两两比较十分繁琐,进行检查的次数较多,会使得犯第I类错误的概率相应增长,并且随着增长个体明显性检查的次数,偶尔因素导致差别的也许性也会增长。而方差分析措施是同步考虑所有的样本,因此排除了错误累积的概率,从而避免一种真实的原假设。10.3 方差分析涉及哪些类型?它们有何区别? 答:方差分析可分为单因素方差分析和双因素方差分析。区别:单因素方差分析研究的是一种分类自变量对一种数值型因变量的影响,而双因素波及两个分类型自变量。10.4 方差分析中有哪些基本假定? 答:(1)每个总体都应服从正态分布 (2)各个总体的方差必须相似 (3)观测值是独立的10.5 简述方差分析的基本思想 答:它是通过对数据误差来源的分析来判断不同总体的均值与否相等,进而分析自变量对因变量与否有明显影响。10.6 解释因子和解决的含义 答:在方差分析中,所要检查的对象称为因素或因子,因素的不同体现称为水平或解决。10.7 解释组内误差和组间误差的含义 答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差别限度。10.8 解释组内方差和组间方差的含义 答:组内方差指因素的同一种水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。10.9 简述方差分析的基本环节 答:(1)提出假设 (2)构造检查记录量 (3)记录决策10.10 方差分析中多重比较的作用是什么? 答:通过对总体均值之间的配对比较来进一步检查哪些均值之间存在差别。二、练习题10.1 解: 方差分析差别源SSdfMSFP-value组间618.91672309.45834.65740.04087724组内598966.44444总计1216.91711相似10.2 解:方差分析差别源SSdfMSFP-value组间93.76812423.4420315.823371.02431E-05组内26.66667181.481481总计120.434822不相似10.3 解:ANOVA每桶容量(L) 平方和df均方F明显性组间0.00730.0028.7210.001组内0.004150.000总数0.01118不相似。10.4 解: 方差分析差别源SSdfMSFP-value组间29.60952214.8047611.755730.000849组内18.89048151.259365总计48.517有明显性差别。10.5 解:方差分析差别源SSdfMSFP-value组间615.62307.817.068390.00031组内216.41218.03333总计83214有明显差别。LSD检查:计算得,有由于,则决策:(1),因此A生产公司生产的电池与B生产公司生产的电池平均寿命有明显差别;(2),因此不能觉得A生产公司生产的电池与C生产公司生产的电池平均寿命有明显差别;(3),因此B生产公司生产的电池与C生产公司生产的电池平均寿命有明显差别。10.6 解:方差分析差别源SSdfMSFP-value组间5.34915622.6745788.2745180.001962组内7.434306230.323231总计12.7834625有明显性差别107 (1) 方差分析表差别源SSDfMSFP-valueF crit组间42022101.478102190.2459463.354131组内383627142.0740741总计425629 (2)若明显性水平a=0.05,检查三种措施组装的产品数量之间与否有明显差别?P=0.025a=0.05,没有明显差别。10.8 解:方差分析差别源SSdfMSFP-valueF crit行1.54933340.38733321.719630.0002367.006077列3.48421.74297.682242.39E-068.649111误差0.14266780.017833总计5.17614(1)或p=0.000236,因此不同车速对磨损限度有明显性差别;(2) 或p=2.39E-06,因此不同销售地区对食品的销售量无明显性差别;(2) 或p=0.152,因此不同包装对食品的销售量无明显性差别。10.11 解:方差分析差别源SSdfMSFP-valueF crit样本1752287648.666675.49E-086.012905列798239922.166671.4E-056.012905交互182.6667445.666672.5370370.0759024.579036内部3241818总计3056.66726(1) 竞争者的数量对销售额有明显影响(2) 超市位置对销售额有明显影响(3) 无交互作用10.12 解:方差分析差别源SSdfMSFP-valueF crit样本344217210.750.0103865.143253列4814830.1339755.987378交互562281.750.2519325.143253内部96616总计54411(1) 广告方案对销售量有明显影响(2) 广告媒体形式对销售量无明显影响(3) 无交互作用第11章 一元线性回归一、思考题111变量之间存在的互相依存的不拟定的数量关系,称为有关关系。有关关系的特点:变量之间的确存在着数量上的依存关系;变量之间数量上的关系是不拟定、不严格的依存关系。112有关分析通过对两个变量之间的线性关系的描述与度量,重要解决的问题涉及:变量之间与否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?113在进行有关分析时,对总体重要有如下两个假定:两个变量之间是线性关系;两个变量都是随机变量。114有关系数的性质:r的取值范畴是-1,1,r为正表达正有关,r为负表达负有关,r绝对值的大小表达有关限度的高下;对称性:X与Y的有关系数和Y与X之间的有关系数相等;有关系数与原点和尺度无关;有关系数是线性关联或线性相依的一种度量,它不能用于描述非线性关系;有关系数只是两个变量之间线性关联的一种度量,却不一定意味两个变量之间有因果关系;若X与Y记录上独立,则它们之间的有关系数为零;但r=0不等于说两个变量是独立的。即零有关并不一定意味着独立性。115在实际的客观现象分析研究中,有关系数一般都是运用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信限度就越差,抽取的样本不同,r的取值也会不同,因此r是一种随机变量。能否用样本有关系数来反映总体的有关限度,需要考察样本有关系数的可靠性,因此要进行明显性检查。116有关系数明显性检查的环节:提出假设;计算检查记录量t值;在给定的明显性水平和自由度,查t分布表中相应的临界值,作出决策。117回归模型是对记录关系进行定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项的方程称为回归模型。回归方程是对变量之间记录关系进行定量描述的一种数学体现式。指具有有关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本记录量替代回归方程中的未知参数,就得到了估计的回归方程。118一元线性回归模型一般有如下几条基本的假定:变量之间存在线性关系;在反复抽样中,自变量x的取值是固定的;误差项是一种盼望为零的随机变量;)对于所有的x值,误差项的方差都相似;误差项是一种服从正态分布的随机变量,且互相独立。即。119参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。1110总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的限度或不拟定性的限度。回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量y不拟定性限度中能被解释变量x解释的部分。残差平方和是除了x对y的线性影响之外的其她因素引起的y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是: 总平方和=回归平方和 + 残差平方和。 1111回归平方和占总平方和的比例称为鉴定系数。鉴定系数测量了回归直线对观测数据的拟合限度。1112在回归分析中,F检查是为检查自变量和因变量之间的线性关系与否明显,通过均方回归与均方残差之比,构造F检查记录量,提出假设,根据明显性水平,作出判断。t检查是回归系数的明显性检查,要检查自变量对因变量的影响与否明显,通过构造t检查记录量,提出假设,根据明显性水平,作出判断。1113线性关系检查的环节:提出假设;构造F检查记录量;根据明显性水平,作出判断。回归系数检查的环节:提出假设;构造t检查记录量;根据明显性水平,作出判断。1114回归分析成果的评价可以从如下几种方面:回归系数的符号与否与理论或事先预期相一致;自变量与因变量之间的线性关系,在记录上与否明显;根据鉴定系数的大小,判断回归模型解释因变量取值差别的限度;误差项的正态假定与否成立。1115置信区间估计是对x的一种给定值,求出y的平均值的区间估计。预测区间估计是对x的一种给定值,求出y的一种个别值的区间估计。两者的区别是:置信区间估计的区间长度一般较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一种特定值或个别值更精确。1116残差分析在回归分析中的作用:回归分析是拟定两种或两种以上变量间的定量关系的一种记录分析措施判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,一般用残差分析来判断回归模型的拟合效果,并鉴定有关误差项的正态假设与否成立。二、练习题111(1)散点图如下:从散点图可以看出,产量与生产费用之间为正的线性有关关系。(2)运用Excel的“CORREL”函数计算的有关系数为。(3)一方面提出如下假设:,。计算检查的记录量 当时,。由于检查记录量,回绝原假设。表白产量与生产费用之间的线性关系明显。112(1)散点图如下:从散点图可以看出,复习时间与考试分数之间为正的线性有关关系。(2)运用Excel的“CORREL”函数计算的有关系数为。有关系数,表白复习时间与考试分数之间有较强的正线性有关关系。113.(1)表达当时的盼望值为10。(2)表达每增长一种单位,平均下降0.5个单位。(3)时,。14(1)表达,在因变量取值的变差中,有90%可以由与之间的线性关系来解释。(2)表达,当用来预测时,平均的预测误差为0.5。115(1)散点图如下:从散点图可以看出,运送距离与运送时间之间为正的线性有关关系。(2)运用Excel的“CORREL”函数计算的有关系数为。有关系数,表白运送距离与运送时间之间有较强的正线性有关关系。(3)由Excel输出的回归成果如下表:回归记录Multiple R0.948943R Square0.900492Adjusted R Square0.888054原则误差0.480023观测值10方差dfSSMSFSignificance F回归分析116.6816216.6816272.395852.79E-05残差81.8433790.230422总计918.525Coefficients原则误差t StatP-valueIntercept0.1181290.3551480.332620.74797X Variable 10.0035850.0004218.5085752.79E-050.002613得到的回归方程为:回归系数表达运送距离每增长1公里,运送时间平均增长0.003585天。116(1)散点图如下:从散点图可以看出,人均GDP与人均消费水平为正的线性有关关系。(2)运用Excel的“CORREL”函数计算的有关系数为。有关系数接近于1,表白人均GDP与人均消费水平之间有非常强的正线性有关关系。(3)Excel输出的回归成果如下表: 回归记录Multiple R0.998128R Square0.996259Adjusted R Square0.995511原则误差247.3035观测值7方差分析dfSSMSFSignificance F回归181444969814449691331.6922.91E-07残差530579561159.01总计681750764Coefficients原则误差t StatP-valueIntercept734.6928139.54035.2650940.003285X Variable 10.3086830.00845936.492362.91E-07得到的回归方程为:。回归系数表达人均GDP每增长1元,人均消费水平平均增长0.308683元。(4)鉴定系数。表白在人均消费水平的变差中,有99.6259%是由人均GDP决定的。(5)一方面提出如下假设:,由于Significance F,回绝原假设,表白人均GDP与人均消费水平之间的线性关系明显。(6)(元)。(7)当时,。置信区间为:即(1990.7,2565.5)。预测区间为: 即(1580.3,2975.9)117(1) 散点图如下:从散点图可以看出,航班正点率与被投诉次数之间为负的线性有关关系。(2)由Excel输出的回归成果如下表:回归记录Multiple R0.868643R Square0.75454Adjusted R Square0.723858原则误差18.88722观测值10方差分析dfSSMSFSignificance F回归分析18772.5848772.58424.591870.001108残差82853.816356.727总计911626.4Coefficients原则误差t StatP-valueIntercept430.189272.154835.9620290.000337X Variable 1-4.700620.947894-4.959020.001108得到的回归方程为:。回归系数表达航班正点率每增长1%,顾客投诉次数平均下降4.7次。(3)回归系数检查的P-Value=0.001108),回绝原假设,回归系数明显。(4)(次)(5)当时,置信区间为:即(37.7,70.7)预测区间为:
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 各类标准


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!