《回归分析的基本思想及其初步应用》课件

上传人:1ta3****9ta1 文档编号:241322835 上传时间:2024-06-18 格式:PPT 页数:39 大小:509.43KB
返回 下载 相关 举报
《回归分析的基本思想及其初步应用》课件_第1页
第1页 / 共39页
《回归分析的基本思想及其初步应用》课件_第2页
第2页 / 共39页
《回归分析的基本思想及其初步应用》课件_第3页
第3页 / 共39页
点击查看更多>>
资源描述
1.1回归分析的基本思想及其初步应用高中数学选修选修1-21.1回归分析的基本思想及其初步应用高中数学1选修选修1-21-2统计案例统计案例5.引入线性回归模型引入线性回归模型ybxae6.了解模型中随机误差项了解模型中随机误差项e产产生的原因生的原因7.了解相关指数了解相关指数 R2 和模型拟和模型拟合的效果之间的关系合的效果之间的关系8.了解残差图的作用了解残差图的作用9.利用线性回归模型解决一类利用线性回归模型解决一类非线性回归问题非线性回归问题10.正确理解分析方法与结果正确理解分析方法与结果 比必修3中“回归”增加的内容数学数学统计统计1.画散点图画散点图2.了解最小二乘法了解最小二乘法的思想的思想3.求回归直线方程求回归直线方程ybxa4.用回归直线方程用回归直线方程解决应用问题解决应用问题选修1-2统计案例 比必修3中“回归”增加的内容数学2.两个变量间的相关关系两个变量间的相关关系 自变量取值一定时,因变量的取值带有一定随机性的两个自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做变量之间的关系叫做相关关系相关关系(正相关、负相关)(正相关、负相关)相关关系与函数关系的异同点:相关关系与函数关系的异同点:相关关系相关关系函数函数相同点相同点不同点不同点对具有相关关系的两个变量进行统计分析的方法叫对具有相关关系的两个变量进行统计分析的方法叫回归分析回归分析 均是指两个变量的关系均是指两个变量的关系 非确定关系非确定关系 确定的关系确定的关系一、复习回顾:一、复习回顾:.两个变量间的相关关系 自变量取值一定时,因变量的3复习回顾复习回顾.研究两个变量间的相关关系的方法和步骤研究两个变量间的相关关系的方法和步骤()、画散点图,并判断二者之间是否有线性关系;()、画散点图,并判断二者之间是否有线性关系;()、()、预报和决策。预报和决策。()、建立并求出回归直线方程;()、建立并求出回归直线方程;其中其中复习回顾.研究两个变量间的相关关系的方法和步骤()、画4 3.求线性回归方程的步骤求线性回归方程的步骤:复习回顾复习回顾(1)(1)计算平均数计算平均数(2)(2)计算计算 与与 的积的积,求求(3)(3)计算计算(4)(4)将上述有关结果代入公式,求将上述有关结果代入公式,求b b、a a,写出回归直线方程写出回归直线方程 3.求线性回归方程的步骤:复习回顾(1)计算平均5例例1 1 从某大学中随机选取名女大学生,其身从某大学中随机选取名女大学生,其身高和体重数据如表所示:高和体重数据如表所示:编号编号1 12 23 34 45 56 67 78 8身高身高/cm/cm165165 165165 157157 170170 175175 165165 155155 170170体重体重/kg/kg48485757505054546464616143435959求根据女大学生的身高预报体重的回归方程,求根据女大学生的身高预报体重的回归方程,并并预报一名身高为预报一名身高为172cm的女大学生的体重。的女大学生的体重。例1 从某大学中随机选取名女大学生,其身高和体重数据如表所6()、画散点图,并判断二者之间是否有线性关系;()、画散点图,并判断二者之间是否有线性关系;()、建立并求出回归直线方程;()、建立并求出回归直线方程;()、()、预报和决策。预报和决策。()、画散点图,并判断二者之间是否有线性关系;()、建7练习练习:假设关于某设备的使用年限假设关于某设备的使用年限x和所支出的维修和所支出的维修费用费用 y(万元),有如下的统计资料。(万元),有如下的统计资料。使用年限使用年限x 23456维修费用维修费用y 2.23.85.56.57.0若由资料知若由资料知,y对对x呈线性相关关系。试求:呈线性相关关系。试求:(1)线性回归方程)线性回归方程 ;(2)估计使用年限为)估计使用年限为10年时,维修费用是多少?年时,维修费用是多少?练习:假设关于某设备的使用年限x和所支出的维修费用 y(8解:解:(1)由已知数据制成表格。)由已知数据制成表格。12345合计合计23456202.23.85.56.57.0254.411.422.032.542.0112.34916253690所以有所以有(2)当)当x=10时,时,解:(1)由已知数据制成表格。12345合计2345620294、思考:、思考:、身高为、身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗?吗?、为什么根据得到的一次函数求出的结论不一定、为什么根据得到的一次函数求出的结论不一定是实际值?产生误差的原因是什么?是实际值?产生误差的原因是什么?4、思考:、身高为172cm的女大学生的体重一定是60.10二、新课:二、新课:、从散点图中可以看出,样本点散布在某一条直线、从散点图中可以看出,样本点散布在某一条直线的附近,而不是一条直线,所以不能用一次函数的附近,而不是一条直线,所以不能用一次函数y=bx+ay=bx+a来描述它们之间的关系。这时我们可以用下列来描述它们之间的关系。这时我们可以用下列回归模型回归模型y=bx+a+ey=bx+a+e来表示。来表示。我们把自变量我们把自变量x x称作称作解释变量解释变量,因变量,因变量y y称作称作预报预报变量变量,e e称作称作随机误差随机误差二、新课:、从散点图中可以看出,样本点散布在某一条直线的11、函数模型、函数模型y=bx+a与线性回归模型与线性回归模型y=bx+a+e的关系:的关系:(1)、线性回归模型、线性回归模型y=bx+a与我们熟悉的一次函数模与我们熟悉的一次函数模型的不同之处是增加了型的不同之处是增加了随机误差随机误差e,因为变量,因为变量y的值的值由自变量由自变量x和随机误差和随机误差e共同确定。即共同确定。即自变量自变量x只解只解释部分释部分y的变化的变化。(2)、当线性回归模型:、当线性回归模型:y=bx+a+e理想化时,即所在理想化时,即所在的遗传因素一样、所有的生活方式一样、所有的的遗传因素一样、所有的生活方式一样、所有的测量都没有误差测量都没有误差,此时,此时e=0,线性回归模型就,线性回归模型就变成了函数模型。因此,一次函数模型是线性回变成了函数模型。因此,一次函数模型是线性回归模型的归模型的特殊形式特殊形式,线性回归模型是一次函数模,线性回归模型是一次函数模型的型的一般形式一般形式。、函数模型y=bx+a与线性回归模型y=bx+a+e的关12、在实际应用中,我们用回归方程、在实际应用中,我们用回归方程中的中的 来估计线性回归模型来估计线性回归模型 中的中的 ,由于,由于 ,所以,所以也是一个估计值。也是一个估计值。对于样本点对于样本点而言,它们的随机误差分别为:而言,它们的随机误差分别为:其估计值为:其估计值为:称估计值称估计值 为相应点为相应点 的的残差残差、在实际应用中,我们用回归方程对于样本点而13、当我们求出回归直线方程后,可以通过、当我们求出回归直线方程后,可以通过残差残差来判来判断模型拟合程度的效果,判断原始数据中是否存在可断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为疑数据,这方面的分析工作称为残差分析残差分析。从两个方。从两个方面说明:面说明:(1)、残差图残差图(以例为例)(以例为例)对照女大学生的身高和体重的原始数据,结合求出的回归直线方对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据程,求出相应的残差数据编号编号 身高身高165165165165157157170170175175165165155155170170体重体重48485757505054546464616143435959残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382、当我们求出回归直线方程后,可以通过残差来判断模型拟合程14根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作做出散点图(这样的散点图称作残差图残差图)、若残差点比、若残差点比较均匀地落在水较均匀地落在水平的带状区域中,平的带状区域中,说明选用模型较说明选用模型较好,且带状区的好,且带状区的宽度越窄,说明宽度越窄,说明拟合精度越高,拟合精度越高,回归方程的预报回归方程的预报精度越高。精度越高。、若个别点的残差较大,要考虑采集样本的过程中是否有人为、若个别点的残差较大,要考虑采集样本的过程中是否有人为错误。错误。根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做15(2)、相关指数、相关指数R2越大,模型的拟合效果越好越大,模型的拟合效果越好(2)、相关指数R2越大,模型的拟合效果越好16、建立回归模型的基本步骤:、建立回归模型的基本步骤:(1)、确定研究对象,明确哪个变量是解释变量,哪、确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;个变量是预报变量;(2)、画出确定好的解释变量和预报变量的散点图,、画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系);观察它们之间的关系(如是否存在线性关系);(3)、确定回归模型,按一定的规则求出回归方程;、确定回归模型,按一定的规则求出回归方程;(4)、得出结果后进行残差分析。、得出结果后进行残差分析。、建立回归模型的基本步骤:(1)、确定研究对象,明确哪个17例例 一个车间为了规定工时定额,需确定加一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了工零件所花费的时间,为此进行了10次试验,测得次试验,测得的数据列于表中:的数据列于表中:编号编号10零件数零件数x/个个102030405060708090100加工时间加工时间y/分分626875818995102108115122(1)、建立零件为解释变量,加工时间为预报变量的回、建立零件为解释变量,加工时间为预报变量的回归模型,并计算残差。归模型,并计算残差。(2)、你认为这个模型能较好地刻化画零件数和加工时、你认为这个模型能较好地刻化画零件数和加工时间的关系吗?间的关系吗?例 一个车间为了规定工时定额,需确定加工零件所花费的时18()、画散点图;()、画散点图;建立并求出回归直线方程;建立并求出回归直线方程;可知变量之间具有线性关系可知变量之间具有线性关系()、画散点图;建立并求出回归直线方程;可知变量之间具19编号编号10残差残差0.39-0.290.03-0.650.67-0.010.31-0.37-0.050.27残差数据如下表:残差数据如下表:()、画残差图;()、画残差图;由图可知,残差由图可知,残差点分布较均匀,点分布较均匀,即用上述回归模即用上述回归模型拟合数据效果型拟合数据效果很好,但需请注很好,但需请注意,第意,第4 4、第、第5 5个个样本点残差较大,样本点残差较大,需确认采集样本需确认采集样本时是否有人为错时是否有人为错误。误。编号10残差0.39-0.290.03-020例例 在一段时间内,某种商品的价格在一段时间内,某种商品的价格x(元元)和和需求量需求量y(件件)之间的一组数据为:之间的一组数据为:价格价格x/个个1416182022需求量需求量y/分分5650434137求出求出y对对x的回归方程,并说明拟合效果。的回归方程,并说明拟合效果。例 在一段时间内,某种商品的价格x(元)和需求量y(件21()、画散点图;()、画散点图;可知变量之间具有线性关系可知变量之间具有线性关系建立并求出回归直线方程;建立并求出回归直线方程;()、画散点图;可知变量之间具有线性关系建立并求出回归直22对于对于y y对对x x的回归直线方程;的回归直线方程;列表:列表:1.2-0.1-2.40.3110.64.6-2.4-4.4-8.4所以:所以:相关指数:相关指数:因为因为0.9640.964很接近很接近1 1,所以该模型的拟合效果很好。,所以该模型的拟合效果很好。对于y对x的回归直线方程;列表:1.2-0.1-2.4023练习练习:关于关于x和和y,有如下的统计资料。,有如下的统计资料。x 24568y 3040605070对于对于x、y两个变量进行统计分析,现有以下两种线两个变量进行统计分析,现有以下两种线性模型:性模型:甲:甲:乙:乙:试比较哪一个模型拟合效果更好?试比较哪一个模型拟合效果更好?练习:关于x和y,有如下的统计资料。x 24568y 24、利用残差图和相关指数都能够评价回归模型的拟、利用残差图和相关指数都能够评价回归模型的拟合效果,它们各有自己的特点:合效果,它们各有自己的特点:(1)、利用残差图可以直观展示拟合效果,而且还、利用残差图可以直观展示拟合效果,而且还可以发现样本数据中的可疑数据。可以发现样本数据中的可疑数据。说明:说明:(2)、相关指数是指把对拟合的评价转化为数值大、相关指数是指把对拟合的评价转化为数值大小的判断,易于量化处理并且能在数量上表现解小的判断,易于量化处理并且能在数量上表现解释变量对于预报变量变化的贡献率。释变量对于预报变量变化的贡献率。、利用残差图和相关指数都能够评价回归模型的拟合效果,它们各252、在使用回归方程进行预报时要注意:、在使用回归方程进行预报时要注意:(1)、回归方程只适用于我们所研究的样本的总体;、回归方程只适用于我们所研究的样本的总体;说明:说明:(4)、不能期望回归方程得到的预报值就是预报的精、不能期望回归方程得到的预报值就是预报的精确值。确值。(2)、我们建立的回归方程一般具有时间性;、我们建立的回归方程一般具有时间性;(3)、样本取值的范围会影响回归方程的适用范围;、样本取值的范围会影响回归方程的适用范围;2、在使用回归方程进行预报时要注意:(1)、回归方程只适用于26案例案例 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。有关。现收集了现收集了7组观测数据列于表中:组观测数据列于表中:(1 1)试试建建立立产产卵卵数数y y与与温温度度x x之之间间的的回回归归方方程程;并并预测温度为预测温度为2828o oC C时产卵数目。时产卵数目。(2 2)你所建立的模型中温度在多大程度上解释了)你所建立的模型中温度在多大程度上解释了产卵数的变化?产卵数的变化?温度温度xoC21232527293235产卵数产卵数y/个个711212466115325非线性回归问题非线性回归问题案例 一只红铃虫的产卵数y和温度x有关。现收集了7组观27假设线性回归方程为假设线性回归方程为:=bx+a选选 模模 型型由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73 相关指数相关指数R R2 2=r r2 20.8640.8642 2=0.7464=0.7464估计参数估计参数 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。选变量选变量所以,二次函数模型中温度解释了所以,二次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。探索新知探索新知画散点图画散点图050100150200250300350036912151821242730333639方案1分析和预测分析和预测当当x=28时,时,y=19.8728-463.73 93一元线性模型一元线性模型假设线性回归方程为:=bx+a选 模 型由计算器得:线性28奇怪?奇怪?结合数据可以看出,结合数据可以看出,随着自变量的增加,随着自变量的增加,因变量也随之增加,因变量也随之增加,气温为气温为28是估计产是估计产卵数应该低于卵数应该低于66,但,但是从推算的结果来看是从推算的结果来看93比比66多了多了27个,个,是什么原因造成的是什么原因造成的?模型不好?模型不好?奇怪?结合数据可以看出,随着自变量的增加,因变量也随之增加,29编号编号残差残差53.4617.72-12.02-48.78-46.5-57.1193.28残差数据如下表:残差数据如下表:画残差图;画残差图;编号残差53.4617.72-12.02-4830 y=bx2+a 变换变换 y=bt+a非线性关系非线性关系 线性关系线性关系方案2问题问题选用选用y=bx2+a,还是,还是y=bx2+cx+a?问题问题3 产卵数产卵数气温气温问题问题2如何求如何求a、b?合作探究合作探究 t=x2二次函数模型二次函数模型 y=bx2+a 变31方案2解答平方变换平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作作散散点点图图,并并由由计计算算器器得得:y y和和t t之之间间的的线线性性回回归归方方程程为为y=y=0.3670.367t t-202.543-202.543,相关指数,相关指数R R2 2=0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得:y=y=0.3670.367x x2 2-202.543-202.543当当x x=28=28时时,y y=0.36728=0.367282 2-202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数32问题问题 变换变换 y=bx+a非线性关系非线性关系 线性关系线性关系问题问题如何选取指数函数的底如何选取指数函数的底?产卵数产卵数气温气温指数函数模型指数函数模型方案3合作探究合作探究对数对数问题 33方案3解答温度温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数产卵数y/个个711212466115325xz当当x=28x=28o oC C 时,时,y 44 y 44,指数回归,指数回归模型中温度解释了模型中温度解释了98.5%98.5%的产卵数的的产卵数的变化变化由计算器得:由计算器得:z z关于关于x x的线性回归方程的线性回归方程为为 对数变换:在对数变换:在 中两边取常用对数得中两边取常用对数得令令 ,则,则 就转换为就转换为z=bx+a.z=bx+a.相关指数相关指数R R2 2=0.98=0.98方案3解答温度xoC21232527293235z=lny134最好的模型是哪个最好的模型是哪个?产卵数产卵数气温气温产卵数产卵数气温气温线性模型线性模型二次函数模型二次函数模型指数函数模型指数函数模型最好的模型是哪个?产卵数气温产卵数气温线性模型二次35比一比比一比函数模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.80指数函数模型指数函数模型0.98最好的模型是哪个最好的模型是哪个?比一比函数模型相关指数R2线性回归模型0.7464二次函数模36练练习习:为为了了研研究究某某种种细细菌菌随随时时间间x x变变化化,繁繁殖殖的的个个数数,收集数据如下:收集数据如下:天数天数x/x/天天 1 1 2 2 3 34 4 5 56 6繁繁殖殖个个数数y/y/个个 6 6 1212 2525 4949 9595190190 (1 1)用天数作解释变量,繁殖个数作预报变量,作出这些)用天数作解释变量,繁殖个数作预报变量,作出这些 数据的散点图;数据的散点图;(2)描述解释变量与预报变量描述解释变量与预报变量 之间的关系;之间的关系;(3 3)计算残差、相关指数计算残差、相关指数R R2 2.天数天数繁殖个数繁殖个数解:解:(1)散点图如右所示散点图如右所示练习:为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下37x x1 12 23 34 45 56 6Z Z1.791.792.482.483.223.223.893.894.554.555.255.25由计数器算得由计数器算得 则有则有6.066.0612.0912.0924.0924.0948.0448.0495.7795.77190.9190.9y y6 61212252549499595190190(3)即解释变量天数对预报变量繁殖细菌得个数解释了即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.99.99%.(2 2)由散点图看出样本点分布在一条指数函数)由散点图看出样本点分布在一条指数函数y=y=的的周围,于是令周围,于是令Z=lny,Z=lny,则则x123456Z1.792.483.223.894.555.38再见39
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!