数据挖掘及其应用讲义线性回归逻辑回归ppt课件

上传人:钟*** 文档编号:1483425 上传时间:2019-10-21 格式:PPT 页数:14 大小:1.21MB
返回 下载 相关 举报
数据挖掘及其应用讲义线性回归逻辑回归ppt课件_第1页
第1页 / 共14页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件_第2页
第2页 / 共14页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件_第3页
第3页 / 共14页
点击查看更多>>
资源描述
线性回归,当某种现象的变化及其分布特性清楚后,需分析是什么原因使这种变化发生,或某种现象对其他现象有什么影响等。如研究目的在探知两特性值 与 间的相互关系,如特性值 可以自由变动,则可用各种测试方法研究 的效应。但假如 不能自由变动(例如预测台风或探求水稻穗与精米重量间的关系等问题时),可利用事先求得的 与 间的关系来推测 值。但对 与 间的关系,需再加解析后才能拟定其相互间的关系。,2,回归用以叙述两个或两个以上变量间的关系。回归分析是以一个或多个自变量描述、预测或控制特定因变量的分析。回归分析主要在了解自变量与因变量间的数量关系。主要目的: 了解自变量与因变量关系方向及强度。 以自变量所建立模式对因变量作预测。 回归分析根据自变量个数的不同可以分为: 简单回归分析。 多元回归分析。 回归分析中变量的筛选原则: 相关理论或逻辑。 研究人员探讨变量关系来决定。,3,回归分析步骤: 由分布情况或专业知识,推测变量间的数学模型。 用最小平方法推导正则方程。 决定回归方程。 用图形证明所求的方程曲线与测定值的分布是否一致,以确定所选的数学模型是否全理。,4,模型假设及参数估计,假设简单回归模型可以用下式表示: 其中 为因变量; 为自变量; 为误差项; 为 回归系数,其中 为截距项, 为模型的斜率。 误差项代表我们所拟合的回归直线不可能很理想, 因此认为“直线模型”可能有错,误差项代表可能的错误 。回归模型假设的基本思想是误差项来自某一个正态分 布 。严格来说,线性回归模型的基本假设为:,5, 正态性对任一固定 值, 服从 独立性 和 间相互独立 线性性 是 的线性函数,即 方差齐次对于任意的 ,有,6,多元回归分析,多元回归是简单线性回归的推广,模型包含一个因变量和两个或以上的自变量。例如,在研究“销售量 ”的变化时,只考虑“广告投资 ”可能不够,可能还要再考虑“销售人员的数量 ”、“特定产品的价格 ”、“个人可支配所得 ”等其他变量,此时采用多元回归分析是比较适当的。需要注意的是,如果因变量是类别变量(例如因变量“购买意向 ”为二分变量时,也就是 表示肯定购买, 表示不一定购买),则要采取Logistic回归分析。,7,多元回归分析可以达到以下目的:, 了解因变量和自变量之间的关系是否存在,以及该关系的强度。也就是以自变量所解释的因变量的变异部分是否显著,且因变量变异中有多大部分可以用自变量来解释。 估计回归方程,求算特定已知自变量的情况下因变量的理论值或预测值,达到预测目的。 评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该自变量的变化所导至的因变量变化情况。 比较各自变量在拟合中对的回归方程中相对作用的大小,寻找最重要的和比较重要的自变量。,多元回归模型,该模型可以用下面的回归方程来估计 其中, 代表截距, 代表回归系数(也就是偏回 归系数),一般都是通过常用的统计软件来估计, 统计软件还将同时给出标准的回归系数和对应的标 准误差,这些统计量与简单回归中给出的相应的统 计量的意义是一致的。,9,回归变量的选择,变量的选择原则: 依据专家所提出的相关理论,参考相关研 究文献。 依据研究人员所欲探讨的变量关系来决定。 在建立回归方程时,可能会涉及很多自变量。然而有些变量可能并不重要,太多的变量会促使模型变量过于复杂;因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的变异。,10,逻辑回归,Logistic(中文称为罗吉斯)回归模型在分析二分类或有序因变量与解释变量的关系。Logistic回归模型中,用自变量去预测因变量在给定某个值(如1或0)的概率。因变量通常是二分类中的一个值或有序变量取值的最小值。当因变量有很多不同的值时(如:等距尺度或比例尺度的数据类型时),通常使用简单回归模型而不用Logistic回归模型。对一个二分类的因变量,Logistic回归模型的形式如下: 其中, 代表因变量的概率值, 代表 的第一个取 值,*代表截距参数, 代表斜率参数的向量, 代表解 释变量的向量。,11,为较好的理解Logistic模型,我们先介绍logit变换和 Logistic分布,然后再加到logistic回归分析。 logit变换: 上式变换称为logit变换,是否可以认为是“log it”(取对 数)的意思。将 由 来表示,就得: 如果 是某些自变量 的线性函数 ,则 就是 的下列函数:,12,讨论Logistic回归时,直接从 式开始。 其中, 的分布称为Logistic分布。 (1) 它的密度函数为 其中 式中的p表示(1)式中的1-F(x),则有,相应的 。从这里可以看出logit变换与 Logistic分布的关系。当 时,相应的分布称 为标准Logistic分布,它的分布函数 与分布密度 为,14,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!