从数据到结论人民大学吴喜之教授变.ppt

上传人:xt****7 文档编号:5169508 上传时间:2020-01-22 格式:PPT 页数:38 大小:1.71MB
返回 下载 相关 举报
从数据到结论人民大学吴喜之教授变.ppt_第1页
第1页 / 共38页
从数据到结论人民大学吴喜之教授变.ppt_第2页
第2页 / 共38页
从数据到结论人民大学吴喜之教授变.ppt_第3页
第3页 / 共38页
点击查看更多>>
资源描述
变量间的关系 直到现在我们所涉及的仅仅是对一些互相没有关系的变量的描述 但是现实世界的问题都是相互联系的 不讨论变量之间的关系 就无从谈起任何有深度的应用 而没有应用 前面讲过的那些基本概念就仅仅是摆设而已 变量间的关系 人们每时每刻都在关心事物之间的关系 比如 职业种类和收入之间的关系 政府投入和经济增长之间的关系 广告投入和经济效益之间的关系 治疗手段和治愈率之间的关系等等 这些都是二元的关系 还有更加复杂的诸多变量之间的相互关系 比如企业的固定资产 流动资产 预算分配 管理模式 生产率 债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的 例1广告投入和销售之间的关系 数据ads sav 这是什么关系 这两个变量是否有关系 显然 它们有关系 这从散点图就很容易看出 基本上销售额是随着广告投入的递增而递增 如果有关系 它们的关系是否显著 这也可以从散点图得到 当广告投入在6万元以下 销售额增长很快 但大于这个投入时 销售额增长就不明显了 因此 这两个变量的关系是由强变弱 这些关系是什么关系 是否可以用数学模型来描述 本例看上去是可以拟合一个回归模型 后面会介绍 但绝不是线性的 用一条直线可以描述的 具体细节需要进一步的分析 这是什么关系 这个关系是否带有普遍性 也就是说 仅仅这一个样本有这样的关系 还是对于其他企业也有类似的规律 这里的数据还不足以回答这个问题 可能需要考虑更多的变量和收集更多的数据 一般来说 人们希望能够从一些特殊的样本 得到普遍的结论 以利于预测 这个关系是不是因果关系 在本问题中 看来有因果关系 这类似于一种试验 而试验时是容易找到因果关系的 但是 一般来说 变量之间有关系但绝不意味着存在因果关系 定性变量间的关系 关于某项政策调查所得结果 table7 sav 大致可以看出女性赞成的多 低收入赞成的多 定性和定量变量间的混和关系 假想关于高等学校的数据的一些指标包括 在校生人数 S 研究生比例 G 教师人数 F 职工人数 ST SCI和SSCI文章数目 P SCI和SSCI文章引用数目 Q 科研项目数 PR 科研经费 B 总经费及招生范围 N 等 从这个数据很难马上看到任何关系 但是从这个数据可以得到许多有用的关系和结论 比如 可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系 因而可以建立模型 进行预测和各种推断 也可以利用其中一些变量把各个高等学校分类 还可以把众多的变量用少数几个变量代替以利于分析和理解 此外这个数据可以作为高校排名的根据之一 所有这些都是未来章节的内容 相关和回归分析 相关和回归分析 顾客对商品和服务的反映对于商家是至关重要的 但是仅仅有满意顾客的比例是不够的 商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的 一般来说 统计可以根据目前所拥有的信息 数据 建立人们所关心的变量和其他有关变量的关系 称为模型 假如用Y表示感兴趣的变量 用X表示其他可能有关的变量 可能是若干变量组成的向量 则所需要的是建立一个函数关系Y f X 这里Y称为因变量或响应变量 而X称为自变量或解释变量或协变量 建立这种关系的过程就叫做回归 相关和回归分析 一旦建立了回归模型可以对各种变量的关系有了进一步的定量理解还可以利用该模型 函数 通过自变量对因变量做预测 这里所说的预测 是用已知的自变量的值通过模型对未知的因变量值进行估计 它并不一定涉及时间先后的概念 例1有50个从初中升到高中的学生 为了比较初三的成绩是否和高中的成绩相关 得到了他们在初三和高一的各科平均成绩 数据 highschool sav 从这张图可以看出什么呢 问题是 怎么判断这两个变量是否相关 如何相关 相关的度量是什么 进一步的问题是能否以初三成绩为自变量 高一成绩为因变量来建立一个回归模型以描述这样的关系 或用于预测 还有定性变量 该数据中 除了初三和高一的成绩之外 还有一个定性变量它是学生在高一时的家庭收入状况 它有三个水平 低 中 高 分别在数据中用1 2 3表示 还有定性变量 下面是对三种收入对高一成绩和高一与初三成绩差的盒形图 例2这是200个不同年龄和性别的人对某项服务产品的认可的数据 logi sav 年龄是连续变量 性别是有男和女 分别用1和0表示 两个水平的定性变量 而 定性 变量 观点 则为包含认可 用1表示 和不认可 用0表示 两个水平的定性变量 从这两张图又可以看出什么呢 两个定量变量的相关 如果两个定量变量没有关系 就谈不上建立模型或进行回归 但怎样才能确定两个变量有没有关系呢 最简单的办法就是画出它们的散点图 四组数据 每个有两个变量的样本 的散点图 几种相关的度量 Pearson相关系数 又叫相关系数或线性相关系数 它一般用字母r表示 Kendallt相关系数 Kendall st 这里的度量原理是把所有的样本点配对 看每一对中的x和y是否都增加来判断总体模式 Spearman秩相关系数 它和Pearson相关系数定义有些类似 只不过在定义中把点的坐标换成各自样本的秩 它们各自都有以不相关为零假设的检验 即p 值小则相关 但各自的相关含义不尽相同 现在再来看例1的数据 highschool sav 关于初三和高一成绩的相关系数的结果是Pearson相关系数 Kendallt和Spearman秩相关系数分别为0 795 0 595和0 758 定量变量的线性回归分析 对例1中的两个变量的数据进行线性回归 就是要找到一条直线来最好地代表散点图中的那些点 检验问题等 对于系数b1 0的检验对于拟合的F检验R2 决定系数 及修正的R2 多个自变量的回归 如何解释拟合直线 什么是逐步回归方法 自变量中有定性变量的回归 例1的数据中 还有一个自变量是定性变量 收入 以虚拟变量或哑元 dummyvariable 的方式出现 这里收入的 低 中 高 用1 2 3来代表 所以 如果要用这种哑元进行前面回归就没有道理了 以例1数据为例 可以用下面的模型来描述 自变量中有定性变量的回归 现在只要估计b0 b1 和a1 a2 a3即可 哑元的各个参数a1 a2 a3本身只有相对意义 无法三个都估计 只能够在有约束条件下才能够得到估计 约束条件可以有很多选择 一种默认的条件是把一个参数设为0 比如a3 0 这样和它有相对意义的a1和a2就可以估计出来了 对于例1 对b0 b1 a1 a2 a3的估计分别为28 708 0 688 11 066 4 679 0 这时的拟合直线有三条 对三种家庭收入各有一条 SPSS实现 hischool sav Analize Generallinearmodel Univariate 在Options中选择ParameterEstimates 再在主对话框中把因变量 s1 选入DependentVariable 把定量自变量 j3 选入Covariate 把定量因变量 income 选入Factor中 然后再点击Model 在SpecifyModel中选Custom 再把两个有关的自变量选入右边 再在下面BuildingTerm中选Maineffect Continue OK 就得到结果了 输出的结果有回归系数和一些检验结果 SPSSSyntax UNIANOVAs1BYincomeWITHj3 METHOD SSTYPE 3 INTERCEPT INCLUDE CRITERIA ALPHA 05 DESIGN incomej3 注意 这里进行的线性回归 仅仅是回归的一种 也是历史最悠久的一种 但是 任何模型都是某种近似 线性回归当然也不另外 它被长期广泛深入地研究主要是因为数学上相对简单 它已经成为其他回归的一个基础 总应该用批判的眼光看这些模型 Logistic回归 例2是关于200个不同年龄 性别的人对某项服务产品的观点 二元定性变量 的数据 logi sav 这里观点是因变量 只有两个值 所以可以把它看作成功概率为p的Bernoulli试验的结果 但是和单纯的Bernoulli试验不同 这里的概率p为年龄和性别的函数 可以假定下面的 logistic回归 模型 Logistic回归 为了循序渐近 先拟合没有性别作为自变量 只有年龄x 的模型 Logistic模型拟合结果 依靠计算机 很容易得到b0和b1的估计分别为2 380和 0 069 拟合的模型为 Logistic模型拟合结果 再加上性别变量进行拟合 得到的b0 b1和a0 a1的估计 同样事先确定为a1 0 分别为1 722 0 072 1 778 0 可以看出年龄影响对男女混和时 0 069 差不多 而女性相对于男性认可的可能性大 a0 a1 1 778 拟合的年龄 概率图 SPSS实现 logi sav Analize Regression BinaryLogistic 再把因变量 opinion 选入DependentVariable 把自变量 age和sex 选入Covariates Categorical 再把定性变量sex选入CategoricalCovariate 回到主对话框 点击OK即可得到结果 注 SPSS的syntax LOGISTICREGRESSIONVAR opinion METHOD ENTERagesex CONTRAST sex Indicator CRITERIAPIN 05 POUT 10 ITERATE 20 CUT 5 SPSS的数据输入 数据的键入 T01 sav 数据从其他文本读入 File Open Data 文件类型 Sav Excel SAS dBase TXT等等 T02 txt 散点图定性变量的加权 每一行的权数等于该行被观测到的次数 T03 sav 和不加权 T04 sav 条形图 饼图数据的变换 T01 sav 多重散点图 图的编辑 SPSS的相关分析 相关分析 hischool sav 利用SPSS选项 Analize Correlate Bivariate再把两个有关的变量 这里为j3和s1 选入 选择Pearson Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了 零假设均为不相关 SPSS的回归分析 自变量和因变量都是定量变量时的线性回归分析 hischool sav 利用SPSS选项 Analize Regression Linear再把有关的自变量选入Independent 把因变量选入Dependent 然后OK即可 如果自变量有多个 多元回归模型 只要都选入就行 SPSS的回归分析 自变量中有定性变量 哑元 和定量变量而因变量为定量变量时的线性回归分析 hischool sav 利用SPSS选项 Analize Generallinearmodel Univariate 在Options中选择ParameterEstimates 再在主对话框中把因变量 s1 选入DependentVariable 把定量自变量 j3 选入Covariate 把定性因变量 income 选入Factor中 点击Model 在SpecifyModel中选Custom 再把两个有关的自变量选入右边 再在下面BuildingTerm中选Maineffect 然后就Continue OK SPSS的Logistic回归 logi sav 自变量为定量变量时 利用SPSS选项 Analize Regression BinaryLogistic 再把因变量 opinion 选入DependentVariable 把自变量 age 选入Covariates OK即可得到结果 自变量为定量变量及定量变量时 利用SPSS选项 Analize Regression BinaryLogistic 再把因变量 opinion 选入DependentVariable 把自变量 age和sex 选入Covariates 然后点Categorical 再把定性变量sex选入CategoricalCovariate 回到主对话框 点击OK即可得到结果
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!