分析数据间的相关性.ppt

上传人:xt****7 文档编号:5333322 上传时间:2020-01-26 格式:PPT 页数:39 大小:1.14MB
返回 下载 相关 举报
分析数据间的相关性.ppt_第1页
第1页 / 共39页
分析数据间的相关性.ppt_第2页
第2页 / 共39页
分析数据间的相关性.ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
Excel数据统计与分析 主讲 张小兰电话 13560022398Email zhangxl5659 第四章分析数据间的相关性 世间万物总是存在不同程度的联系函数关系统计关系 线性相关 X Y 正线性相关 负线性相关 X Y 非线性相关 4 2两数值型数据间的相关性 1 图形分析法散点图是统计关系分析中最常用的图形工具 它将数据以点的形式画在直角平面上 它将一组数据作为纵轴 将另一组数据作为纵轴 事物对象的每个个体以点的形式出现 1 若所有点落在一条直线上 说明数据间是线性相关 是函数关系 不是统计关系 2 所有点杂乱无章 从形态上看不出任何特征和规律 表明数据间不相关 3 图形点大致呈某种曲线形态 表明数据间存在非线性相关 4 所有点大致落在一条直线周围 表明数据间有线性相关性 实践 1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据 现要求利用散点图法分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性 2 数值分析法图形能够直观展现数据间的相关关系 但并不精确 简单相关系数通过数字准确描述数据间线性相关的方向和强弱程度 简单相关系数简单相关系数取值范围 1 1 简单相关系数 0 表示两个数据正线性相关简单相关系数0 8 表示两个数据相关性很强简单相关系数 0 3 表示两个数据相关性较弱 求简单相关系数的方法 1 简单相关系数可通过函数Correl或Pearson实现 2 数据分析 中相关系数命令 实践 1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据 现要求函数和 数据分析 命令分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性 4 3两品质数据间的相关性 从人事数据中分析性别跟职称是否相关 1 图形分析法复式柱形图是柱形图的扩展 主要用于对事物两个或多个特征的分类对比 2 数值分析法 列联表在该图基础上进一步计算一些简单的百分比 列联表示例 获不获得学分与性别是有关系的 男生获得学分的可能更大一些 列联表示例 获不获得公选课学分与性别是不相关的 实践 给定的性别与受教育程度数据进行相关性分析 做出他们的三维簇状柱形图及列联表 对人事数据中性别与职称进行相关性分析 做出三维簇状柱形图及列联表 4 4相关的可靠性检验 总体与样本常常存在这样的情况 我们所观察的只是部分或有限的个体 而需要判断的总体对象范围却是大量的 甚至是无限的 比如说为了考察某公司生产的一批电脑芯片的质量 需要了解芯片使用寿命这一指标 我们关心的是这一整批芯片的质量 但由于各种原因 只能抽取其中的一小部分进行测试 这时 这一整批芯片的质量和被抽取出来的那一部分的质量就构成了 整体 和 部分 的关系了 可靠性研究的就是分析样本数据所体现的相关或不相关在总体数据间是否依然存在 假设检验的基础 假定数据符合正态分布假设收集到无限多的数据 这些数据可能看起来像下图我们可将这些数据看成平滑的分布红线 正态曲线和概率 了解了正态曲线的平均值和标准偏差有助于估计风险 Probabilityofsamplevalue 正态分布的应用 如果我们货物交付给顾客的平均时间是240分钟 这一过程的标准偏差是15分钟 那么在270分钟后到货的概率为多少 正态分布的应用2 中国成年男子身高均为168cm 标准差为5 5cm 试计算 1 身高小于160cm的概率 2 身高高于180cm的概率 3 身高介于160 180cm的概率 假设检验的基本原理 显著性水平 显著性水平 是当原假设正确却被拒绝的概率通常人们取0 05或0 01这表明 当做出接受原假设的决定时 其正确的可能性 概率 为95 或99 1 数值型数据相关的可靠性检验 数值型数据相关的可靠性检验步骤如下 1 首先提出两总体是否相关的假设 通常假设是两总体不相关 2 计算差距 计算当前相关系数与所提假设成立之间的差距 3 决策 若差距足够小 则当前的假设成立 若差距较大 说明提出的假设是站不住脚的 统计中国 通常的把握程度为0 95 0 90 0 99 相关系数的差距 0 95把握度下的差距TINV函数 TINV probability degrees freedom probability为1 把握程度 degrees freedom为n 1 实践 个人购买商品住在面积与商品住宅销售额之间的相关性进行可靠性检验 卡方分析的主要步骤 1 首先提出两总体是否相关的假设 通常假设行变量总体与列变量总体不相关 2 计算差距 计算目前列联表中的频数数据所呈现的实际相关性与行列变量总体不相关之间的差距有多少 3 决策 若差距足够小 则当前的假设成立 若差距较大 说明提出的假设是站不住脚的 统计中 通常的把握程度为0 95 0 90 0 99 2 品质型数据相关的可靠性检验 计算差距 为列联表每个单元格中的实际频数 为列联表每个单元格中的期望频数 实践 对性别与受高等教育程度之间的相关性进行可靠性检验 方法一 利用卡方分析 方法二 利用Chitest函数 1 假设性别与高等教育程度无关 得到期望频数区域 2 利用Chitest函数 求得chitest 实际频数 期望频数 的值 该值代表假设成立的概率 3 若该概率为小概率事件 则认为假设不成立 反之 则成立 实践 实验内容 一 随机抽取由10名大学生组成的样本 研究他们在高中与大学的英语成绩得出下表结果 单位 分 试用相关系数r测定其相关程度 二 下面是几家百货商店销售额和利润率的资料 1 以纵轴表示利润率 横轴表示每人月平均销售额 画出散点图 观察并说明两变量之间存在何种关系 2 计算每人月平均销售额与利润率之间的相关系数 并说明其相关的密切程度 3 检验每人月平均销售额与利润率之间的相关程度 显著性水平取0 01 三 由人事数据 利用数据透视表得出学历与职称之间的频数分布表 如下图所示 分析职称与学历之间的相关性 并检验相关性 4 5数据的线性回归分析 回归效应1887年生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时 首先提出 回归 的思想 1888年他又引入 相关 Correlation 的概念 原来 他在研究人类身高的遗传时发现 不管祖先的身高是高还是低 成年后代的身高总有向一般人口的平均身高回归的倾向 高尔顿由此的出结论 人的生理结构是稳定的 所有有机组织都趋于标准状态 这种效应叫回归效应 下课了 追求 休息一会儿
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!