统计学数据分布特征的描述.ppt

上传人:sh****n 文档编号:9121683 上传时间:2020-04-03 格式:PPT 页数:45 大小:856KB
返回 下载 相关 举报
统计学数据分布特征的描述.ppt_第1页
第1页 / 共45页
统计学数据分布特征的描述.ppt_第2页
第2页 / 共45页
统计学数据分布特征的描述.ppt_第3页
第3页 / 共45页
点击查看更多>>
资源描述
Page1 第三章数据分布特征的描述 通过调查获得 经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征 但认知程度还比较肤浅 反映的精确度不够 为此 我们要使用各类代表性的数量特征值来准确地描述这些数据 Page2 对单变量截面数据的特征描述 主要有四个方面 集中趋势 离散程度 偏态与峰度 各类代表性的数量特征值 代表值是多少 代表性有多大 代表性可靠吗 集中趋势的度量 离散趋势的度量 分布特征的度量 平均指标 变异指标 偏度峰度指标 基本公式 简单式 加权式 算术平均数 调和平均数 几何平均数 中位数 众数 极差 平均差 标准差 离散系数 原点矩 中心距 N阶矩 第三章数据分布特征的描述 Page3 第三章数据分布特征的描述 第一节统计变量集中趋势的测定 第二节统计变量离散程度的测定 第三节变量分布的偏度与峰度 第四节利用Excel计算描述统计指标 Page4 第一节统计变量集中趋势的测定 一测定集中趋势的指标及其作用 二数值平均数 三众数与中位数 Page5 一 测定集中趋势的指标及其作用 集中趋势 Centraltendency 较大和较小的观测值出现的频率比较低 大多数观测值密集分布在中心附近 使得全部数据呈现出向中心聚集或靠拢的态势 测度集中趋势的指标有两大类 数值平均数 是根据全部数据计算得到的代表值 主要有算术平均数 调和平均数及几何平均数 位置代表值 根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值 主要有众数和中位数 Page6 测定集中趋势指标的作用 1 反映变量分布的集中趋势和一般水平 如用平均工资了解职工工资分布的中心 反映职工工资的一般水平 2 可用来比较同一现象在不同空间或不同阶段的发展水平 不受总体规模大小的影响 在一定程度上使偶然因素的影响相互抵消 3 可用来分析现象之间的依存关系 如研究劳动者的文化程度与收入的关系 4 平均指标也是统计推断中的一个重要统计量 是进行统计推断的基础 Page7 二 数值平均数 一 算术平均数 均值 一组数据的总和除以这组数据的项数所得的结果 最常用的数值平均数 1 简单算术平均数把每项数据直接加总后除以它们的项数 通常用于对未分组的数据计算算术平均数 计算公式 Page8 二 数值平均数 2 加权算术平均数 加权算术平均数的计算公式 加权 为了体现各变量值轻重不同的影响作用 对各个变量值赋予不尽相同的权数 fi Page9 二 数值平均数 2 加权算术平均数加权算术平均数的计算公式 权数 fi 也称权重 权数 指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量 可以是绝对数形式 也可以是比重形式 如频率 来表示 事实上比重权数更能够直接表明权数的权衡轻重作用的实质 Page10 二 数值平均数 2 加权算术平均数 权数的性质 加权 为了体现各变量值轻重不同的影响作用 对各个变量值赋予不尽相同的权数 fi 表1 表2 表3 大变量值组大权数 小变量值组小权数 则平均数就大大变量值组小权数 小变量值组大权数 则平均数就小 当权数完全相等 f1 f2 fn 时 加权算术平均数就成了简单算术平均数 Page11 3 由组距数列计算算术平均数各组变量值用组中值来代表 假定条件是各组内数据呈均匀分布或对称分布 计算结果是近似值 二 数值平均数 Page12 4 对相对数求算术平均数由于各个相对数的对比基础不同 采用简单算术平均通常不合理 需要加权 权数的选择必须符合该相对数本身的计算公式 权数通常为该相对数的分母指标 二 数值平均数 Page13 5 算术平均数的主要数学性质 1 算术平均数与变量值个数的乘积等于各个变量值的总和 2 各变量值与算术平均数的离差之总和等于零 3 各变量值与算术平均数离差平方之总和为最小 二 数值平均数 Page14 二 数值平均数 二 调和平均数 Harmonicmean 对于已分组资料 当已知各组单位总量f 未知各组标志总量m时 采用加权算术平均数 表1 表2 商务统计中所应用的调和平均数通常是加权算术平均数的变形 对于已分组资料 当已知各组标志总量m 未知各组单位总量f时 采用加权调和平均数 对于未分组资料 或虽已分组但各组次数相同时 采用简单算术平均数 Page15 二 数值平均数 二 调和平均数 Harmonicmean 调和平均数也称为倒数平均数 各变量值的倒数 1 xi 的算术平均数的倒数 其计算公式为 对于未分组资料 采用简单调和平均数 对于已分组资料 当已知各组标志总量m 未知各组单位总量f时 采用加权调和平均数 Page16 二 数值平均数 例 某企业产品的加工要顺次经过前后衔接的五道工序 本月该企业各加工工序的合格率分别为88 85 90 92 96 试求这五道工序的平均合格率 本例中各工序的合格率具有环比的性质 企业产品的总合格率等于各工序合格率之连乘积 所以 所求的平均合格率应为 三 几何平均数 Geometricmean Page17 三 几何平均数 Geometricmean 几何平均数 n个变量值连乘积的n次方根 简单几何平均数加权几何平均数适用于各个变量值之间存在连乘积关系的场合 主要用于计算现象的平均发展速度 也适用于对某些具有环比性质的比率求平均 二 数值平均数 Page18 数值平均数小结 二 数值平均数 简单式 加权式 算术平均数 调和平均数 几何平均数 算术和的关系 倒数和的关系 连乘积的关系 由未分组资料计算 由已分组资料计算 变量值的关系 数值平均数的计算 Page19 三 众数与中位数 一 众数 Mode 众数是一组数据中出现频数最多 频率最高的变量值 常用Mo表示 如表3 2中年龄的众数值Mo 25 众数代表的是最常见 最普遍的状况 是对现象集中趋势的度量 可用来测度定性变量的集中趋势 销售量最大的产品颜色是 白色 则有Mo 白色 可以度量定量变量的集中趋势 从分布曲线的角度看 众数就是变量分布曲线的最高峰所对应的变量值 Page20 组距数列中众数的确定 先找到众数组 在等距数列中 众数组就是次数最多的组 在异距数列中 众数组应是频数密度最大的组 根据众数组与其相邻两组的次数差来推算 其近似公式为 下限公式 上限公式 Page21 第二节统计变量离散程度的测定 测度集中趋势的指标有两大类 数值平均数 主要有算术平均数 调和平均数及几何平均数 位置代表值 主要有众数和中位数 测度离中趋势的指标也有两大类 数值平均数的代表性 主要有极差 平均差 方差和标准差 离散系数 位置代表值的代表性 主要有四分位差 异众比例 Page22 第二节统计变量离散程度的测定 一测定离散程度的指标及其作用 二极差 四分位差和平均差 三方差和标准差 四离散系数 五异众比率 Page23 一 测定离散程度的指标及其作用 1 说明数据的分散程度 反映变量的稳定性 均衡性 数据之间差异越大 变量的稳定性或均衡性越差 2 衡量平均数的代表性 离散程度越大 平均数的代表性就越小 3 统计推断的重要依据判别统计推断前提条件是否成立 衡量推断效果好坏的重要尺度 Page24 二 极差 四分位差和平均差 一 极差 Range 极差是一组数据的最大值 xmax 与最小值 xmin 之差 通常用R表示 对于总体数据而言 极差也就是变量变化的范围或幅度大小 也称为全距组距数列中 极差 最高组的上限 最低组的下限 优缺点 计算简便 含义直观 容易理解 它未考虑数据的中间分布情况 不能充分说明全部数据的差异程度 Page25 二 极差 四分位差和平均差 二 四分位差第3四分位数 Q3 与第1四分位数 Q1 之差 常用Qd表示 计算公式为 实质上是两端各去掉四分之一的数据以后的极差 表示占全部数据一半的中间数据的离散程度 四分位差越大 表示数据离散程度越大 优缺点 是在一定程度上对极差的一种改进 避免了极端值的干扰 但它对数据差异的反映仍然是不充分的 四分位差是一种顺序统计量 适用于定序数据和定量数据 尤其是当用中位数来测度数据集中趋势时 Page26 二 极差 四分位差和平均差 三 平均差 AverageDeviation 平均差 各个数据与其均值的离差绝对值的算术平均数 反映各个数据与其均值的平均差距 通常以A D表示 计算公式为 优缺点 平均差含义清晰 能全面地反映数据的离散程度 但取离差绝对值进行平均 数学处理上不够方便 在数学性质上也不是最优的 已分组数据 未分组数据 Page27 三 方差和标准差 一 方差 Variance 的概念和计算方差是各个数据与其均值的离差平方的算术平均数 总体方差 2 的计算公式为 样本方差 通常用S2表示 分母应为 n 1 已分组数据 未分组数据 Page28 三 方差和标准差 标准差 standardDeviation 方差的算术平方根 总体标准差一般用 表示 其计算公式为 样本标准差 S 分母应为 n 1 标准差比方差更容易理解 在社会经济现象的统计分析中 标准差比方差的应用更为普遍 经常被用作测度数据与均值差距的标准尺度 分组数据 未分组数据 Page29 计算平均差和方差 标准差 Page30 三 方差和标准差 二 方差的主要数学性质常数的方差等于零 a为常数 则变量的线性函数的方差等于变量系数的平方乘以变量的方差 设a b为常数 y a bx 则有 分组条件下 总体的方差等于组间方差与各组方差平均数之和 组间方差 各组方差平均数 Page31 三 方差和标准差 三 标准化值 Z score 标准化值或标准得分也称为Z值 对于来自不同均值和标准差的个体的数据 往往不能直接对比 这就需要将它们转化为同一规格 尺度的数据后再比较 标准化值实际上是将不同均值和标准差的总体都转换为均值为0 标准差为1的总体 将各个体的数据转换为它在其总体中的相对位置 Page32 三 方差和标准差 假定某班学生先后两个两次进行了难度不同的综合考试 第一次考试成绩的均值和标准差分别为80分和10分 而第二次考试成绩的均值和标准差分别为70分和7分 张某第一 二次考试的成绩分别为92分和80分 那么全班相比较而言 他哪一次考试的成绩更好呢 解 由于两次考试成绩的均值和标准差不同 每个学生两次考试的成绩不宜直接比较 利用标准化值进行对比 表明第二次考试的成绩更好一些 Page33 三 方差和标准差 四 对称钟形分布中的3 法则3 法则 关于钟形分布的一个近似的或经验的法则 变量值落在 3 3 范围以外的情况极为少见 因此通常将落在区间 3 3 之外的数据称为异常数据或称为离群点 Page34 四 离散系数 前面的各变异指标都是有计量单位的 它们的数值大小不仅取决于数据的离散程度 还要受数据本身水平高低和计量单位的影响 对不同变量 或不同数据组 的离散程度进行比较时 只有当它们的平均水平和计量单位都相同时 才能利用上述变异指标来分析 否则 须利用离散系数来比较它们的离散程度 例如 哪个变量的差异较大 体重 还是身高 例如 体重的差异哪个较大 父亲 还是婴儿 父亲 平均体重 70kg 标准差 5kg婴儿 5kg 1kg Page35 四 离散系数 离散系数是极差 四分位差 平均差或标准差等变异指标与算术平均数的比率 以相对数的形式表示变异程度 将极差与算术平均数对比得到极差系数 将平均差与算术平均数对比得到平均差系数 最常用的离散系数是就标准差来计算的 称之为标准差系数 离散系数大 说明数据的离散程度大 其平均数的代表性就差 反之亦然 Page36 五 异众比率 异众比率是指非众数值的次数之和在总次数中所占比重 其公式为 主要用于衡量一组数据以众数为分布中心的集中程度 即衡量众数代表一组数据一般水平的代表性 其值越小 数据集中程度越高 众数代表性越大 Page37 第三节变量分布的偏度与峰度 一矩 动差 二偏度 Skewness 三峰度 Kurtosis Page38 一 矩 动差 矩 动差 一系列刻画数据分布特征的指标的统称 变量值与数值a之离差的K次方的平均数称为变量x关于a的K阶矩 即 Page39 K阶原点矩 当a 0时 是数据的K次方的平均数一阶原点矩即算术平均数 二阶原点矩即平方平均数 K阶中心矩矩 当a 均值时 是以均值为中心计算的离差K次方的平均数k 1时 称为一阶中心矩 它恒等于0 即m1 0 k 2时 称为二阶中心矩 也就是方差 即m2 2 Page40 二 偏度 Skewness 偏度 指数据分布的不对称程度或偏斜程度 以对称分布为标准来区分偏态分布又分左偏 负偏 和右偏 正偏 左偏分布 负偏 右偏分布 正偏 Page41 偏态的测度方法 一 由均值与众数 中位数 之间的关系求偏态系数一般有 Page42 二 由三个四分位数之间的关系求偏态系数 值域 1 Sk 1 Page43 三 利用3阶中心矩来计算偏度系数 测定偏度最常用的方法原理 若分布不对称 则3阶中心矩不为0 不对称程度愈严重 3阶中心矩的绝对值愈大 为消除量纲的影响 可除以 3 Page44 三 峰度 Kurtosis 峰度 是指变量的集中程度和分布曲线的陡峭 或平坦 的程度 对峰度的度量通常以正态分布曲线为比较标准 分为正态峰度 尖顶峰度和平顶峰度 尖顶峰度的分布曲线比正态分布曲线更加尖峭 更高更窄 平顶峰度的分布曲线比正态分配曲线更为平缓 更低更扁平 Page45 峰度系数原理 分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系 以四阶中心矩m4为基础 为了消除量纲的影响 再除以标准差的四次方 4所得到的相对数即可衡量峰度 对于正态分布曲线有 m4 4 3 故峰度系数为 当K 0时 分布曲线为正态曲线 当K 0时 为尖顶曲线 表示数据比正态分布更集中在均值附近 K的数值越大 则变量分布曲线之顶端越尖峭 当K 0时 为平顶曲线 表示数据比正态分布更分散 K的数值越小 则变量分布曲线之顶端越平坦
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!