样本数据特征的初步分析.ppt

上传人:tian****1990 文档编号:12917992 上传时间:2020-06-02 格式:PPT 页数:72 大小:1,003.50KB
返回 下载 相关 举报
样本数据特征的初步分析.ppt_第1页
第1页 / 共72页
样本数据特征的初步分析.ppt_第2页
第2页 / 共72页
样本数据特征的初步分析.ppt_第3页
第3页 / 共72页
点击查看更多>>
资源描述
第三章样本数据特征的初步分析,数据的预处理频次与频率观察数据的图形方法数据特征的度量,3.1数据的预处理,数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征,数据审核,原始数据应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等间接数据弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要尽可能使用最新的数据确认是否有必要做进一步的加工整理,当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,数据筛选,数据排序,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成,3.2频次与频率,频次(Frequence)在同一个数据集合中,同一个数据(样本值)出现的次数频率(Percentage)某样本值的频率=该样本值出现的频次/n,从某城市抽出来的30个商店中,某商品的价格数据,某单位16人受教育程度表3.1某单位职工受教育的结构,家庭家具的基色调的抽样调查结果表3.2家庭家具的基色调的抽样调查结果,统计表的设计,4个主要部分:表头、行标题、列标题和数字资料表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释,3.3观察数据的图形方法,条形图饼图面积图线图直方图茎叶图箱形图、散点图、正态概率分布图,条形图(BarChart),用直条的长短来表示数据的频次或频率,简单条形图,纵轴为频率纵轴为累计百分比,分组条形图,分段条形图,饼图,用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多少,面积图,用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然,线图,直方图,用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,组距分组,将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,分组方法,1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差,区间长度4.组中值(classmidpoint):下限与上限之间的中点值,某班级男生的身高数据,确定区间长度确定组数制作频数分布表确定最左端分组区间位置的准则:组中值为最小值,直方图与条形图的区别,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,茎叶图(Stem&Leaf),定义按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式如规定“茎节”的宽度为100,则样本数据123的“茎节.叶”表达方式就是1.23“茎节”末位上的1所代表的实际值,就是“茎节”的宽度原则确定宽度的原则:样本数据集合中的“茎节”必须是有变化的,茎叶图的作法某班级男生的身高(cm)频数茎叶416.03581117.01255667788618.012356119.0由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据,3.4数据特征的度量,集中趋势(CentralTendency)离散程度(Dispersion)偏态与峰态(Distribution),3.4数据特征的度量,3.4.1集中趋势(CentralTendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据众数中位数、分位数均值,众数(mode),概念:一组数据中出现次数最多的变量值,记作M0说明:适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数从条形图或者频率表、频次表来判断,主要用于定类数据和定序数据,也可用于定距数据等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分,中位数(Median),概念:排序后处于中间位置上的值,记作Me说明:,1、不受极端值的影响2、主要用于定距数据,也可用定序数据,但不能用于定类数据3、计算的话要注意先算“正中间的位置”,再算“正中间位置上的值”,计算方法求各个样本的中位数1.样本:2422212620解:共有奇数个数据,故Me=22,将原样本数据排序:2021222426,求各个样本的中位数1.样本:10591268解:共有偶数个数据,故Me=(8+9)/2=8.5,将原样本数据排序:56891012,中位数(median)是分位数的一种,除此之外还有四分位数(quartiles)、十分位数(deciles)和百分位数(percentile),某班级男生的身高数据的中位数,故Me=(176+177)/2=176.5,均值(Mean),概念:一组数据相加后除以数据的个数而得到的结果性质:集中趋势的最常用测度值说明:仅适用于定距级的数据一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,均值的计算,简单平均数(SimpleMean)加权平均数(WeightedMean),设一组数据为:x1,x2,xn(总体数据xN),样本平均数,设各组的组中值为:M1,M2,Mk相应的频数为:f1,f2,fk,样本加权平均,众数、中位数和平均数的比较,众数是一组数据分布的最高峰值中位数是处于一组数据中间位置上的值平均数是全部数据的算术平均,集中趋势特征的特点和应用,众数(mode)不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数(median)不受极端值影响数据分布偏斜程度较大时应用平均数(mean)易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,3.4.2离散程度的度量,数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,离散特征的度量,极值与极差(Range)四分位差(InterquartileRange)离差(Deviations)方差(Variance)离散系数(coefficientofVariance)均值标准误差(S.E.mean,StandardErrorofMean),四分位差(InterquartileRange),四分位数(quartile)一组数据排序后处于25%和75%位置上的值,称为四分位数下四分位数为QL,上四分位数为QU四分位差QUQL,离差(Deviations),定义每个样本与样本均值之差(又称为样本中心化数据)如样本数据为99.8,99.9,100.1,100.2则均值为100,则样本离差分别为-0.2,-0.1,0.1,0.2说明存在正负相互抵消的问题,不能反映整个样本数据对样本均值的偏离情况,所以采用离差平方和的方式(SumofSquaredDeviations),方差(Variance),定义离差平方和的均值,反映了各变量值与均值的平均差异说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差,标准差(StandardDeviation),定义方差的平方根说明:标准差与变量值的计量单位相同,其实际意义要比方差清楚自由度一组数据中可以自由取值的个数按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k,标准化值,用于对变量的标准化处理计算公式为标准化后的变量均值等于0,方差等于1,经验法则,经验法则表明:当一组数据服从正态分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,经验法则(Chebyshev不等式),对于任一随机变量X,如EX=与DX=2均存在则对任意0,恒有是指随机变量的“几乎所有”值都会接近“均值”,该不等式以数量化方式给出了上界与平均值相差2个标准差的值,数目不多于1/4与平均值相差3个标准差的值,数目不多于1/9与平均值相差4个标准差的值,数目不多于1/16,变异系数(CoefficientofVariation),定义标准差与其相应的均值之比说明对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较,某旅游局抽查了所属的8家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,结论:计算结果表明,v10为右偏分布SK0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或0.51之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,峰态(kurtosis),数据分布的平峰或尖峰程度称为峰态,其度量值称为峰态系数,记作K计算K=0扁平峰度适中K0为尖峰分布,SK=0.448,K=0.306,结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数;偏态系数为负值,但与0的差异不大,说明销售量略呈扁平分布,箱线图(Boxplot),由一组数据的5个特征值绘制而成,由一个矩形和向两侧延伸的线段(Whisker)组成用于显示未分组的原始数据的分布绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数QL、QU连接两个四分位数画出箱子,再将两个极值点与箱子相连接,箱线图的构成,分布的形状与箱线图,中位数,修正的箱图,多批数据箱线图,【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,练习1,一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)如下:7,4,2,12,10,14,10,10,12,151)计算销售量的众数、中位数和平均数2)计算销售量的方差和标准差3)说明汽车销量量分布的特征,练习2,某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验,一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间(单位:分钟)为7.2,标准差为1.97,第二种排队方式的等待时间如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.81)画出第二种排队方式等待时间的茎叶图2)计算第二种排队时间的平均数和标准差3)比较两种排队方式等待时间的离散程度4)如果让你来选择一种排队方式,会选择哪一种,试说明理由,练习3,为研究少年儿童的成长发育状况,某研究所的一位调查人员A在某城市抽取100名717岁的少年儿童作为样本,另一位调查人员B则抽取了1000名城717岁的少年儿童作为样本,请回答:1)哪位调查人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?2)哪位调查人员在其所抽到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?3)哪位调查人员有可能得到这1100名少年儿童身高的最高者或最低者?或者对两位调查人员来说,机会均等,练习基本概念题,1.哪些测度等级的数据集合,适合于做频次与频率的饼图2.哪些测度等级的数据集合,适合于做频次与频率的条形图3.是否能用饼图来表示一个数据集合的累积频率?可以用_图来表示一个数据集合的累积频率分布状况4.哪些测度等级的数据集合才能计算累计频率5.什么测度级别的数据适宜作直方图6.作直方图时如何确定最左端区间的中心位置7.作直方图时,区间长度确定后,如何确定区间个数,8.依据如下直方图,判断斜度的正负号,9.什么测度级别的数据集合,可以求众数10.什么测度级别的数据集合适合于确定中位数11.什么测度级别的数据集合适合于计算样本均值11.依据下图,判断该数据集合的众数与中位数,12.一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg,请回答下列问题:1)男生和女生谁的体重差异大,为什么2)初略地估计一下,男生中有百分之几的人体重在55kg到65kg之间?3)初略地估计一下,女生中有百分之几的人体重在40kg到60kg之间,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!