资源描述
样本描述性本描述性统计与假与假设检验数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o算术平均数算术平均数n样本数据的总和除以样本个数样本数据的总和除以样本个数n是样本数据集中趋势中最常用的统计量是样本数据集中趋势中最常用的统计量n公式公式n在不分组的情况下在不分组的情况下f都为都为1数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o中位数(中位数(Median)n先将样本按升序或降序排列先将样本按升序或降序排列n样本数为奇,中间的数,样本为偶,取样本数为奇,中间的数,样本为偶,取中间两个的平均中间两个的平均n例如:下列两组样本的中位数为例如:下列两组样本的中位数为_?11 2 4 9 5 23 2012 54 22 36数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o众数(众数(Mode)n样本数据出现频数最多的那个数样本数据出现频数最多的那个数n不受极值影响,可能有多个不受极值影响,可能有多个n例如,下面一组样本的众数为例如,下面一组样本的众数为_?1 2 3 2 1 9 4 6 3 2 1 8数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o调整平均数(调整平均数(Trimmed Mean)n将样本数据排序后,按照一定的比率去掉两端将样本数据排序后,按照一定的比率去掉两端最大值,最小值,对剩下的数据求平均最大值,最小值,对剩下的数据求平均nExplore功能中的调整平均数默认两端各去功能中的调整平均数默认两端各去掉掉2.5%后,对剩下的后,对剩下的95%的数据求平均的数据求平均数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o几何平均数几何平均数(Geometric Mean)n加权几何平均数加权几何平均数n简单几何平均数简单几何平均数f=1数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o调和平均数(调和平均数(Harmonic)n是是n个数的倒数平均数的倒数个数的倒数平均数的倒数n适用于平均价格、平均速度方面的计算适用于平均价格、平均速度方面的计算和分析和分析n公式公式数据分析数据分析-何帆何帆基本数学模型-集中趋势统计量o四分位数四分位数(Quartiles)n25分位数:最低数和中位数之间的中位数分位数:最低数和中位数之间的中位数n75分位数:最高数和中位数之间的中位数分位数:最高数和中位数之间的中位数n其他分位数其他分位数数据分析数据分析-何帆何帆基本数学模型-离散趋势统计量o极差极差(Range)最大值最大值-最小值最小值稳定性差稳定性差o平均差平均差(Average Difference)各样本数据与均值间差异的绝对值的均值各样本数据与均值间差异的绝对值的均值o方差方差(Variance)o标准差标准差(Standard Deviation,Std Dev)方差的算术方根方差的算术方根数据分析数据分析-何帆何帆基本数学模型-离散趋势统计量o标准误标准误(Standard Error,S.D.Mean)是样本平均数的标准差是样本平均数的标准差由于样本抽取的随机性,每次抽取的样本不一,由于样本抽取的随机性,每次抽取的样本不一,样本均值不一。考虑所有被抽取的样本均值,样本均值不一。考虑所有被抽取的样本均值,他们的标准差就是标准误。他们的标准差就是标准误。数据分析数据分析-何帆何帆基本数学模型o偏度偏度(Skewness)反映数据分布不对称的一个数字特征反映数据分布不对称的一个数字特征当数据为正态分布时,偏度为零当数据为正态分布时,偏度为零(=0)II(0)(0)(=0)(Descriptive Statistics-Frequencieso对话框:对话框:数据分析数据分析-何帆何帆Statistics对话框对话框分位数集中趋势统计量偏度和峰度离散趋势统计量数据分析数据分析-何帆何帆Chart按钮按钮选择图形选择图形定义是按照频数定义是按照频数还是按百分比作还是按百分比作图图 数据分析数据分析-何帆何帆应用实例应用实例o例例1 对统计出来的红球和值,进行绘制频对统计出来的红球和值,进行绘制频数表、直方图;计算最大最小值,均数、数表、直方图;计算最大最小值,均数、标准差、中位数标准差、中位数M、p2.5和和p97.5,并,并考察偏度和峰度。考察偏度和峰度。数据分析数据分析-何帆何帆数据描述过程数据描述过程是否保存变量的是否保存变量的标准化数据标准化数据数据分析数据分析-何帆何帆Option按钮按钮选择显示选择显示的次序的次序选择统计选择统计量量数据分析数据分析-何帆何帆数据探察过程数据探察过程功能菜单功能菜单 ExploreoExplore过程主要用于对资料的性质、分布过程主要用于对资料的性质、分布特点等完全不清楚时,故又称之为特点等完全不清楚时,故又称之为探索性分探索性分析析。o在一般描述性统计指标的基础上,增加有关在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户箱图等,显得更加详细、全面,有助于用户制定继续分析的方案制定继续分析的方案 数据分析数据分析-何帆何帆数据探察过程数据探察过程o对话框对话框因变量分组变量样本标签数据分析数据分析-何帆何帆Statistics按钮按钮描述性统计描述性统计反映集中趋势的稳反映集中趋势的稳健估计量健估计量样本异常嫌疑值,样本异常嫌疑值,最大最小最大最小5个个四分数四分数数据分析数据分析-何帆何帆Statistics按钮按钮oDescriptives复选框:输出均数、中位数、众数、复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。均数可信区间。oM-estimators复选框:作中心趋势的最大似然复选框:作中心趋势的最大似然化的稳健估计量,输出四个不同权重的最大似然确化的稳健估计量,输出四个不同权重的最大似然确定数。定数。oOutliers复选框:输出五个最大值与五个最小值。复选框:输出五个最大值与五个最小值。oPercentiles复选框:输出第复选框:输出第5%、10%、25%、50%、75%、90%、95%位数位数 数据分析数据分析-何帆何帆Plots按钮按钮设置多个变量设置多个变量时箱型图的形时箱型图的形式式数据分析数据分析-何帆何帆Option按钮按钮o剔除缺失值剔除缺失值o成对剔除缺失值成对剔除缺失值o单独分组,用频数表标出单独分组,用频数表标出数据分析数据分析-何帆何帆实例应用实例应用o例例2 以例以例1数据为例,做数据为例,做Explore过程统计,过程统计,画出茎叶图,和箱形图。画出茎叶图,和箱形图。假设检验假设检验-平均数比较与平均数比较与T检验检验数据分析数据分析-何帆何帆主要内容主要内容o假设检验一般理论假设检验一般理论o分组平均数比较分组平均数比较o单一样本单一样本T T检验检验o配对样本配对样本T T检验检验数据分析数据分析-何帆何帆问题的提出o例3 某工厂用包装机包装奶粉,额定标准为每袋净重0.5kg.设包装机称得奶粉重量X服从正态分布,据经验知其标准差=0.015(kg).为检验包装机的工作是否正常,随机抽取包装的奶粉9袋,称得重量为0.499 0.515 0.508 0.512 0.498 0.515 0.516 0.513 0.524 问该包装机工作是否正常?数据分析数据分析-何帆何帆假设检验一般理论o基本任务:根据样本信息对未知总体或其数字特征的假设作出合理的判断 o基本原理:小概率事件在一次试验中几乎不可能发生 H0 原假设 H1 备择假设(对立假设)o对于例1 可提出如下统计假设:H0:=0=0.5 H1:0=0.5数据分析数据分析-何帆何帆假设检验一般理论o对H0 进行检验:(1)寻找检验统计量(2)对给定小概率,寻找拒绝域0P(x1,x2,xn)0|H0 为真时=接受域1:10=(样本空间)o当样本观测值:(x1,x2,xn)0 时,拒绝H0 (x1,x2,xn)1 时,接受H1 数据分析数据分析-何帆何帆假设检验一般理论o什么是显著性水平n是一个概率值 n原假设为真时,拒绝原假设的概率 被称为抽样分布的拒绝域 n表示为(alpha)常用的值有0.01,0.05,0.10 n由研究者事先确定数据分析数据分析-何帆何帆假设检验一般理论什么是P值?o是一个概率值 o如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 n左侧检验时,P-值为曲线下方小于等于检验统计量部分的面积 n右侧检验时,P-值为曲线下方大于等于检验统计量部分的面积 o被称为观察到的(或实测的)显著性水平 数据分析数据分析-何帆何帆双侧检验的双侧检验的P值值数据分析数据分析-何帆何帆左侧检验的左侧检验的P值值数据分析数据分析-何帆何帆右侧检验的右侧检验的P值值数据分析数据分析-何帆何帆假设检验一般理论如何利用P值进行决策判断?o单侧检验 n若p-值,不能拒绝 H0n若p-值,拒绝 H0 o双侧检验 n若p-值 /2,不能拒绝 H0n若p-值 /2,拒绝 H0数据分析数据分析-何帆何帆假设检验一般理论检验分类o样本平均数与总体平均数的比较检验(单个样本)o两独立样本平均数的比较o两个配对样本平均数的比较检验o多个平均数的样本检验o成数假设检验,方差或标准差假设检验o分布检验:正态分布检验、均匀分布检验o非参数检验:2检验法、F检验法等。数据分析数据分析-何帆何帆分组平均数比较分组平均数比较o问题描述某医师测得40人的血红蛋白值(g%),试比较男性和女性的血红蛋白值是否有差异?(数据见血红蛋白值.sav)分组平均数比较是为了比较同一个总体抽样中不同类别的均数的差异性数据分析数据分析-何帆何帆分组平均数比较分组平均数比较o菜单菜单Analyze-Compare Means-Means点击弹出如下对话框点击弹出如下对话框o主要功能主要功能n分组计算均值分组计算均值n对均值进行差异比较对均值进行差异比较数据分析数据分析-何帆何帆分组平均数比较分组平均数比较对分组变量进行单因对分组变量进行单因素方差分析,并计算素方差分析,并计算用于度量变量相关程用于度量变量相关程度的度的eta值值 检验线性相关性,检验线性相关性,实际上就是上面的实际上就是上面的单因素方差分析单因素方差分析 数据分析数据分析-何帆何帆分组平均数比较分组平均数比较-结果分析结果分析F:统计量的值Sig.观测显著性水平 即P值数据分析数据分析-何帆何帆单一样本单一样本T检验检验o用于检验样本平均与总体平均数的差异o统计量:T统计量其中S是修正的样本标准差o主要检验某一个均值是否和某一固定值相符合。数据分析数据分析-何帆何帆单一样本单一样本T检验检验o例4前面给出的血红蛋白值的均值是否等于11,12,13数据分析数据分析-何帆何帆单一样本单一样本T检验检验数据分析数据分析-何帆何帆单一样本单一样本T检验检验o结果分析结果分析t统计量值自由度P值置信区间的上下限数据分析数据分析-何帆何帆练习练习1o有一种新型农药防治柑桔红蜘蛛,进行了9个小组的实验,其防治效果为:95%,92%,88%,92%,93%,95%,89%,98%,92%o与原用农药的防治效果90%比较,分析其效果是否高于原用农药。数据分析数据分析-何帆何帆练习练习2o在有小麦丛矮病的麦田里,调查了13株病株和11株健株的植株高度,分析健株高度是否高于病株?其调查数据如下:o健株 26.0 32.4 37.3 37.3 43.2 47.3 51.8 55.8 57.8 64.0 65.3病株 16.7 19.8 19.8 23.3 23.4 25.0 36.0 37.3 41.4 41.7 45.7 48.2 57.8 o该数据保存在“丛矮病的麦田.SAV”文件中数据分析数据分析-何帆何帆配对样本配对样本T检验检验o配对样本是相对独立样本而言的,指一个样本在不同时间做了两次试验,或者有两个类似的记录,从而比较其差异。例如:下列哪个属于配对样本?一班和二班的数学分析成绩 一班的期中和期末成绩数据分析数据分析-何帆何帆配对样本配对样本T检验检验o问题陈述例1 某制鞋厂为比较用来做鞋后跟的两种材料的质量,随机选取了15名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料A作后跟的,另外一只是用材料B作后跟的,其厚度均为10cm,一个月以后再次测量其厚度,数据如下:数据分析数据分析-何帆何帆配对样本配对样本T检验检验o请根据以上数据判断那种材料耐磨性更好些?(显请根据以上数据判断那种材料耐磨性更好些?(显著性水平为著性水平为0.05)数据分析数据分析-何帆何帆配对样本配对样本T检验检验o数学模型T统计量定义如下:T统计量满足的统计量满足的t分布自由度为分布自由度为:对子数对子数-1数据分析数据分析-何帆何帆配对样本配对样本T检验检验o统计分析 Paired samples T test是根据配对样本均值 之间的差异进行检验的。基本假设:数据分析数据分析-何帆何帆配对样本配对样本T检验检验o功能菜单功能菜单Analyze-Compare Means-Paired-Samples T Test o对话框对话框显示配对的显示配对的变量变量显示配对后的变显示配对后的变量组量组,可以同时做可以同时做多对多对数据分析数据分析-何帆何帆配对样本配对样本T检验检验o结果分析结果分析 因为因为P0.05,拒绝原假设,认为两种材料的拒绝原假设,认为两种材料的耐磨性不一样。耐磨性不一样。A的均值为的均值为7.7933,B的均的均值为值为7.1733,可以认为,可以认为A材料比材料比B材料耐磨。材料耐磨。数据分析数据分析-何帆何帆注意注意o利用服从利用服从t分布的统计量作为检验统计量的分布的统计量作为检验统计量的检验方法称为检验方法称为t统计量统计量o前提是假定总体服从正态分布的前提是假定总体服从正态分布的数据分析数据分析-何帆何帆练习练习3o某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别?o数据见“大白鼠.sav”谢谢大家!结结 语语
展开阅读全文