生物统计ppt课件第二章--资料的整理与特征数的计算

上传人:风*** 文档编号:241470478 上传时间:2024-06-28 格式:PPT 页数:163 大小:6.33MB
返回 下载 相关 举报
生物统计ppt课件第二章--资料的整理与特征数的计算_第1页
第1页 / 共163页
生物统计ppt课件第二章--资料的整理与特征数的计算_第2页
第2页 / 共163页
生物统计ppt课件第二章--资料的整理与特征数的计算_第3页
第3页 / 共163页
点击查看更多>>
资源描述
第二章第二章 数据的整理与分析数据的整理与分析通过调查与试验,取得原始资料,输入计算机excelexcel表表格格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。2 试验资料的整理试验资料的整理2.1 原始数据的录入原始数据的录入第二章 数据的整理与分析通过调查与试验,取得原始资料,输入计12 试验资料的整理试验资料的整理2.1 原始数据的输入原始数据的输入通过调查与试验,取得原始资料,输入计算机excelexcel表表格格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。2 试验资料的整理2.1 原始数据的输入通过调查与试验,取2五笼珍珠贝的壳高(SH)测量数据,共227个三笼马氏珠母贝的总重(g),共获得128个数据 五笼珍珠贝的壳高(SH)测量数据,共227个三笼马氏珠母贝的3在一列中输入数据,其中第一行输在一列中输入数据,其中第一行输入标题入标题“总重总重(g)”(图)。(图)。在一列中输入数据,其中第一行输入标题“总重(g)”(图)。4在一列中输入数据,其中第一行输在一列中输入数据,其中第一行输入标题入标题“总重总重(g)”(图)。(图)。在一列中输入数据,其中第一行输入标题“总重(g)”(图)。52.2 绘制频数分布图绘制频数分布图 频数分布图是直观反映数据分布情况的一种常用方法。将数据按照一定的规则分成不同的组,组数用k 表示;同一个组中的数值属于同一范围,组内包含的个体个数称为频数(f);总频数或样本容量n可用公式表示为 ,频率为f/n。以128个马氏珠母贝壳高测量值为例,制作频数分布表与频数分布图。编制连续型数据的频数分布图的一般步骤是:2.2 绘制频数分布图 频数分布图是直观反映数据分布情况的一62.2.1 Excel(1)确定极差R 从原始数据中找出最大值max(x)和最小值min(x),计算极差(range,R)(也称组距),R=max x-min x;R=76.77-20.47=56.30(2)确定组数L 组数L与样本容量n有关,一般数据少于100个时,可以分为7-10组。数据较多时,可以分为15-20组。可以用以下公式 计算:2.2.1 Excel(1)确定极差R72.2.1 Excel(2)确定组数L 也可以参照下表进行。本例中n=128,L可以先取10。样本容量n组数L306058601007101002009122005001018500以上15302.2.1 Excel(2)确定组数L样本容量n组数L3082.2.1 Excel(3)确定组距I i=R/L=56.30/10=5.636 一般组距不要取小数点多的数。(4)确定组中值 第一个组中值等于或小于样本最小值+1/2组距,本例最小值为20.47,组距为6,第一个组中值=20+3=23;其余的中值依次加组距确定。2.2.1 Excel(3)确定组距I92.2.1 Excel(5)在excel中确定接受区域 第一个数=第一个组中值+1/2组距 =23+3=26,下面的数依次加组距,接受区域最后一个值一定大于等于最大值:2.2.1 Excel(5)在excel中确定接受区域10生物统计ppt课件第二章-资料的整理与特征数的计算112.4.1 Excel(6)调用函数FREQUENCY()第一步,选中“频数”列下方的空白单元格,作为结果输出区域,输入“=frequency(”;第二步,用鼠标选中“总重(g)”的128个观测值(或直接输入数据所在单元格“a2:a129”),再输入“,”隔开;第三步,再用鼠标选中选中“接受区域”的数据(或直接输入接受区域单元格“h2:h129”),输入“)”。2.4.1 Excel(6)调用函数FREQUENCY()12生物统计ppt课件第二章-资料的整理与特征数的计算132.4.1 Excel按“Ctrl+Shift+Enter”,获得结果。2.4.1 Excel按“Ctrl+Shift+Enter”142.4.1 Excel(7)制作频数分布图选择频数的数据,点击菜单上的图表向导按钮:2.4.1 Excel(7)制作频数分布图15(8)选择柱形图中的第一个图,点击“下一步”,出现如下对话框:(8)选择柱形图中的第一个图,点击“下一步”,出现如下对话框16(9)点击系列,切换对话框,点击)点击系列,切换对话框,点击“分类分类(X)轴标志轴标志(T)”的按钮的按钮:(9)点击系列,切换对话框,点击“分类(X)轴标志(T)”的17(10)出现)出现“分类分类(X)轴标志轴标志”的对话框,选的对话框,选中中“组中值组中值”数据数据(10)出现“分类(X)轴标志”的对话框,选中“组中值”数据18(11)点击)点击“分类分类(X)轴标志轴标志”对话框,返对话框,返回对话框回对话框(11)点击“分类(X)轴标志”对话框,返回对话框 19(12)点击)点击“下一步下一步”(12)点击“下一步”20(13)点击)点击“标题标题”,在,在“分类分类(X)轴与数值轴与数值(Y)轴轴”分别输入标题分别输入标题“总重总重(g)”和和“频数频数”(13)点击“标题”,在“分类(X)轴与数值(Y)轴”分别输21(14)点击)点击“图例图例”,将,将“显示图例显示图例”前面前面内的内的去掉去掉(14)点击“图例”,将“显示图例”前面内的去掉 22(16)鼠标选中条形,右键“数据系列格式”(16)鼠标选中条形,右键“数据系列格式”23(17)出现对话框,点击“选项”,将分类间距150改为0(17)出现对话框,点击“选项”,将分类间距150改为024(18)点击“确定”,条形之间的间隔就没有了(18)点击“确定”,条形之间的间隔就没有了252.2.2 Minitab绘制频数分布图绘制频数分布图将观测值数据从Excel拷贝到Minitab的工作表中,调用菜单图形直方图,跳出对话框,选择简单:2.2.2 Minitab绘制频数分布图将观测值数据从Exc262.2.2 Minitab点击确定,对话框中,点击数据C1 总重(g),选择进入图形变量:2.2.2 Minitab点击确定,对话框中,点击数据C1 272.2.2 Minitab点击确定,即会输出图形:2.2.2 Minitab点击确定,即会输出图形:282.2.2 Minitab默认的直方图,分成12组,组距是5。如果想改变分组,可以用鼠标左击一下灰色的直方条,右键,选择编辑条形:2.2.2 Minitab默认的直方图,分成12组,组距是5292.2.2 Minitab出现编辑条形的对话框,点击区间,在区间定义处点击区间数,右侧输入10:2.2.2 Minitab出现编辑条形的对话框,点击区间,在302.2.2 Minitab按确定后,输出的图形的分组数就是10了,组距也变成了6:2.2.2 Minitab按确定后,输出的图形的分组数就是1312.2.2 Minitab将鼠标移到任意一个直方条,就会显示该处的频数值与区间,底部x轴对应数值就是组中值。如下图,鼠标移至最高的直方条,即会显示区间为4147,组中值为44,频数为28。2.2.2 Minitab将鼠标移到任意一个直方条,就会显示322.2.2 Minitab图中只显示一半的组中值,如要显示全部的组中值,可以点击上方线条,待鼠标显示“X 尺度”2.2.2 Minitab图中只显示一半的组中值,如要显示全332.2.2 Minitab然后点击鼠标右键,选择“编辑X尺度”2.2.2 Minitab然后点击鼠标右键,选择“编辑X尺度342.2.2 Minitab调出“编辑X尺度”对话框,选择“刻度位置”,在后面空格填入所需要显示的组中值2.2.2 Minitab调出“编辑X尺度”对话框,选择“刻352.2.2 Minitab点击确定,输入的直方图结果就有了全部10个组的组中值。如果需要每个直方条显示出频数,可以选择任意直方条,点击鼠标右键“添加”“数据标签”2.2.2 Minitab点击确定,输入的直方图结果就有了全362.2.2 Minitab对话框默认选项是“使用Y值作标签”2.2.2 Minitab对话框默认选项是“使用Y值作标签”372.2.2 Minitab点击“确定”,输出图形中的直方条上方都已出现了频数2.2.2 Minitab点击“确定”,输出图形中的直方条上382.2.3 DPS 先将数据从Excel中拷贝到DPS,选择数据,菜单数据分析频次分布,对话框中输入分组数:2.2.3 DPS 先将数据从Excel中拷贝到392.2.3 DPS 弹出对话框:2.2.3 DPS 弹出对话框:402.2.3 DPS点击OK,就可跳出频次分布和理论分布对话框:2.2.3 DPS点击OK,就可跳出频次分布和理论分布对话框412.2.4 6SQ统计统计6SQ统计插件for Excel 2.0(http:/ 6SQ统计6SQ统计插件for Excel 2.422.2.4 6SQ统计统计在Excel选中需要分析的数据,包括第一行的名称。调用菜单,6SQ统计基本统计描述统计图形化汇总:2.2.4 6SQ统计在Excel选中需要分析的数据,包括第432.2.4 6SQ统计统计我们可以将区间宽度改为6,将第一个组下限改为20,其他数据就会立即跟着改变:2.2.4 6SQ统计我们可以将区间宽度改为6,将第一个组下442.2.4 6SQ统计统计结果:2.2.4 6SQ统计结果:452.4.4 6SQ统计统计结果2:2.4.4 6SQ统计结果2:462.3 茎叶图茎叶图 茎叶图(Stem and leaf plot)又称“枝叶图”,它的基本思路是将样本中的数据按位数进行比较,将数的大小基本不变或变化不大的位变化不大的位作为一个主干主干(茎),将变化大的位变化大的位的数作为分枝分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。这里仍然以128只马氏珠母贝总重数据为例制作茎叶图,可以用Minitab、SPSS等软件。2.3 茎叶图 茎叶图(Stem and l472.5.1 Minitab从Excel中导入数据,鼠标点击菜单图形茎叶图:2.5.1 Minitab从Excel中导入数据,鼠标点击菜482.5.1 Minitab结果解读:从结果中可以得到,样本容量为128,叶的单位是1.0,也就是将观测值通过四舍五入取整了。茎叶图有三列数。左边的一列是频数频数;中间一列是茎茎,这里就是测量值的十位数十位数;右边的是数组中的变化位,它是按照大小顺序将测量值的个位数个位数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。2.5.1 Minitab结果解读:492.5.1 Minitab结果解读:频数第一个是5,茎是2,叶是01234,表明2024范围内的观测值有5个,分别是20、21、22、23、24共5个。频数第二个是9,茎是2,叶是6789,表明2629范围内的观测值有4个(本行的9减去上一行的5),分别是26、27、28、29共4个。第三个频数是25,茎是3,叶是0011111223333444,表明3034范围内的观测值有16个(25-9),分别是30、30、31、31、31、31、31、32、32、33、33、33、33、34、34、34共16个。2.5.1 Minitab结果解读:502.5.1 Minitab结果解读:依次类推,直到带括号的中心的数(26),表示中位数中位数在此频数在该行在此频数在该行,4449范围内的观测值有26个。从中心数往下,当前行的观测值个数等于当前频数减去下一行频数,如倒数第四行,该行观测值数量有5个(本行的7减去下一行的2),分别是61、62、62、62、63。2.5.1 Minitab结果解读:512.5 茎叶图茎叶图 茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。2.5 茎叶图 茎叶图是一个与直方图相类似的特522.5.2 SPSS导入Excel工作表,直接获得数据。调用菜单分析探索:2.5.2 SPSS导入Excel工作表,直接获得数据。调用532.5.2 SPSSSPSS的茎叶图同样也是左、中、右三列,每列的频数直接就是该组的频数,如第三行的16,表示在3034范围内的观测值共有16个,分别是30、30、31、31、31、31、31、32、32、33、33、33、33、34、34、34。最后一行表示有一个值异常(=77)。2.5.2 SPSSSPSS的茎叶图同样也是左、中、右三列,542.2 数据描述统计数据描述统计 对于样对于样1个样本的观测值,我们可以计算它个样本的观测值,我们可以计算它的的平均数、中位数、众数、最大值、最小平均数、中位数、众数、最大值、最小值、极差、方差、标准差、变异系数值、极差、方差、标准差、变异系数等,等,我们称为对数据进行我们称为对数据进行描述统计描述统计。2.2 数据描述统计 对于样1个样本的观测值,我们可以计算它552.2.1 平均数平均数 平均数(平均数(mean)一般指算术平均数,是观测值)一般指算术平均数,是观测值的总和除以样本容量得到,常用的总和除以样本容量得到,常用 表示。表示。在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:average()。在数据列最后的空白单元格(。在数据列最后的空白单元格($A$130)中)中输入输入“average(”,即会出现以下提示:,即会出现以下提示:2.2.1 平均数 平均数(mean)一般指算术平均数,是562.2.1 平均数平均数选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.1 平均数选中所有数据,输入右括号“)”,即会出现以572.2.1 平均数平均数按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果44.31:2.2.1 平均数按回车键后,单元格$A$130即会出现平均582.2.1 平均数平均数 样本容量样本容量n的计算函数:的计算函数:count(),如计算,如计算例例1的样本容量的样本容量n,可在单元格,可在单元格$A$130输入输入“=count(A2:a129)”:2.2.1 平均数 样本容量n的计算函数:count(),592.2.1 平均数平均数回车,即可得到结果,回车,即可得到结果,n=128:平均数与每一个观测值都有关系,有较高的代表平均数与每一个观测值都有关系,有较高的代表性,但它也容易受到极端值的影响。性,但它也容易受到极端值的影响。2.2.1 平均数回车,即可得到结果,n=128:602.2.2 中位数中位数中位数(中位数(Median)是把一组观测值按从小到大的)是把一组观测值按从小到大的数序排列,在中间的一个数(或两个数的平均值)数序排列,在中间的一个数(或两个数的平均值)叫做这组数据的中位数,记作叫做这组数据的中位数,记作Md。当样本数为奇。当样本数为奇数时,中位数数时,中位数=第第(n+1)/2个数据;当样本数为偶个数据;当样本数为偶数时,中位数为第数时,中位数为第n/2个数据与第个数据与第n/2+1个数据的个数据的算术平均值。算术平均值。2.2.2 中位数中位数(Median)是把一组观测值按从小612.2.2 中位数中位数在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:median()。如计算例。如计算例1的样本的中位数,可在数据的样本的中位数,可在数据列最后的空白单元格(列最后的空白单元格($A$130)中输入)中输入“median(”,即会出现以下提示:,即会出现以下提示:2.2.2 中位数在Excel中,有专门的函数可以计算平均数622.2.2 中位数中位数选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.2 中位数选中所有数据,输入右括号“)”,即会出现以632.2.2 中位数中位数按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果45.20:2.2.2 中位数按回车键后,单元格$A$130即会出现平均642.2.2 中位数中位数中位数不受分布数列的极大或极小值影响,具有中位数不受分布数列的极大或极小值影响,具有“抗性抗性”,不像算术平均数那样,不像算术平均数那样“敏感敏感”。存在极端值的资料不宜用平均数,像收入、住存在极端值的资料不宜用平均数,像收入、住房等,数据比较分散,如果存在两极分化严重,房等,数据比较分散,如果存在两极分化严重,就不适宜用平均数。如某公司的就不适宜用平均数。如某公司的33名职工的月工名职工的月工资资(以元为单位以元为单位)如下:如下:本例中,该公司的平均工资数为本例中,该公司的平均工资数为3500,而中位数工资数,而中位数工资数为为1500。2.2.2 中位数中位数不受分布数列的极大或极小值影响,具有652.2.3 众数众数 众数(众数(Mode)是一组数据中出现次数最多的数)是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。值,有时众数在一组数中有好几个。在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:mode()。在数据列最后的空白单元格(。在数据列最后的空白单元格($A$130)中输)中输入入“mode(”,即会出现以下提示:,即会出现以下提示:2.2.3 众数 众数(Mode)是一组数据中出现次数最多的662.2.3 众数众数选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:2.2.3 众数选中所有数据,输入右括号“)”,即会出现以下672.2.3 众数众数按回车键后,单元格按回车键后,单元格$A$130即会出现平均即会出现平均数的计算结果数的计算结果48.80:2.2.3 众数按回车键后,单元格$A$130即会出现平均数682.2.3 众数众数众数不受极端值的影响,但它也没有利用众数不受极端值的影响,但它也没有利用全部数据信息,而且还具有不惟一性。如全部数据信息,而且还具有不惟一性。如果样本数据的分布没有明显的集中趋势或果样本数据的分布没有明显的集中趋势或最高峰点,也可能没有众数;如果有两个最高峰点,也可能没有众数;如果有两个最高峰点,那就有两个众数。只有在总体最高峰点,那就有两个众数。只有在总体单位比较多,而且又明显地集中于某个变单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。量值时,计算众数才有意义。2.2.3 众数众数不受极端值的影响,但它也没有利用全部数据692.2.3 众数众数例:某制鞋厂要了解消费者最需要哪种型例:某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如下表:皮鞋的销售情况,得到资料如下表:从表中看出,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25.65厘米,这是没有实际意义的,因此利用用25.5(众数)厘米作为样本数据集中趋势,既便捷又符合实际。2.2.3 众数例:某制鞋厂要了解消费者最需要哪种型号的男皮702.2.4 几何平均数几何平均数几何平均数(几何平均数(geometric mean)是指)是指n个个观测值连乘积的观测值连乘积的n次方根就是几何平均数,次方根就是几何平均数,记作记作G。根据资料的条件不同,几何平均数。根据资料的条件不同,几何平均数分为加权和不加权之分。分为加权和不加权之分。2.2.4 几何平均数几何平均数(geometric mea712.2.4 几何平均数几何平均数例例 1994-1998年我国工业品的产量分别是年我国工业品的产量分别是上年的上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这,计算这5年的平均发展年的平均发展速度。速度。2.2.4 几何平均数例 1994-1998年我国工业品的722.2.4 几何平均数几何平均数在在Excel中,有专门的函数可以计算平均数:中,有专门的函数可以计算平均数:geomean()。在数据列最后的空白单元格中输入。在数据列最后的空白单元格中输入“geomean(”,即会出现以下提示:,即会出现以下提示:2.2.4 几何平均数在Excel中,有专门的函数可以计算平732.2.4 几何平均数几何平均数选中所有数据,输入右括号选中所有数据,输入右括号“)”,即会出,即会出现以下:现以下:按回车键后,单元格$A$130即会出现平均数的计算结果1.030935。2.2.4 几何平均数选中所有数据,输入右括号“)”,即会出742.2.4 几何平均数几何平均数 例例 2007年银行公布的定期存款利率分别年银行公布的定期存款利率分别是:三个月是:三个月3.33%,半年,半年3.78%,一年,一年4.14%,两年,两年4.68%,三年,三年5.40%,五年,五年5.85,求平均年利率。本题需要加权。,求平均年利率。本题需要加权。2.2.4 几何平均数 例 2007年银行公布的定期存款利752.2.4 几何平均数几何平均数几何平均数仅适用于具有等比或近似等比几何平均数仅适用于具有等比或近似等比关系的数据。几何平均数受极端值的影响关系的数据。几何平均数受极端值的影响较算术平均数小。但观测值中任何一个变较算术平均数小。但观测值中任何一个变量值不能为量值不能为0,如上例中,银行利率为,如上例中,银行利率为3.78%,计算时要写成,计算时要写成1.0378,当银行利率,当银行利率为为0时,就不至于计算无意义。时,就不至于计算无意义。2.2.4 几何平均数几何平均数仅适用于具有等比或近似等比关762.2.4 几何平均数几何平均数以上算术平均数、中位数、众数、几何平以上算术平均数、中位数、众数、几何平均数都是描述数据的均数都是描述数据的集中性集中性,及指出数据,及指出数据集中较多的位置。此外还有描述数据集中较多的位置。此外还有描述数据离散离散性性的特征数,表示数据之间参差不齐的程的特征数,表示数据之间参差不齐的程度。这些特征数一般有极差、方差、标准度。这些特征数一般有极差、方差、标准差、标准误、偏度、峰度与变异系数。差、标准误、偏度、峰度与变异系数。2.2.4 几何平均数以上算术平均数、中位数、众数、几何平均772.2.5 极差极差极差(极差(range)是最大值与最小值的差,记)是最大值与最小值的差,记作作R。在。在Excel中,可以用函数中,可以用函数max()、min()分别计算最大值与最小值,然后相减求分别计算最大值与最小值,然后相减求得极差。得极差。2.2.5 极差极差(range)是最大值与最小值的差,记作782.2.6 方差与标准差方差与标准差 方差(方差(Variance)和标准差()和标准差(Standard deviation)都是描述观测值围绕平均数的波动程)都是描述观测值围绕平均数的波动程度的特征值,是测度数据变异程度的最重要、最度的特征值,是测度数据变异程度的最重要、最常用的指标。常用的指标。方差也称变异数、均方。作为统计量,方差常用方差也称变异数、均方。作为统计量,方差常用符号符号s2表示,作为总体参数,常用符号表示,作为总体参数,常用符号2表示。表示。2.2.6 方差与标准差 方差(Variance)和标准差(792.2.6 方差与标准差方差与标准差标准差是方差的平方根,样本的标准差常用标准差是方差的平方根,样本的标准差常用s或或SD表示。若用表示。若用表示,则是指总体的标准差。表示,则是指总体的标准差。方差它是每个数据与该组数据平均数之差乘方后方差它是每个数据与该组数据平均数之差乘方后的均值。本章只讨论对一组数据的描述,尚未涉的均值。本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用及总体问题,故本章方差的符号用s2,标准差的,标准差的符号用符号用s。2.2.6 方差与标准差标准差是方差的平方根,样本的标准差常802.2.6 方差与标准差方差与标准差Excel中计算方差的函数为中计算方差的函数为var(),计算标,计算标准差的函数为准差的函数为stdev()。如例。如例 ,计算,计算128个个马氏珠母贝总重测量值的方差,可以在马氏珠母贝总重测量值的方差,可以在Excel中如下计算:中如下计算:回车后,结果即是方差值回车后,结果即是方差值107.13。2.2.6 方差与标准差Excel中计算方差的函数为var(812.2.6 方差与标准差方差与标准差同样,利用函数同样,利用函数stdev()stdev(),计算出,计算出128128个马氏珠母个马氏珠母贝总重测量值的标准差为贝总重测量值的标准差为10.3510.35。为了说明一个样本的变异程度,常常在平均数后面为了说明一个样本的变异程度,常常在平均数后面加上标准差,写成加上标准差,写成 。如。如128128个马氏珠母贝的个马氏珠母贝的测量结果可以记作测量结果可以记作48.8010.3548.8010.35。2.2.6 方差与标准差同样,利用函数stdev(),计算822.2.6 方差与标准差方差与标准差在单位相同、均数相近的情况下,标准差在单位相同、均数相近的情况下,标准差越大,说明观测值间的变异程度越大,即越大,说明观测值间的变异程度越大,即观测值围绕均数的分布较离散,均数的代观测值围绕均数的分布较离散,均数的代表性较差。反之,标准差越小,表明观测表性较差。反之,标准差越小,表明观测值间的变异较小,观测值围绕均数的分布值间的变异较小,观测值围绕均数的分布较密集,均数的代表性较好。在研究中,较密集,均数的代表性较好。在研究中,对于标准差的大小,原则上应该控制在均对于标准差的大小,原则上应该控制在均值的值的12%12%以内,如果标准差过大,将直接影以内,如果标准差过大,将直接影响研究的准确性。响研究的准确性。2.2.6 方差与标准差在单位相同、均数相近的情况下,标准差832.2.6 方差与标准差方差与标准差在正态分布的情况下,当观测值在在正态分布的情况下,当观测值在 范范围内,观测值数量占样本含量的围内,观测值数量占样本含量的68.27%68.27%;当观测值在当观测值在 范围内,观测值数量占范围内,观测值数量占样本含量的样本含量的95.45%95.45%;当观测值在;当观测值在 范范围内,观测值数量占样本含量的围内,观测值数量占样本含量的99.73%99.73%。2.2.6 方差与标准差在正态分布的情况下,当观测值在 842.2.7 标准误标准误在实际工作中,我们无法直接了解研究对在实际工作中,我们无法直接了解研究对象的总体情况,经常采用随机抽样的方法,象的总体情况,经常采用随机抽样的方法,取得所需要的指标,即样本指标。样本指取得所需要的指标,即样本指标。样本指标与总体指标之间存在的差别,称为抽样标与总体指标之间存在的差别,称为抽样误差,其大小通常用均数的标准误误差,其大小通常用均数的标准误(Standard Error)来表示。因此标准误反)来表示。因此标准误反映的是不同样本的平均数之间的变异。而映的是不同样本的平均数之间的变异。而标准差是描述单个样本中观测值的离散程标准差是描述单个样本中观测值的离散程度及衡量平均数抽样误差大小的尺度,标度及衡量平均数抽样误差大小的尺度,标准误与标准差是不同概念。准误与标准差是不同概念。2.2.7 标准误在实际工作中,我们无法直接了解研究对象的总852.2.7 标准误标准误标准误用来衡量抽样误差。标准误越小,标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。标准误一般用是统计推断可靠性的指标。标准误一般用 表示,标准误的大小与标准差成正比,表示,标准误的大小与标准差成正比,而与样本含量而与样本含量n的平分根成反比,标准误的的平分根成反比,标准误的计算公式为:计算公式为:2.2.7 标准误标准误用来衡量抽样误差。标准误越小,表明样862.2.8 变异系数变异系数变异系数(Coefficient of Variance)是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数都相同,可以直接利用标准差来比较。如果单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用变异系数来比较。变异系数记作C.V.,其计算公式为:2.2.8 变异系数变异系数(Coefficient of 872.2.8 变异系数变异系数例 ,2003年4月在海南陵水黎安港同时繁殖了马氏珠母贝三亚与流沙两个品种,养殖在陵水黎安港,2005年3月分别对两个品种随机取样,测量结果分别为6.680.86、6.270.25,单位cm,比较两个品种的变异程度就可以通过计算C.V.,分别为12.86%与10.32%,表明流沙品种的壳高变异程度要比三亚品种的变异程度小,即流沙品种长得更整齐。2.2.8 变异系数例 ,2003年4月在海南陵水黎安港同882.2.9 偏度与峰度偏度(偏度(Skewness)是描述某变量取值分布对称性的统计)是描述某变量取值分布对称性的统计量。在量。在Excel中,偏度可以用中,偏度可以用skew()计算。计算。Skewness=0,分布形态与正态分布偏度相同;,分布形态与正态分布偏度相同;Skewness0,长尾巴拖在右边;,长尾巴拖在右边;Skewness0,比正态分布的高峰更加陡峭,比正态分布的高峰更加陡峭尖顶峰;尖顶峰;Kurtosis R0.01,拒绝零假设,结果检出3.13是可剔除的观是可剔除的观测值测值。3.1 奈尔(Nair)检验法 检验的零假设是“1263.1 奈尔(奈尔(Nair)检验法)检验法 在第2次检验中,数据有24个,最大Rn值=2.901,R0.05=2.8,R0.01=3.49,R0.05Rn值R0.01,拒绝零假设,在24个数据中检出3.49是异是异常的观测值常的观测值。在第3次检验中,数据有23个,最大Rn值=2.27,R0.05=2.784,R0.01=3.256,Rn值10时,如果某个测量值(xi)与其测量结果的算术平均值()之差大于3倍标准偏差s时,即 时,则该测量数据应舍弃。这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。3.2 3s法当样本容量n10时,如果某个测量值(xi)与1283.2 3s法法取3S的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在x3s范围内的概率为99.73,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。3.2 3s法取3S的理由是:根据随机变量的正态分布规律,在1293.2 3s法法 如128个马氏珠母贝总重观测值,用DPS进行3s法异常值检验:3.2 3s法 如128个马氏珠母贝总重观测值,用DPS进行1303.2 3s法法也称Q检验法,适用于样本容量为330的小样本,6SQ插件与DPS可以直接调用菜单进行Dixon检验,6SQ插件要求样本容量为330,而DPS只要求样本容量n3。例 现有一个样本,12.2、11.5、12.8、14.8、22.2、19.2、25.7、12.7、9.8、35、15.3、11.3、21.1、18.5、19.5,用Dixon法寻找异常值。3.2 3s法也称Q检验法,适用于样本容量为330的小样本1313.3.1 6SQ插件插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验狄克逊检验:3.3.1 6SQ插件先选择数据,包括标题,然后调用菜单6S1323.3.1 6SQ插件插件Dixon检验的零假设为无异常值。上侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.3.1 6SQ插件Dixon检验的零假设为无异常值。1333.3.1 6SQ插件插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为最小值9.8不是异常值。双侧检验结果为接受不拒绝零假设,认为无异常值。3.3.1 6SQ插件下侧检验对最小值9.8进行检验,结果为1343.3.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,选择狄克松(Dixon)法:3.3.2 DPS输入数据与选择数据(不选择标题行),选择菜1353.4 格拉布斯格拉布斯(Grubbs)检验法检验法也叫ESD(Extreme Studentized Deviate)法,样本容量要3,一般样本容量在50以上适用该法。本法可以检验一个样本或多个样本中的异常值。数学上已证明,在一组测定值中只有一个异常值的情况下,Grubbs法在各种检验法中是最优的3.4 格拉布斯(Grubbs)检验法也叫ESD(Extr1363.4 格拉布斯格拉布斯(Grubbs)检验法检验法6SQ插件与DPS可以直接调用菜单进行Grubbs检验。6SQ插件要求样本容量为3100,而DPS只要求样本容量n3。依旧用上面的例子。3.4 格拉布斯(Grubbs)检验法6SQ插件与DPS可以1373.4.1 6SQ插件插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验格拉布斯检验:3.4.1 6SQ插件先选择数据,包括标题,然后调用菜单6S1383.4.1 6SQ插件插件Grubbs检验的零假设为无异常值,上侧检验与双侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.4.1 6SQ插件Grubbs检验的零假设为无异常值,上1393.4.1 6SQ插件插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为最小值不是异常值。双侧检验结果拒绝零假设,也检出35为异常值。3.4.1 6SQ插件下侧检验对最小值9.8进行检验,结果为1403.4.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,格拉布斯(Grubbs)法:3.4.2 DPS输入数据与选择数据(不选择标题行),选择菜1413.4 格拉布斯格拉布斯(Grubbs)检验法检验法 若数据中存在2个或2个以上异常值时,采用Grubbs法很可能检验不出异常值,此时Dixon检验判别出最大值是异常值的机会往往比Grubbs检验要大一些,这主要是Dixon检验对n10时采用了避开次大值而检查最大值与第3大值之间的关系3.4 格拉布斯(Grubbs)检验法 若数据中1423.5 箱线图箱线图箱线图(Boxplot)也称箱须图(Box-whisker Plot),它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。箱线图作为描述统计的工具之一,可直观明了地识别数据批中的异常值3.5 箱线图箱线图(Boxplot)也称箱须图(Box-w1433.5.1 SPSS对128个马氏珠母贝总重数据,可以通过SPSS的探索分析得到茎叶图、箱线图,找出异常值。调用菜单分析描述统计探索:3.5.1 SPSS对128个马氏珠母贝总重数据,可以通过S1443.5.1 SPSS在探索对话框中,选择总重进入因变量列表:3.5.1 SPSS在探索对话框中,选择总重进入因变量列表:1453.5.1 SPSS点击绘制,进入绘图对话框,描述性下面勾选茎叶图:3.5.1 SPSS点击绘制,进入绘图对话框,描述性下面勾选1463.5.1 SPSS按继续返回探索对话框,按确定就可以输出结果:结果中就会有茎叶图:3.5.1 SPSS按继续返回探索对话框,按确定就可以输出结1473.5.1 SPSS茎叶图:其中指出了一个异常值(=77)。3.5.1 SPSS茎叶图:其中指出了一个异常值(=77)1483.5.1 SPSS箱线图同样给出了异常值:箱线图表明,第42个观测值(76.77)是异常值。3.5.1 SPSS箱线图同样给出了异常值:箱线图表明,第41493.5.2 Minitab对于128个马氏珠母贝总重观测值,调用菜单统计基本统计量显示描述性统计,弹出对话框,按图形,进入图形对话框,勾选数据箱线图:3.5.2 Minitab对于128个马氏珠母贝总重观测值,1503.5.2 Minitab按确定返回显示描述性统计量对话框,再按确定即可输出结果,箱线图即会弹出:图中*号就是异常值,将鼠标移到*处,即会显示“异常值符号,行42:总重(g)=76.77。3.5.2 Minitab按确定返回显示描述性统计量对话框,1513.5.3 6SQ统计插件统计插件在Excel中选中数据,调用插件菜单6SQ统计基本统计描述统计图形化汇总弹出图形化汇总对话框后,无需修改任何设置,点击确定,就会得到结果,其中就会指出不合格数据有1个,即是76.77;而箱线图中有一个红色点,就是不合格数据,鼠标移到该点就会有显示:3.5.3 6SQ统计插件在Excel中选中数据,调用插件菜1523.5.3 6SQ统计插件统计插件结果:3.5.3 6SQ统计插件结果:1533.5.3 6SQ统计插件统计插件在Excel中选中数据,调用插件菜单6SQ统计基本统计描述统计图形化汇总弹出图形化汇总对话框后,无需修改任何设置,点击确定,就会得到结果,其中就会指出不合格数据有1个,即是76.77;而箱线图中有一个红色点,就是不合格数据,鼠标移到该点就会有显示:3.5.3 6SQ统计插件在Excel中选中数据,调用插件菜1543.5.3 DPS选择数据后,调用菜单数据分析常用图表box图:3.5.3 DPS选择数据后,调用菜单数据分析常用图表b1553.5.3 DPS点击后即会弹出对话框,图中显示,76.77为异常值:3.5.3 DPS点击后即会弹出对话框,图中显示,76.771563.5.3 DPS点击保存图形,可以将箱线图保存到所需目录下;点击右上角的 两次,可以输出结果,结果以新的工作表显示,指出异常数据点在42行:3.5.3 DPS点击保存图形,可以将箱线图保存到所需目录下1573.6 概率图法概率图法当样本容量小于50时,可以用概率图来评估样本的正态性,图中可以显示正态分布以外的异常值。调用菜单图形概率图,跳出对话框,选择单一:3.6 概率图法当样本容量小于50时,可以用概率图来评估样本1583.6 概率图法概率图法点击确定,进入概率图-简单对话框,选择总重进入图形变量:3.6 概率图法点击确定,进入概率图-简单对话框,选择总重进1593.6 概率图法概率图法按确定即可输出结果,弹出总重(g)的概率图,可以看出一个红色的点在正态分布范围之外,鼠标移到该点即会显示该点的位置与值:3.6 概率图法按确定即可输出结果,弹出总重(g)的概率图,1603.7 异常值的处理异常值的处理 存在异常值,会影响我们对样本进行正常统计处理。对于异常值随意地忽略或者删除outliers都不是好的方法。一般有以下三种处理方法:(1)数据转换 数据转换往往有两种方式,即平方根或自然对数。它的思路通俗地来理解就是对于比较大的数值,它压缩的程度比小的数值大,从而缩写数值之间的差距,比如说两个值100和25,本来相差很大,通过去平方根后,一个变成了10,另一个变成了5,两个之间的差距就变小了。3.7 异常值的处理 存在异常值,会影响我们对样1613.7 异常值的处理异常值的处理(2)删除 删除这种做法是最后不得已的做法,只有在这个值发现确实是错误值,而且无法更改的情况下或者这个值大大远离其他数值以致于严重影响统计推断。同时你可以同时报告保留和删除异常值后的结果,看看到底有多大的变化。3.7 异常值的处理(2)删除1623.7 异常值的处理异常值的处理(3)调整 最常见的方法便是非参数检验。例如我们可以用非参检验wilcoxon秩和检验来代替参数检验两样本t检验,这样就可以大大缓解那些异常值如一些极大值或极小值的影响,因为前者wilcoxon秩和检验基于观察值的排序而不是均值会更为可靠。而在统计效率方面,模拟研究显示,非参数检验方法检验出统计学差异的能力仅仅略低于相对应的参数检验方法。3.7 异常值的处理(3)调整163
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!