SPSS离群值与数学变换.ppt

上传人:za****8 文档编号:14448289 上传时间:2020-07-21 格式:PPT 页数:25 大小:870.50KB
返回 下载 相关 举报
SPSS离群值与数学变换.ppt_第1页
第1页 / 共25页
SPSS离群值与数学变换.ppt_第2页
第2页 / 共25页
SPSS离群值与数学变换.ppt_第3页
第3页 / 共25页
点击查看更多>>
资源描述
实用生物统计分析(六),离群值、数学变换及其他,安徽大学生命科学学院,数据集合中与其他数据有明显偏离的取值 数值上异常偏大或偏小,或根本不可能存在 来源: - 读数、录入的错误 - 真实存在的极端现象 离群值对统计分析的影响 造成参数估计的偏离 (means, SD) 造成对统计分布的错判 影响对统计方法的选择和结果解释(方差齐性),离群值 (outliers),依据常识和科学原理判断谬误 直接剔除 观察个体值偏离均值程度进行推断 箱式图观察 Z值观察 统计检验方法 Grubbs test Dixons Q test Hubers method,离群值的认定,箱式图推断离群值,分别以四分位数(Q3, Q1)为箱型方框的上、下边,以不超出区间Q1-1.5*IQR,Q3+1.5*IQR的最大、最小观测值为线的上、下端,超出该区域的数据视为离群值。 其中:IQR(interquartile range)= Q3-Q1 SPSS中:Graphs Interactive boxplot 注:SPSS还定义了所谓极端值,即超出区间Q1-3*IQR,Q3+3*IQR范围的数值。,箱式图推断离群值,数据集:2,57,60,60,65,68,70,71,72,74,74,76,77,98,150,220,箱式图推断离群值,离群值,离群(极端)值,离群(极端)值,离群(极端)值,Z值推断离群值,以Z值区间(-3.0, +3.0)为标准,超过者为可能的离群值。这相当于以平均值为中心的99.9%置信区间。 SPSS中:Analyze Descriptive statistics Descriptives,Z值推断离群值,勾选,将标准化变量Z值视为变量存入数据列表中,Z值推断离群值,可以看到,哪怕是220其Z值也只为2.969,未过此标准(3)。与箱式图相比,Z值法更为保守。原因与算术平均值的特点有关。,Grubbs test推断离群值,在线检验:,220的Z值=2.972.59 ,为离群值(alpha=0.05)。,离群值的判定,Z值法最保守, 原因是Z值本身就受极端值影响较大; 上述方法都不是硬性规定,只为参考; 对于离群值的判定要慎重,宁可保守,不可贸然删除,对较小数据集(比如100)尤其如此; 不能为追求显著性结论而人为主观地删除某些个离群值,这有违科学道德。,数学变换,参数性统计分析方法通常对数据的正态性、方差齐性、变量间的线性等有着明确或潜在的要求。若违背了这些前提,可能降低方法的可靠性,甚至导致其完全失效。 当数据不满足这些条件,可以尝试通过数学变换加以改善,以达到顺利使用这些统计方法的目的。,数学变换,数学变换的使用存在争议,实践中也会给结果的解释带来困难。 多数参数性方法是相当稳健的,即:对正态性、方差齐性的稍许偏离并不妨碍正常使用,可能因此损失的检验效力对常规分析仍可接受,尤其在样本量较大(n30)的情况下。 除非特别必要,慎用数学变换。,数学变换,存在下述情况可尝试数学变换: 数据极度偏态分布:J型分布或严重左、右偏 组间均值与标准差之间存在中度至高度的相关性 必须使用多元统计方法,但正态性和线性不满足 样本含量少(n30)且正态性、齐性不满足,数学变换,常见类型 对数变换 平方根变换 反正弦变换 倒数变换 或上述变换的组合,适合极度偏态分布,组间呈数量级变化,适合中度偏态分布,有泊松分布特征,适合偏大或偏小的百分数资料,适合J型分布资料,数学变换举例,除草剂试验,响应变量为单位面积杂草数量,均值大,标准差也大,似乎存在相关关系,数学变换举例,均值与标准差相关系数达到0.825,散点图也看出相关趋势,数学变换举例,若直接对原始数据进行annova分析,未通过方差齐性检验,说明各组间方差差异不能忽略。,数学变换举例,对杂草数量作频数分析,可见其分布明显右偏(偏斜度curtosis=3.2490)。考虑到单位面积杂草数最有可能服从泊松分布(=2),最适合平方根变换,数学变换举例,对响应变量取平方根,Transform Compute variable,数学变换举例,对响应变量取平方根,TransformCompute variable,转换后的相关系数0.693,有所改善,数学变换举例,做过平方根变换后,再作频数分析,可见其分布有了较大改善,更接近正态(偏斜度curtosis=-0.044)。,数学变换举例,转换后的方差齐性达到要求,可以进行单因素方差分析,样本含量的确定,理论上讲,样本含量当然越多越好;但究竟达到什么水平就足够好,这也是试验设计中关心的问题之一。 在数学上要回答这个问题相当繁难,这里只对常见分析提出简略的计算方法: 1)两均值的比较 2)两百分数的比较 3)方差分析,样本含量的确定,4)获得一个有意义的相关系数r 5)多元回归:所有自变量(包括哑变量)个数10 6) 因子分析:样本指标比至少达到5:1,最好能接近10:1,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!