数学建模中的统计方法介绍ppt课件

上传人:29 文档编号:242849356 上传时间:2024-09-08 格式:PPT 页数:428 大小:5.61MB
返回 下载 相关 举报
数学建模中的统计方法介绍ppt课件_第1页
第1页 / 共428页
数学建模中的统计方法介绍ppt课件_第2页
第2页 / 共428页
数学建模中的统计方法介绍ppt课件_第3页
第3页 / 共428页
点击查看更多>>
资源描述
同济大学 数学系,数学建模中的统计方法,同济大学 数学系 数学建模中的统计方法,同济大学 数学系,数学建模中的统计方法介绍,数据预处理与统计软件的选择,显著性检验,拟合优度检验和独立性检验,非参数检验,方差分析,回归分析,主成分分析,因子分析,聚类分析,判别分析,同济大学 数学系 数学建模中的统计方法介绍数据预处理与统,数据预处理,为什么要预处理数据,描述性数据汇总,数据清理,数据集成和变换,数据归约,数据离散化和概念分层产生,3,同济大学 数学系,数据预处理为什么要预处理数据3同济大学 数学系,4,数据预处理的原因,正确性(,Correctness),一致性(,Consistency),完整性(,Completeness),可靠性(,Reliability),数据质量的含义,同济大学 数学系,4数据预处理的原因 正确性(Correctness)数据质量,现实世界的数据,不完整的,缺少属性值或某些感兴趣的属性,或仅包含聚集数据。,含噪声的,包含错误或存在偏离期望的离群值。,不一致的,采用的编码或表示不同,如属性名称不同,冗余的,如属性之间可以相互导出,同济大学 数学系,现实世界的数据不完整的同济大学 数学系,6,数据错误的不可避免性,数据输入和获得过程数据错误,数据集成所表现出来的错误,数据传输过程所引入的错误,据统计有错误的数据占总数据的5%左右,同济大学 数学系,6数据错误的不可避免性数据输入和获得过程数据错误同济大学,数据错误的危害性,高昂的操作费用,糟糕的决策制定,组织的不信任,分散管理的注意力,同济大学 数学系,数据错误的危害性高昂的操作费用同济大学 数学系,8,数据预处理的形式,数据清理,补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致,数据集成,集成多个数据库、数据立方或文件,数据变换,规范化和聚集,数据归约,简化数据、但产生同样或相似的结果,同济大学 数学系,8数据预处理的形式数据清理同济大学 数学系,数据预处理的形式,同济大学 数学系,数据预处理的形式同济大学 数学系,数据预处理的意义,现实世界的数据一般是脏的、不完整的和不一致的。,数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。,高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。,检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报,。,同济大学 数学系,数据预处理的意义现实世界的数据一般是脏的、不完整的和不一致的,描述性数据汇总,获得数据的总体印象对于成功的数据预处理是至关重要的。,描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。,动机:更好的理解数据。,主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。,同济大学 数学系,描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重,度量数据的中心趋势,算数平均值,最常用,分布式度量,可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。,求和、计数、最小、最大,同济大学 数学系,度量数据的中心趋势算数平均值同济大学 数学系,度量数据的中心趋势,代数度量,可以通过应用一个代数函数于一个或多个分布度量计算的度量。,均值、中列数,整体度量,必须对整个数据集计算的度量。,中位数、众数,同济大学 数学系,度量数据的中心趋势代数度量同济大学 数学系,代数度量,mean(),:,加权平均:,截断均值:,去掉高、低极端值得到的均值。,减小极端值对均值的影响。,中列数(,midrange,):,(max+min)/2,同济大学 数学系,代数度量mean():同济大学 数学系,整体度量,中位数(,median,):,适用于倾斜的数据。近似值计算如下:,设,N,个数值排序,若,N,为奇数,中位数是有序集的中间值;若,N,为偶数,中位数是中间两个值的平均值。,例如:,1,3,5,7,中位数,4,1,3,5,6,7,中位数,5,同济大学 数学系,整体度量中位数(median):适用于倾斜的数据。近似值计算,整体度量,众数,(mode),:集合中,出现频率最高的值。,单峰、多峰(双峰、三峰,)、无众数,对于适度倾斜的单峰频率曲线,有如下的经验关系:,同济大学 数学系,整体度量众数(mode):集合中出现频率最高的值。同济大学,17,中位数、均值和众数,同济大学 数学系,17中位数、均值和众数同济大学 数学系,18,极差,最大值与最小值之差,四分位数,中位数是第,50,个百分位数,是第,2,个四分位数,第,1,个是第,25,个百分位数,,Q,1,中间四分位数极差,IQR = Q,3,Q,1,离群点,outlier,与数据的一般行为或模型不一致的数据对象,盒图,方差、标准差,反映了每个数与均值相比平均相差的数值,度量数据的离散程度,同济大学 数学系,18极差度量数据的离散程度同济大学 数学系,度量数据的离散程度,盒图,boxplot,也称箱线图,从下到上五条线分别表示最小值、下四分位数,Q,1,、中位数、上四分位数,Q,3,和最大值,盒的长度等于,IRQ,中位数用盒内的横线表示,盒外的两条线(胡须) 分别延伸到最小和最大观测值。,同济大学 数学系,度量数据的离散程度盒图boxplot,也称箱线图同济大学,盒形图,同济大学 数学系,盒形图同济大学 数学系,盒图的功能,1.,直观明了地识别数据集中的离群点,2.,判断数据集的偏态和尾重,3.,比较几批数据的形状,同济大学 数学系,盒图的功能同济大学 数学系,同济大学 数学系,同济大学 数学系,23,直方图、,分位数图、分位数,-,分位数图(,q-q,图),散布图、散布图矩阵,局部回归(,Loess,)曲线,基本描述数据汇总的图形显示,同济大学 数学系,23直方图、基本描述数据汇总的图形显示同济大学 数学系,直方图,Histogram,概括给定属性分布的图形方法,每个矩形等宽,同济大学 数学系,直方图 Histogram概括给定属性分布的图形方法同济大,分位数图,Quantile Plot,观察单变量数据分布的简单有效方法,同济大学 数学系,分位数图 Quantile Plot观察单变量数据分布的简,散布图,scatter plot,直接观察是否存在簇,(cluster),,离群点等,每个点对应一个坐标对,同济大学 数学系,散布图scatter plot直接观察是否存在簇(clust,局部回归(,Loess,)曲线,添加一条光滑曲线到散布图,同济大学 数学系,局部回归(Loess)曲线添加一条光滑曲线到散布图同济大学,数据清理,现实世界的数据一般是不完整的、有噪声的和不一致的。,数据清理的任务:,填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。,同济大学 数学系,数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。同,29,忽略元组,人工填写空缺值,使用一个全局常量填充空缺值,使用属性的平均值填充空缺值,使用与给定元组属同一类的所有样本的平均值,使用最可能的值填充空缺值,缺失值,同济大学 数学系,29忽略元组缺失值 同济大学 数学系,30,分箱:,通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。,回归:,用一个函数(回归函数)拟合数据来光滑数据。,聚类:,将类似的值聚集为簇。,其他:如数据归约、离散化和概念分层。,噪声数据,同济大学 数学系,30分箱:噪声数据同济大学 数学系,31,分箱:,通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。,划分:等频、等宽,光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据),噪声数据,同济大学 数学系,31分箱:噪声数据同济大学 数学系,分箱法光滑数据,Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34,* Partition into equal-frequency (equi-depth) bins:,- Bin 1: 4, 8, 9, 15,- Bin 2: 21, 21, 24, 25,- Bin 3: 26, 28, 29, 34,* Smoothing by bin means:,- Bin 1: 9, 9, 9, 9,- Bin 2: 23, 23, 23, 23,- Bin 3: 29, 29, 29, 29,* Smoothing by bin boundaries:,- Bin 1: 4, 4, 4, 15,- Bin 2: 21, 21, 25, 25,- Bin 3: 26, 26, 26, 34,同济大学 数学系,分箱法光滑数据Sorted data for price (,回归:用一个函数(回归函数)拟合数据来光滑数据。,线性回归,多元线性回归,聚类:将类似的值聚集为簇。检测离群点,同济大学 数学系,回归:用一个函数(回归函数)拟合数据来光滑数据。同济大学,回归,Regression,x,y,y = x + 1,X1,Y1,Y1,同济大学 数学系,回归Regressionxyy = x + 1X1Y1Y1,聚类,Cluster Analysis,同济大学 数学系,聚类Cluster Analysis同济大学 数学系,数据清理作为一个过程,偏差检测,使用“元数据”,编码使用的不一致、数据表示的不一致、字段过载等,一些规则:唯一性规则、连续性规则、空值规则。,商业工具:数据清洗工具、数据审计工具,数据变换(纠正偏差),数据迁移工具,提取,/,变换,/,载入(,ETL,)工具,加强交互性,数据清理工具:,Potters Wheel,开发数据变换操作规范说明语言,同济大学 数学系,数据清理作为一个过程偏差检测同济大学 数学系,数据集成和变换,数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。,源数据可能包括多个数据库,数据立方体或一般文件。,数据变换将数据转换或统一成适合于挖掘的形式。,同济大学 数学系,数据集成和变换数据集成合并多个数据源中的数据,存放在一个一致,38,实体识别,元数据可帮助避免错误,属性冗余,相关分析,数据重复(元组冗余),数据值冲突的检测与处理,表示、比例或编码不同,数据集成,同济大学 数学系,38实体识别数据集成同济大学 数学系,39,平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。,聚集,Aggregation,:对数据进行汇总或聚集。,数据泛化(概化):使用概念分层,用高层概念替换低层或“原始”数据。,规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小,-,最大、,Z-Score,、按小数定标规范化。,属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。,数据变换,同济大学 数学系,39平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。数据变,规范化,1,)最小,-,最大规范化:将原始数据,v,经线性变换,映射到区间,new_min,A, new_max,A,例如:,income,的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若,income,的值6800规范后为,: (,6800-2000)/(9000-2000)*(1-0)+0=0,.686,同济大学 数学系,规范化1)最小-最大规范化:将原始数据v经线性变换,映射到区,存在问题:,若存在离群点,可能影响规范化,若在规范化后添加新的数据,当新数据落在原数据的区间,minA, maxA,之外,将导致“越界”错误。,同济大学 数学系,存在问题:同济大学 数学系,规范化,2,),z-score,规范化(零均值规范化):属性,A,的值基于,A,的平均值和标准差规范化。,对离群点不敏感,同济大学 数学系,规范化2) z-score规范化(零均值规范化):属性A的,数据归约,Data Reduction,对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。,对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果。,同济大学 数学系,数据归约 Data Reduction对海量数据进行复杂的数,数据归约,数据归约策略:,(,1,),数据立方体聚集:,对数据立方体做聚集操作,(,2,),属性子集选择:,检测并删除不相关、弱相关或冗余的属性和维。,(,3,),维度归约:,删除不重要的属性,(,4,),数值归约:,用规模较小的数据表示、替换或估计原始数据,(,5,)离散化和概念分层,(,concept hierarchy,),产生,属性的原始数值用区间值或较高层的概念替换,同济大学 数学系,数据归约数据归约策略:同济大学 数学系,数据立方体聚集,数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。,如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如,sum(),等。,同济大学 数学系,数据立方体聚集数据立方体存储多维聚集信息,提供对预计算的汇总,同济大学 数学系,同济大学 数学系,同济大学 数学系,同济大学 数学系,属性子集选择,通过删除不相关或冗余的属性(或维)减小数据集。,其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。,通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法:从局部最优到全局最优。,逐步向前选择,逐步向后删除,向前选择和向后删除的结合,决策树归纳,同济大学 数学系,属性子集选择通过删除不相关或冗余的属性(或维)减小数据集。同,维度归约,维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。分为无损和有损两种。,主要方法:,串压缩:无损,但只允许有限的数据操作。,小波变换(,DWT,):有损,适合高维数据。,主成分分析(,PCA,):有损,能更好地处理稀疏数据。,同济大学 数学系,维度归约维度归约使用数据编码或变换,以便得到原数据的归约或“,数值归约,通过选择替代的、“较小的”数据表示形式来减少数据量。,可以分为参数方法和非参数方法。,参数方法:回归(,regression,)和对数线性模型,非参数方法:直方图、聚类、抽样,同济大学 数学系,数值归约通过选择替代的、“较小的”数据表示形式来减少数据量。,抽 样,用数据的小得多的随机样本(子集)不是大型数据集。,抽样方法,s,个样本无放回简单随机抽样(,SRSWOR,),s,个样本有放回简单随机抽样(,SRSWR,),聚类抽样,分层抽样,同济大学 数学系,抽 样用数据的小得多的随机样本(子集)不是大型数据集。同济,数据离散化和概念分层产生,数据离散化技术用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。,可以对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作,概念分层,。,概念分层,(,concept hierarchy,),用于归约数据:用较高层的概念替换较低层的概念。,同济大学 数学系,数据离散化和概念分层产生数据离散化技术用少数区间标记替换连续,概念分层,(-$400 -$5,000),(0 - $1,000),(0 -,$200),($200 -,$400),($400 -,$600),($600 -,$800),($800 -,$1,000),($2,000 - $5, 000),($2,000 -,$3,000),($3,000 -,$4,000),($4,000 -,$5,000),($1,000 - $2, 000),($1,000 -,$1,200),($1,200 -,$1,400),($1,400 -,$1,600),($1,600 -,$1,800),($1,800 -,$2,000),同济大学 数学系,概念分层(-$400 -$5,000)(0 - $1,000,概念分层,country,province_or_ state,city,street,15 distinct values,365 distinct values,3567 distinct values,674,339 distinct values,同济大学 数学系,概念分层countryprovince_or_ statec,统计软件的选择,Sas,R,Spss,Matlab,Excel,同济大学 数学系,统计软件的选择Sas同济大学 数学系,均数差异显著性检验,第二节 百分率资料的假设检验,第一节 小样本均数的假设检验,同济大学 数学系,均数差异显著性检验第二节 百分率资料的假设检验 第一节 小,认识样本均数、率的假设检验,一、单个平均数的假设检验,二、两个平均数的假设检验,三、多个平均数的假设检验,二,.,两个样本百分率差异的假设检验,一,.,单个样本百分率的假设检验,样本均数假设检验,样本百分率的假设检验,同济大学 数学系,认识样本均数、率的假设检验 一、单个平均数的假设检验二、两个,【,例,4-2】,某屠宰场收购了一批商品猪,一位有经验的收购人员估计这批猪的平均体重为,100 kg,,现随机抽测,10,头猪进行称重,得体重数据如下:,115,,,98,,,105,,,95,,,90,,,110,,,104,,,108,,,92,,,118,(,kg,),试检验此收购人员的估计是否正确?,【,例,4-1】,测定了某品种,37,头犊牛,100g,血液中总蛋白的含量,其平均数为,4.263g,;该品种成年母牛,100g,血液中总蛋白含量为,7.570g,,标准差为,1.001,。问该品种犊牛和成年母牛血液中总蛋白含量是否存在显著差异?,1,、当总体方差,2,已知,2,、当总体方差,2,未知,注:大样本资料相当于总体方差,2,已知,可用样本标准差代替总体标准差,同济大学 数学系,【例4-2】 某屠宰场收购了一批商品猪,一位有经验的收购人员,两个平均数的假设检验,1,、非配对数据平均数的比较,【,例,4.4】,某种猪场分别测定长白后备种猪和蓝塘后备种猪,90kg,时的背膘厚度,测定结果如下表所示。设两品种后备种猪,90kg,时的背膘厚度值服从正态分布,且方差相等,问该两品种后备种猪,90kg,时的背膘厚度有无显著差异?,两样本所属总体方差 为已知,【,例,4-3】,测定了,31,头犊牛和,48,头成年母牛血液中血糖的含量,得犊牛的平均血糖含量为,81.23,,标准差为,15.64,。成年母牛的平均血糖含量为,70.43,,标准差为,12.07,。犊牛和成年母牛间血糖含量有无显著差异?,两样本所属总体方差 未知但相等,两样本所属总体方差 未知也不相等 ,即方差不齐,两个平均数的假设检验1 、非配对数据平均数的比较【例4.4】,两个平均数的假设检验,【,例,4.5】,用家兔,10,只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见下表。设体温服从正态分布,问注射前后体温有无显著差异?,2,、配对数据平均数的比较,在进行统计检验时,可将对子内两个个体间的差数(,d,)作为一个新的样本来分析,从而将两个总体均数的比较假设检验转变为单个总体均数的检验,而不必考虑两样本所在总体方差 是否相等。,同济大学 数学系,两个平均数的假设检验【例4.5】 用家兔10只试验某批注射液,多个平均数的假设检验,【,例,4-6】,某地乳牛的隐性乳房炎患病率为 ,该地某牛场对,560,头乳牛进行检测,其中,148,头牛检测结果为阳性,问该牛场的隐性乳房炎是否与该地平均患病率相同。,方差分析,单个样本百分率的假设检验,两个样本百分率差异的假设检验,【,例,4-7】,检验鸡痢疾菌苗对鸡白痢的免疫效果。试验组接种了,345,羽鸡,结果有,51,羽发生鸡白痢,对照组(未注射鸡痢疾菌苗组),420,羽鸡有,79,羽发生了鸡白痢。问痢疾菌苗对鸡白痢是否有免疫效果?,多个平均数的假设检验【例4-6】 某地乳牛的隐性乳房炎患病率,小样本均数的假设检验,当总体方差,2,已知时,可以根据标准正态离差,计算出样本平均数在某一区间内出现的概率值,用,u,值进行的统计假设检验就称为,u-,检验(,u,-test,),当总体方差,2,未知,而样本容量又较小时,样本方差,S,2,估计总体方差,2,,其统计量:,不再服从标准正态分布,而是,t,-,分布,用,t,值进行的统计假设检验就称为,t-,检验(,t,-test,),小样本资料的假设检验一般采用,t -,检验,大样本资料的假设检验一般采用,u -,检验,同济大学 数学系,小样本均数的假设检验 当总体方差2已知时,可以根据标准正态,在实际工作中我们往往需要检验一个样本平均数与已知的总体平均数是否有显著差异,即检验该样本是否来自某一总体。已知的总体平均数一般为一些公认的理论数值、经验数值或期望数值。如畜禽正常生理指标、怀孕期、家禽出雏日龄以及生产性能指标等,都可以用样本平均数与之比较,检验差异显著性。,单个样本平均数的假设检验,单个样本平均数的假设检验就是检验某一样本是否来自于某一特定总体,检验样本所属总体的总体平均数是否等于某一特定总体的总体平均数,同济大学 数学系,在实际工作中我们往往需要检验一个样本平均数与,检验的基本步骤,同济大学 数学系,检验的基本步骤同济大学 数学系,同济大学 数学系,同济大学 数学系,同济大学 数学系,同济大学 数学系,例,:,测定了某品种,37,头犊牛,100g,血液中总蛋白的含量,其平均数为,4.263g,;该品种成年母牛,100g,血液中总蛋白含量为,7.570g,,标准差为,1.001,。问该品种犊牛和成年母牛血液中总蛋白含量是否存在显著差异?,(,1,),提出假设,H,0,:,=7.570g,H,A,:,7.570g,(,2,),计算,值,1,、当总体方差,2,已知,犊牛和成年母牛间血液中总蛋白含量无显著差异,犊牛和成年母牛间血液中总蛋白含量存在显著差异,同济大学 数学系,例: 测定了某品种37头犊牛100g血液中总蛋白的含量,其平,(,3,),查表、推断,P,0.01,说明犊牛和成年母牛间血液中总蛋白含量存在极显著差异。,差异显著,否定无效假设,H,0,,接受备择假设,H,A,总体标准误:,计算公式:,同济大学 数学系,(3)查表、推断P0.01 说明犊牛和成年母牛间血液中总蛋,例:某鸡场饲养了一批肉仔鸡,,42,日龄时随机抽取了,16,只进行称重,体重资料如下:,1820,,,1690,,,1790,,,1770,,,1810,,,1740,,,1760,,,1730,,,1790,,,1810,,,1780,,,1820,,,1710,,,1790,,,1830,,,1780,,一位有经验的收购人员估计这批商品肉仔鸡,42,日龄体重均数为,1800g,。试检验此收购人员的估计是否正确?,(,1,),提出假设,H,0,:,=1800g,H,A,:,1800g,(,2,),计算,t,值,2,、当总体方差,2,未知,同济大学 数学系,例:某鸡场饲养了一批肉仔鸡,42日龄时随机抽取了16只进行称,样本平均数:,样本标准差:,样本标准误:,(,3,),查表、推断,df,=,n,-,1,= 16-1 = 15,t,0.05,15,= 2.131,t,0.01,15,=2.947,|,t,|=2.319,t,0.05,15,P,0.05,说明这批肉仔鸡平均体重与估计值之间“差异显著”,即该收购人员的估计不正确。,差异显著,否定无效假设,H,0,,接受备择假设,H,A,同济大学 数学系,样本平均数: 样本标准差: 样本标准误: (3)查表、推断d,例:三秋龄上市螃蟹体重一般为,160g,,今从洪泽湖捕获一批三秋龄螃蟹,随机抽取其中,16,只称重,得体重分别为:,153,,,160,,,150,,,154,,,169,,,159,,,153,,,153,,,143,,,152,,,161,,,162,,,158,,,148,,,157,,,167,,问这批螃蟹长势是否正常?,同济大学 数学系,例:三秋龄上市螃蟹体重一般为160g,今从洪泽湖捕获一批三秋,两个样本平均数差异的假设检验就是根据两个样本平均数间的差值来推断这两个样本所属总体是否有显著差异。,在进行两个样本的比较试验时,一般有两种试验设计方法:,配对设计,两个样本的试验单位(如试验动物)是配对的(即配对试验),所得到的样本观测值也是配对的(即配对数据),在进行试验设计时,把条件相似的两个供试动物配成一对,每一个对子内的,2,个个体在遗传基础、体况、性别等各个方面尽可能地相似,而对子和对子之间可适当有所不同。每个对子内随机挑选其中一个个体进入对照组,另外一个个体进入处理组,这样的试验称之为配对试验。,配对试验结束后得到的试验数据就是配对数据。,二,.,两个样本平均数差异的假设检验,同济大学 数学系,两个样本平均数差异的假设检验就是根据两个样本平均数间的差值来,配对试验的方法很灵活:,每个对子可以是一对动物,每个对子可以是同一个个体在不同时期进行不同的试验处理,每个对子可以是同一个个体用不同的方法进行的分析,非配对设计,两个样本的试验单位是相互独立的、非配对的(非配对试验),所得到的样本观测值也是非配对的(非配对数据)。,非配对设计,3,个特征:,随机抽样,随机分组,随机处理,同济大学 数学系,配对试验的方法很灵活: 每个对子可以是一对动物 每个,同济大学 数学系,同济大学 数学系,非配对数据平均数的比较,样本平均数差数的抽样分布:,S,2,称为两样本的合并均方,均数差异标准误:,同济大学 数学系,非配对数据平均数的比较样本平均数差数的抽样分布:S2称为两样,当,n,1,= n,2,= n,时:,如果两样本均方已知,则合并均方为:,同济大学 数学系,当n1= n2= n时: 如果两样本均方已知,则合并均方为:,当,n,1,= n,2,= n,时,如果对样本平均数的差数进行标准化,可得:,在无效假设成立的前提下,,1,=,2,或,1,-,2,= 0,下一张,首 页,退 出,上一张,总体,同济大学 数学系,当n1= n2= n时 如果对样本平均数的差数进行标准化,可,检验的基本步骤,同济大学 数学系,检验的基本步骤同济大学 数学系,其中,同济大学 数学系,其中同济大学 数学系,下一张,首 页,退 出,上一张,同济大学 数学系,下一张 首 页 退 出 上一张 同济大学 数学系,例,:,发酵法生产兽用青霉素的两个工厂,其产品收率的方差分别为 。测得甲工厂,25,个数据,,g/L,,乙工厂,30,个数据,,g/L,,问这两个工厂兽用青霉素的收率是否有显著差异?,(,1,),提出假设,(,2,),计算,值,两样本所属总体方差 为已知,总体差异标准误:,计算公式:,同济大学 数学系,例:发酵法生产兽用青霉素的两个工厂,其产品收率的方差分别为,(,3,),查表、推断,说明实得差异由抽样误差造成,应认为两工厂兽用青霉素的收率无显著差异。,差异不显著,接受备择假设,H,0,附:,同济大学 数学系,(3)查表、推断说明实得差异由抽样误差造成,应认为两工厂兽用,例,随机抽取了长太仔猪、太湖仔猪若干头,进行饲养试验,得净增重数据,(,单位:,),如下,比较两种仔猪的生长快慢(已知两总体方差相等)。,(,1,),提出假设,H,0,:,1,=,2,H,A,:,1,2,(,2,),计算,t,值,计算一级数据:,两样本所属总体方差 未知但相等,同济大学 数学系,例 随机抽取了长太仔猪、太湖仔猪若干头,进行饲养试验,得净,同济大学 数学系,同济大学 数学系,(,3,),查表、推断,t,0.05,16,=2.120,t,0.01,16,=2.921,|,t,|=2.20,t,0.05,16,P,0.05,差异显著,否定无效假设,接受备择假设,长太杂交仔猪的生长速度与纯种太湖仔猪的生长速度相比“差异显著”,长太杂交仔猪的生长速度显著快于纯种太湖仔猪,下一张,首 页,退 出,上一张,同济大学 数学系,(3)查表、推断t0.05,16=2.120 t0.01,1,比较同一规格同一水体条件下生长的两种鲫鱼的增重情况,从鱼塘中随机捕获若干尾,饲养若干天后,称重得如下数据,试问两种鲫鱼的增重是否存在差异?,同济大学 数学系,比较同一规格同一水体条件下生长的两种鲫鱼的增重情况,从鱼塘中,在进行配对数据平均数的比较时,首先假设两个样本所属总体平均数的差值为,0,,即:,设一个对子内两个个体的观测值分别为,x,1,、,x,2,,,则两个观测值的差:,n,个,d,值的平均数为:,差数平均数的标准差,即配对数据的差异标准误为:,配对数据平均数的比较,样本标准误,同济大学 数学系,在进行配对数据平均数的比较时,首先假设两个样本所属总体平均数,如果对配对数据样本平均数差数的平均数进行标准化,可得:,在无效假设成立的前提下,即:,n,为对子数,例,:,对正常健康成人测定血糖含量,随机抽取,10,名成年健康男子,早晨空腹时抽一次血,早餐后两小时抽一次血,检验血糖浓度的变化状况,测定结果如下,试比较两次抽血的测定结果有无显著差异?,同济大学 数学系,如果对配对数据样本平均数差数的平均数进行标准化,可得: 在无,检验的基本步骤,同济大学 数学系,检验的基本步骤同济大学 数学系,同济大学 数学系,同济大学 数学系,(,1,),提出假设,H,0,:,H,A,:,(,2,),计算,t,值,计算出对子内,2,个观测值间的差值:,同济大学 数学系,(1)提出假设 H0:HA:(2)计算 t 值 计算出对子内,(,3,),查表、推断,t,0.05,9,=2.262,,,t,0.01,9,=3.250,|,t,|=7.18,t,0.01,9,P,0.01,差异极显著,否定无效假设,接受备择假设,饭后血糖浓度极显著地升高了,现用藻类来代替鱼粉添加到饲料中进行试验,以验证藻类的作用,选择全同胞的仔鸡(同性别,同体况)作一对,其中一只喂添加藻类的饲料(设为处理),另一只喂添加鱼粉的常规饲料(设为对照),共选了,9,对仔鸡做试验,试验期为一个月,试验结束后得增重数据如下,试比较两种饲料的饲喂效果有无显著差异。,同济大学 数学系,(3)查表、推断t0.05,9=2.262,t0.01,9=,百分率资料的假设检验,当百分率,p,或,1-p,不太小,且,np,、,n,(,1-p,)不小于,5,时,百分率资料的分布接近于正态分布,对于服从二项分布的百分率资料,当,n,充分大时,可以用,u-,检验来进行分析,在动物生产实践和科学研究中,有很多资料属于二项分布类型,对于这类资料一般可用百分率来表示,同济大学 数学系,百分率资料的假设检验 当百分率p或1-p不太小,且np、n(,单个样本百分率的假设检验,单个样本百分率的假设检验就是检验某一样本百分率所属总体百分率与理论百分率是否一致的假设检验方法,即某一样本百分率是否符合总体百分率。,样本百分率:,所属总体百分率:,理论百分率:,无效假设,H,0,:,备择假设,H,A,:,样本百分率标准误:,对单个样本百分率进行标准化,可得:,百分率的标准误,同济大学 数学系,单个样本百分率的假设检验 单个样本百分率的假设检验就是检验某,例,在正常情况下,鹅蛋的受精率一般为,0.65,,今某鹅场改善饲养管理条件和公母鹅配比,孵化时检测受精率,结果,1000,枚鹅蛋中有,681,枚受精,问本次改善工作是否取得了成效?,(,1,),提出假设,(,2,),计算,u,值,H,0,:,P = 0.65,H,A,:,P0.65,样本百分率:,标准误:,同济大学 数学系,例 在正常情况下,鹅蛋的受精率一般为0.65,今某鹅场改善,(,3,),查表、推断,u,0.05,=1.96,,,u,0.01,=2.58,|,u,| = 2.07,u,0.05,,,P,0.05,差异显著,否定无效假设,接受备择假设,即本次改善工作使得鹅蛋的受精率显著提高了。,同济大学 数学系,(3)查表、推断u0.05=1.96,u0.01=2.58,2.,两个样本百分率差异的假设检验,两样本百分率差异的显著性检验就是检验两个样本百分率所属总体百分率是否一致的一种假设检验方法,或者说两样本是否来自同一总体的一种检验方法。,设两个样本容量分别为,n,1,和,n,2,,两样本发生某一事件的次数分别为,x,1,、,x,2,,则两样本百分率分别为:,无效假设,H,0,:,备择假设,H,A,:,样本百分率差异标准误,同济大学 数学系,2. 两个样本百分率差异的假设检验 两样本百分率差异的显著性,例:试验某种新药对螨虫的效果,常规药施于,860,只虫体,死亡,585,只,该新药施于,920,只虫体,死亡,672,只,问新药的疗效是否好于常规药?,(,1,),提出假设,H,0,:,P,1,= P,2,H,A,:,P,1,P,2,(,2,),计算,u,值,新药的杀灭率:,常规药的杀灭率,:,同济大学 数学系,例:试验某种新药对螨虫的效果,常规药施于860只虫体,死亡5,(,3,),查表、推断,u,0.05,=1.96,,,u,0.01,=2.58,|,u,| = 2.31,u,0.05,P,0.05,差异显著,否定无效假设,接受备择假设,即新药的杀虫效果显著好于常规药。,同济大学 数学系,(3)查表、推断u0.05=1.96,u0.01=2.58,试验用抗菌药处理鱼苗能否提高鱼苗的成活率,处理组(施用抗菌素)试养了,382,尾,成活,309,尾,对照组(未施用抗菌素)试养了,278,尾,成活了,204,尾,试问水体中施用抗菌素能否提高鱼苗的成活率?,同济大学 数学系,试验用抗菌药处理鱼苗能否提高鱼苗的成活率,处理组(施用抗菌素,小样本百分率假设检验的校正,当百分率资料的样本容量较大时,资料服从正态分布,可以用,u,-,检验来进行分析,当百分率样本容量较小时(如,n25,,且,np,2,,拒绝,H,0,;若,2,2,,接受,H,0,同济大学 数学系,拟合优度检验(比例检验)(goodness of fit,拟合优度检验,(,比例检验),例:,为了提高市场占有率,,A,公司和,B,公司同时开展了广告宣传。在广告宣传战之前,,A,公司的市场占有率为,45%,,,B,公司的市场占有率为,40%,,其他公司的市场占有率为,15%,。为了了解广告战之后,A,、,B,和其他公司的市场占有率是否发生变化,随机抽取了,200,名消费者,其中,102,人表示准备购买,A,公司产品,,82,人表示准备购买,B,公司产品,另外,16,人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化,( 0.05),同济大学 数学系,拟合优度检验(比例检验)例:为了提高市场占有率,A公司和,2,检验统计量的计算过程,同济大学 数学系,2检验统计量的计算过程同济大学 数学系,拟合优度检验,H0,:,1,=0.45,2,=0.4,3,=,0.15,H1,:,原假设中至少有一个不成立,= 0.0,5,df,=,(3-1)= 2,临界值,(s):,统计量,:,在,= 0.05,的水平上拒绝,H,0,可以认为广告后各公司产品市场占有率发生显著变化,决策,:,结论,:,2,0,8.18,5.99,=,0.05,同济大学 数学系,拟合优度检验H0: 1=0.45 2=0.4 3= 0,拟合优度检验,-,泊松分布,x,=0,1,2,3,4,同济大学 数学系,拟合优度检验-泊松分布 x=0,1,2,3,4同济大学,让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布,.,提出假设,H,0,:,X,服从参数为 的泊松分布,按参数,为,0.69,的泊松分布,计算事件,X=i,的,概率,p,i,,,=0.69,将有关计算结果列表如下,:,p,i,的估计是,,,i,=0,1,2,3,4,根据观察结果,得参数,的极大似然估计为,同济大学 数学系,让我们回到开始的一个例子,检验每年爆发战争次,因,H,0,所假设的理论分布中有一个未知参数,故自由度为,4-1-1=2.,x,0 1 2 3 4,f,i,223 142 48 15,4,0.50 0.35 0.12 0.03,0.005,n,216.7 149.5 51.6 12.0,2.16,0.183,0.376,0.251 1.623,战争次数,实测频数,14.16,2.43,将,n,5,的组予以合并,即将发生,3,次及,4,次战争的组归并为一组,.,同济大学 数学系,因H0所假设的理论分布中有一个未知参数,故自,故认为每年发生战争的次数,X,服从参数为,0.69,的泊松分布,.,按,=0.05,,自由度为,4-1-1=2,查 分布表得,=5.991,=2.435.991,,,由于统计量,的实测值,未落入否定域,.,同济大学 数学系,故认为每年发生战争的次数X服从参数为0.69,例:检验,5,分钟时间段内进入该超市的顾客数是否服从泊松分布,以便合理进行员工规划。,由,126,个,5,分钟时间段超市顾客到达的观察频数,=5,同济大学 数学系,例:检验5分钟时间段内进入该超市的顾客数是否服从泊松分布,以,表,12-7,超市顾客到达的期望频数(,u,=5),f(x),计算:,POISSON(2,5,false)=0.0842,同济大学 数学系,表12-7 超市顾客到达的期望频数(u=5) f(x)计,表,12-7,超市研究中的,统计量计算结果,同济大学 数学系,表12-7 超市研究中的统计量计算结果 同济大学,故认为顾客到达的次数,X,服从参数为,5,的泊松分布,.,按,=0.05,,自由度为,9-1-1=7,查 分布表得,=14.067,=10.96,0.05,同济大学 数学系,故认为顾客到达的次数X服从参数为5的泊松分布,泊松分布拟合优度检验总结,1.,建立零假设和备择假设,H0:,总体服从泊松概率分布,H1:,总体不服从泊松概率分布,2.,抽取一个随机样本,并且,a.,对于泊松随机变量的每个值记录观察频数,fi,b.,计算发生次数的平均值,U,3.,计算发生次数的
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!