统计学笔记——苏大统计学资料文档

资源描述

统计学（贾俊平）1 参数估计1. 参数估计：统计推断的重要内容之一，以抽样和抽样分布为基础，用样本统计量来估计未知总体参数。2. 估计量：估计总体参数的统计量。3. 估计值：用具体样本计算出的估计量的值，即估计量的实现。4. 点估计：用某个估计值作为总体参数的估计。5. 区间估计：以点估计为基础，给出总体参数估计的一个区间范围，由点估计量加减边际误差得到。能由抽样分布给出估计量与总体参数接近程度的概率度量，即置信水平。6. 置信区间：总体参数的估计区间。统计学家在某种程度上确信它会包含总体参数真值，是随机区间。7. 置信水平（置信度）：重复构造置信区间多次，其中包含总体参数真值的区间个数所占的比例。它是针对随机区间而言的。8.估计量评价标准：无偏性、有效性、一致性。9. 理论基础大数定律：揭示了大量随机现象均值的稳定性。常见的有伯努利大数定律（频率稳定性），辛钦大数定律（简单随机样本均值依概率收敛于总体均值），切比雪夫大数定律。是用样本估计总体的理论基础。e. 中心极限定理：揭示了独立同分布随机变量之和的极限分布是正态分布。常见的有伯努利试验场合、独立同分布试验场合的中心极限定理。是区间估计和假设检验的理论基础。抽样分布基本定理（正态假定）a. X N（卩Q 2 / n）；b.（n 一 1）S 2 / c 2 咒 2（n 一 1）；c. X与S 2相互独立；d.話t （n - “ ；i 亠F（n 1,n 1）（独立样本）；G 2 / G 21212f.Sp11+ nn1 2t（n + n 2）（独立样本，G2=G2）。1 2 1 210. 单总体参数估计目标量：卩,兀,Q 2。影响因素：a是否是正态总体；b总体方差是否已知；C是大样本还是小样本。抽样分布a. Z =兰聲N(0,1)；o / 5bX -卩 t（n -1），S/麻IN（0,1）（大样本）；c. Z =N(0,1)(大样本，np 5, n(n 一 p) 5)；p (P -1) n -d. %2 = (n 1)S2 /o2 咒2(n 1)。11两总体参数估计目标量：p P ，兀兀，o 2 o 2 o1 2 1 2 1 2 影响因素：a.是否是正态总体；b.两总体总体方差是否已知、是否相等；c.是大样本还是小样本，两样本量是否相等；d.是独立样本还是匹配样本。抽样分布a.Z=（X- 一 X丿（比一比）N（0,1）（独立样本）;1n：o 21o 2厶4+ tnn12b.Z=X? 片 _ N（0,1）（独立大样本）；S 2S 24 +2-nn1 2c.t = (X1X2) (-2)t(n + n 2)(独立样本，o2 =o2)；12121 2 + - n n1 2d.e.f.Z = d （气一上2）N（0,1）（匹配样本）;o / ； ndZ = d （片十）N（0,1）（匹配大样本）;S /麻d（罕Pj-（丿n（0,1）（独立大样本）; :H（1 一 + P2（1 一 P2）nn -1 2Z=g.S2/S2F = 12-G 2 / G 212F（n - 1,n - 2）（独立样本）。12.确定样本量：Ezu /2Gz 2 G 2n -u /2 JnE 2（1 -u表示可靠性,E表示精度）。2 假设检验1. 假设检验：统计推断的重要内容之一,先对总体参数提出一个假设,然后利用样本来检验该假设是否成立。2. 原假设与备择假设：假设检验是围绕原假设是否成立展开的,若拒绝原假设,就用备择假设来替换。推翻原假设需要样本落入否定域,这是小概率事件, 故在一次试验中原假设具有优势而备择假设不易发生,一旦发生,我们就有足够的理由推翻原假设,这意味着新结论的诞生。3弃真错误（u错误）与取伪错误（0错误）：前者是原假设为真却被拒绝所犯的错误,后者是原假设为假却没被拒绝所犯的错误。样本量一定时,两者是此消彼长的关系；若增大样本量,则两者同时变小。假设检验中遵循“首先控制犯u错误”的原则。4. 小概率原理：发生概率很小的随机事件在一次试验中几乎不可能发生。5. 统计量检验与P值检验否定域：由一个直观上有明确意义的统计量确定。 P值：当原假设为真时，得到所观测结果或更极端结果的概率。比较：统计量检验是先确定一个显著性水平u从而获得一个否定域，进行决策的界限清晰但面临的风险是笼统的，确定临界值要查表，检验统计量一般与自由度有关因而可比性较差；P值是检验的真实显著性水平，可利用P值直接决策或将P值与u进行比较，不需要查表，具有可比性。6. 假设检验流程图（见图 1）3 方差分析1.基本思想：表面上是检验多总体均值是否相等，本质上是研究变量间的关系，即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响，其中需要分析数据变异的来源。观察到的数据一般是参差不齐的，我们用 SST 度量数据总的变异，将它分解为可追溯到来源的部分变异 SSE 与 SSA 之和，若后者的平均MSA明显比前者的平均MSE大,图1就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。2基本假定：a.各总体服从正态分布；b.各总体方差相同；c.各观测值相互独立。3. 方差分析与两两均值检验：两两均值检验会增加犯第I累错误的概率(1 -(1-a)n(n-1)/2 a ),而且随着检验次数的增多，偶然因素导致差别的可能性也会增加；方差分析是同时考虑所有样本，排除了错误的累积，减少了偶然因素的不利影响，也简化了检验的过程。4. 单因素方差分析数据结构CC-C12kxx x11121kxx21222kxx xn2lnkk表1 方差分析模型由基本假定，X N(PQ2), i = 1,n ; j = 1,kijjj令 = X 卩N(OQ 2)ij ij j 有X =卩+ ijj ijn 口jj(n = X n )jj=1令总均值卩=-送nj=1有X n (卩-卩)=X n a = 0 ( a称为第j个水平的效应) j jj jjj=1j=1得单因素方差分析模型厂x =p+a + , i = 1,n ;j = 1,kijj ijjN(0,0 2),各相互独立ij ijX k n a = 0 、j=1 j j步骤a. 提出假设H : p=poa= a = 0 H : p (j = 1, k )不全相等；01k1k1 jb：构造检验统计量：F = ME虫F（k - 1，n k）；c.统计决策。方差分析表差异源SSDFMSFP-valueF crit组间SSAk-1MSAMSA/MSE组内SSEn-kMSE总计SSTn-1表25.有交互作用的双因素方差分析（等重复试验情况）：数据结构（见表3）方差分析模型由基本假定， X N(p ,02), i =1, s; j =1,k;l =1, mijlij令 = X -p N(0,02)ijl ijl ij有 x =+8ijl ij ijlC1 Ckxx1111k1R J1xx11m1km114-Ixxs11sk1RH Jsxxs1mskm表3令H= 1 H , H = 1 H , H = 1 工Hskijkiji=1 j=1j =1令行、列、 jsiji=1应交互效a = h - H, P = H - H, (aP) = h - H - H + Hi i -j - jij ij i - j得有交互作用因素方差分析模型,mx =y+a + 卩 + (a卩)+8 , i = 1,s;j = 1,k;l = 1,ijli jij ijlN(0,o2),各8相互独立ijl=0s a = k 卩=s QP) = k QP)i=1 jj=1 ji=1ijj=1ij 原假设与检验统计量H : H =H oa = a = 0011s 1s H : H = H o P = P = 0021k1sH :两因素个水平间无交互作用o (ap) = (ap) = 0J 0311sk厂SSR /(s-1)厂 SSC /(k -1) 厂SSRC /(s - 1)(k -1)R = SSE / sk (m -1)，c = SSE / sk (m -1)，RC = .SSE / sk (m -1)6.无交互作用的双因素方差分析数据结构（见表4）方差分析模型由基本假定，x N(H Q2), i = 1,s; j = 1,kijij令 = x 卩N(OQ2)ij ij ijC1nanCkR11X11dndHIMX1k1:1RsXs1nanXsk表4有X =卩+ ij ij ij令卩=厶YR卩,卩=1X卩,卩skij i- kij - ji=1 j=1j=1=1 i卩siji=1令行、列、交互效应a=p卩,B =卩卩,(aB)=卩卩卩 +卩=0i i-j - jij ij i- j得无交互作用因素方差分析模型,kx =H+a + B + , i = 1,s;j = 1,iji j ijijB = 0jN(0q2),各相互独立 isa=Zki=1 jj =1 原假设与检验统计量H : |n = oa = a = 0v 011-s-1sH : |n = o B = B = 002-1-k1s=SSR /(s 1)=SSC /(k 1)F =, F =R SSE /(s 1)(k1)cSSE /(s 1)(k 1)7. 多重比较：当方差分析拒绝原假设时，为进一步分析到底是哪些均值不相等，于是将各均值配对检验，但检验统计量不是t统计量。8. 试验设计含义：收集样本的计划，通过科学安排试验，用尽可能少的试验获得尽可能多的信息。主要数据分析方法是方差分析。完全随机化设计：将各种处理随机指派给试验单元。数据分析方法是单因素方差分析。随机化区组设计：将试样单元划分为若干区组，再将各种处理随机指派给各区组。划分区组可消除试验单元的差异造成的影响。因每个区组只做一次试验，故只能采用无交互作用双因素方差分析方法。因子设计:考虑两个或多个因素搭配的试验设计，每种搭配可重复试验。数据分析方法是有交互作用双因素方差分析。4 数据整理与展示1. 数据类型与图示法数据类型I 诙尬数据I 原始数据分詁数据时序数据多变書数据茎叶图箱线图L直方图L-线圈散点圈气泡S1雷达圈图22. 几种图示法的比较条形图与直方图：前者用长度表视频数（率）宽度固定，各矩形分开排列，主要展示分类数据；后者用面积表示频数（率），宽度为组距，各矩形连续排列，主要展示数值型数据。茎叶图与直方图：前者类似于横直直方图，既能展示数据分布状况，又保留了原始数据，适用于小批量数据；后者也能很好显示数据分布状况，但不能保留原始数据，适用于大批量数据。饼图与环形图：前者只能显示一个样本或总体的比例数据；后者可以同时显示多个样本或总体的比例数据，有利于比较。5 数据分布特征1. 描述统计量（见图 3）2. 众数、中位数、平均数的比较众数：一组数据分布的峰值，不受极端值影响，不具有唯一性，没有利用全部数据，适用于较大量的分类数据。中位数：一组数据中间位置的代表值，不受极端值影响，只利用了一个数据，信息图3浪费严重，适用于偏斜度较大的顺序数据。平均数：一组数据的重心，应用最广泛的集中趋势测度值，具有优良的数学性质，是统计推断的基础，利用了全部数据，易受极端值影响，适用于偏斜度不大的数值型数据。

展开阅读全文

统计学笔记——苏大统计学资料文档

最新文档