资源描述
精选优质文档-倾情为你奉上商务统计期末总结目录第2章 表格和图表中的数据表示1.对数据排序A. 数值排序,选中要排序的数值,开始-排序和筛选-升序/降序B. 依照某一个或几个条件的排序,选中所有要排序的数据(包括非数值数据)开始-排序-自定义排序-添加排序的条件。2. 制作数据的茎叶图将数据排序后手动绘制。绘制结果如下:茎叶15588230003. 制作数据的帕累托图(1) 原数据格式为类目数量累积百分比a1012.50%b2037.500%c50100.00%合计80选择红框内数据插入-图表-柱状图得到如下图所示:(2)选择累积百分比柱子,右键更改系列图表类型选择折线图第一个得到如下图(3) 右键红色的线,选择设置数据系列格式,选择次坐标轴,如下图所示(4) 右键左侧坐标轴,选择设置坐标轴格式,将最大值设为合计数值。(5) 右键右侧坐标轴,选择设置坐标轴格式,将最大值设为1.得到帕累托图:4. 统计频数A 离散型数据(1) 对数据排序,由小到大(2) 找出有哪些取值(3) 利用countif函数求解 =countif(区域,取值)(4) 下拉求出每个取值的频数B 连续型数据(1) 找出最小值最大值(2) 找出区间(3) 制作区间取值范围(4) 利用frequency函数注意frequency函数是数组函数,要比区间取值多一行上面应用,最后要ctrl+shift+enter 表示结束。包含右边界,不包含左边界。=FREQUENCY(区域,取值)5. 制作散点图及添加趋势线(1) 选择数据列,插入-图表-散点图(2) 选择散点图上面任意一点,右键选择添加趋势线,选择线性第3章 数值型描述度量1. 计算各描述性统计量(1) 均值 =AVERAGE(B2:B24)(2) 中位数 =MEDIAN(B2:B24)(3) 分位数 =QUARTILE.INC(B2:B24,1) 其中1代表第一分位数1/4, 3代表第三分位数3/4(4) 方差 =VAR(B2:B24)(5) 标准差 =STDEV(B2:B24)(6) 极差 =MAX(B2:B24)-MIN(B2:B24)(7) 四分位数极差 =第三分位数-第一分位数(8) 变异系数(对不同数据变异性的相对度量,消除了数值衡量单位本身的差异性) =标准差/均值 1为高差别(9) Z值 =(单个数值-均值)/标准差(10) 峰态系数 =KURT(B2:B24) 正为高耸,负为扁平(11) 偏态系数 =SKEW(B2:B24) 正为右偏,负为左偏(12) 几何平均回报率 =(1+B2)*(1+B3)*(1+B4)*(1+B5)(1/4)-1几何平均数 =GEOMEAN(D14:D16) (区域中的数值必须是正数)2. 画箱线图(1) 将数据按如下顺序排序:Q12MIN1MEDIAN3MAX5Q34(2) 选择至少四列数据 插入-图表-股价图-第二个(3) 如果没有显示出来在图表区右键-选择数据-点击切换行列标签得到如下图所示:(4) 选择中位线的点,点击-右键-设置数据系列格式-数据标记选项-内置 选择如下类型,并将大小设置为20.(5) 点击图表区,取消选择数据区域后面的三列空白回车后可得将图表整个横向缩小,即可得到箱线图。3. 计算协方差(1) 计算协方差 =COVARIANCE.P(B2:B10,C2:C10)(2) 计算相关系数 =CORREL(B2:B10,C2:C10)协方差指出两数值变量线性联系或相关。当相关系数接近+1或-1,两变量直接有很强的线性相关,当相关系数接近0,几乎不相关。相关系数表面数据是否正相关或赴香港。第5章 离散型随机变量的概率分布1. 计算期望收益和风险(1) 计算期望收益投资组合的期望收益等于资产X的期望收益乘以权重加上资产Y的期望收益乘以权重。E(P)=wE(X)+(1-w)E(Y)(2) 计算风险注意,期望和方差标准差都是乘以权重来计算的,并不单单是求平均2. 二项分布预测(1) 满足使用情形:分布由固定的n次观测组成每次观测值是两个互斥结果之一,两个互斥结果通常称为成功和失败当某个观测值被定义为成功,其概率为P时,则失败的概率为1-p每次观测的结果都与之前或之后的观测结果相互独立,为了保证独立性,观测值可以从无放回的无线样本或者有放回的有限样本中随机的抽取。(2)根据样本数量及成功概率预测实现某一给定成功数量的概率=BINOM.DIST(成功次数,样本数量,成功概率,FALSE(是否为累积概率)3. 泊松分布预测(1) 满足使用情形:考虑的是给定区域内的特定事件产生的次数,区域可以是时间、长度等各段相等区域内的特定事件产生的概率是一样的各区域内,事件发生的概率相互独立当给定区域非常小时,两次以上事件产生的概率趋于0(2) 根据某事件发生概率预测 =POISSON(C8,$D$6,FALSE) 给定时间范围内某事件发生次数的概率。4. 超几何分布预测(1)满足使用情形:有限样本中的不放回抽样,抽样结果彼此不独立考虑总体大小为N,A代表总体中成功数。超几何分布用于n次抽样中,有X样本成功的概率。(2)根据N,A,n预测 =HYPGEOMDIST(X,n,A,N) 第6章 正态分布和其他连续型分布1. 求正态分布概率及相应概率的取值(1) 已知正态分布的均值和标准差求某取值的累积概率=NORM.DIST(均值,标准差,取值,TRUE)(2) 已知正态分布的均值和标准差求某累积概率对应的取值=NORM.INV(均值,标准差,累积概率)(3) 画正态概率图,将Z值按从小到大的顺序排列画出散点图,如果上凸为左偏,如果下凸(凹)为右偏,类似于线型分布则数据呈正态分布。2. 指数分布(1) 满足使用情形:指数分布是右偏的,取值范围是从0到正无穷的连续函数指数分布广泛用于等待队列(排队)理论中来估计流程中相邻到达的两个人间的间隔,例如银行ATM,进入医院急诊室,某个网站的点击。指数分布通过一个参数即单位时间内到达的平均人数来定义,1/值等于相邻的时间间隔。(2)计算给定单位时间内的点击(或平均到达人数)计算两次事件时间间隔为某值的概率 =EXPON.DIST(时间间隔,TRUE)第7章 抽样与抽样分布1. 各种抽样方法的选择(1) 简单随机抽样(2) 系统抽样 等距选取抽样(3) 类型抽样 各类型都抽点(4) 整群抽样 分成若干个群,直接选取一个或几个群2. 样本均值的抽样分布(1) 样本均值在总均值左右浮动,先根据及求出样本均值标准差 (2) 样本均值在某取值以内的概率 =NORMDIST(某取值,总均值,样本均值标准差,1) 样本均值以某概率落在范围的边界 =NORMINV(某概率,总均值,样本均值标准差)3. 比例的抽样分布(1) 比例分布服从二项分布,但当n和n(1-)都至少达到5时,二项分布可以近似的用正态分布来代替。(2) p代替总样本均值,代替,代替,可求得z值。进而得到正态分布的累积概率及临界p值。第八章 置信区间估计1.求总体均值的置信区间(1)在p已知的情况下。根据样本均值标准差、样本均值和置信度相关的z值求总体均值在相关置信度下的置信区间。=样本均值z值*样本方差。(2) 在p未知的情况下。用s来估计未知的值。根据样本方差、样本均值和置信度相关的t值求总体均值在相关置信度下的置信区间。=样本均值t值*样本方差。其中,t值 =TINV(1-置信度,自由度),自由度为样本数量-1(3) 比例的置信区间()2.确定样本容量(1)均值估计的样本容量已知置信度(进而计算得到z值)、标准差、可接受的抽样误差e。计算(2) 比例估计的样本容量已知置信度(进而计算得到z值)、总体均值的先验值、可接受的抽样误差e。计算注:样本容量需要采用向上取整的方式 用roundup函数。3. 置信区间估计在审计中的应用(1) 估计总体总量总量=N 总量的置信区间估计为 其中为发票样本金额,N为发票数目,n为发票样本数目,S为样本标准差(2) 差值估计先计算n个样本的平均差值 每一个差值为审计值-原始值再计算样本差值标准差总差值的置信区间估计为 (3) 违反控制比例的单侧置信区间估计上限= 其中,N为总数,n为样本数,p为样本中违反控制的比例,Z是对应于累积面积为(1-)的标准正态的值。(右尾)第9章 假设检验基础:单样本检验1. 均值的假设检验、Z检验(已知)(1)采用Z值进行检验根据题意提出原假设和备择假设H0 H1。得出原假设成立情况下的Z值 ,看是否在接受域的范围之内。(2)采用置信度p进行检验根据题意提出原假设和备择假设H0 H1。得出原假设成立情况下的p值,看是否小于题目给定的置信度。(3)单尾检验也是同样原理,注意临界值的正负性。2.均值的t假设检验(未知)根据题意提出原假设和备择假设H0 H1。得出原假设成立情况下的t值 ,看是否在接受域的范围之内。或根据t值得到p值进而看是否小于题目给定的置信度。t值=TINV(0.05(显著性水平),自由度)该t值对应的置信度=TDIST(ABS(T值),自由度,2(双尾还是单尾)3.比例假设检验单样本比例的Z检验 ,成功次数的比例Z检验第10章 双样本检验1. 两个独立总体均值的比较提出假设 H0:=或-=0备则假设 H1:或-0(1) 总体方差已知,采用Z检验(2) 总体方差未知,采用t检验(t值自由度为)其中2. 两个均值差的置信区间估计 其中3. 两个相关总体均值的比较(1) 均值差的Z检验 其中,为假设均值差,为总体标准差Z检验统计量服从标准正态分布(2) 成对t检验 原假设 H0: =0,其中,是样本差值的标准差,t检验统计量服从自由度为n-1的t分布4.两个独立总体比例差异的检验(1)两个比例差的Z检验,其中,(2) 两个比例差的置信区间估计5. 两个方差的F检验原假设 H0:=备则假设 H1: F检验统计量服从自由度为-1和-1的F分布=F.INV(0.025,自由度1,自由度2) 第11章 方差分析方差分析的前提条件:随机性和独立性、正态性、方差一致性1. 齐性检验(1) 原假设 H0:(有c个不同的组)备则假设 H1:不是所有的相等(j=1,2,3,.,c)(2) 分别计算四个组下某个数值与组中中位数差的绝对值,然后进行绝对值的单因素方差检验。2. 单因素方差检验(1)原假设 H0:1=2=.=c(有c个不同的组)备则假设 H1:不是所有的j相等(j=1,2,3,.,c)(2)计算总偏差 SST (每个数值减去总平均值的平方和)计算组间偏差 SSA (每个组均值减去总平均值的平方和)计算组内偏差 SSW (每个数值减去组均值的平方和)(3)计算均方 MSA=SSA/(c-1) c为组数(列数)MSW=SSW/(n-c) n为样本总个数MST=SST/(n-1)(4)计算单因素方差F检验统计量F=MSA/MSWF统计量服从F 分布,第一自由度是n-1,第二自由度是n-c。在某一显著性水平下,如果计算到的F检验统计量大于F分布的临界值Fu,则拒绝原假设。检验表格如下:来源自由度平方和均方F组间c-1SSAMSAMSA/MSW组内n-cSSWMSW总体n-1SSTMST3. 单因素多元比较(1) Tukey-Kramer方法临界范围:QU的值需要查找第一自由度为c,第二自由度为(n-c)学生化范围分布的上临界值QU(2) LSD多重比较临界范围:4. 双因素方差分析前提:r为因素A的水平数,c为因素B的水平数,n为每个小组的成员个数,n为完全试验个数。(n=rcn)(1) 提出假设对A因素提出的假设为,检验因素A无差异H0:1=2=.=r(有r个不同的A因素水平)H1:不是所有的j相等(j=1,2,3,.,r)对B因素提出的假设为,检验因素B无差异H0:1=2=.=c(有c个不同的B因素水平)H1:不是所有的j相等(j=1,2,3,.,c) m检验假设因素A和因素B无交互效应H0:A和B的交互效应等于零H1:A和B的交互效应不等于零(2)计算各个平方和总平方和(SST):A变量平方和(SSA): B变量平方和(SSB): 交互作用平方和(SSAB):双因素方差分析的随机误差:(3) 计算均方MSA=SSA/(r-1) ;MSB=SSB/(c-1) ;MSAB=SSAB/(r-1)(c-1) ;MSE=SSE/rc(n-1)(4) 计算F值若因素A效应的F检验 F=MSA/MSEFu 则拒绝原假设Fu是给定显著性水平下r-1个自由度和rc(n-1)自由度的F分布的临界值若因素B效应的F检验 F=MSB/MSEFu 则拒绝原假设Fu是给定显著性水平下c-1个自由度和rc(n-1)自由度的F分布的临界值若交互效应素的F检验 F=MSAB/MSEFu 则拒绝原假设Fu是给定显著性水平下(r-1)(c-1)个自由度和rc(n-1)自由度的F分布的临界值检验表格如下:来源自由度平方和均方FP值F临界值结论Ar-1SSAMSA =MSA/MSEBc-1SSBMSB =MSB/MSEAB(r-1)(c-1)SSABMSAB =MSAB/MSE误差rc(n-1)SSEMSE总体n-1SSTR2 =(SSA+SSB/SST)=FDIST(F值,第一自由度,第二自由度) 得到p值=FINV(0.05,第一自由度,第二自由度) 得到F值5.双因素多重比较(1)Turkey多重比较因素A的临界范围为 其中Qu是r与rc(n-1)自由度的学生化范围分布的上临界值因素A的临界范围为 其中Qu是c与rc(n-1)自由度的学生化范围分布的上临界值第12章 卡方检验和非参数检验(1) 作2*N列联表,例如:Choose Again? Golden PalmPalm Royale Palm PrincessTotalYes128199186513No883366187Total216232252700(2) 计算总体 YES/NO的概率再次选择概率p0.73 1-p0.27 (3) 根据总体概率计算期望表Choose Again? Golden PalmPalm Royale Palm Princess TotalYes158.30 170.02 184.68 513No57.70 61.98 67.32 187Total216232252700(4) 计算卡方和fofefo-fe(fo-fe)2(fo-fe)2/fe128158.30 -30.30 917.92 5.80 8857.70 30.30 917.92 15.91 199170.02 28.98 839.67 4.94 3361.98 -28.98 839.67 13.55 186184.68 1.32 1.74 0.01 6667.32 -1.32 1.74 0.03 卡方和40.23 (5) 列出各项常量指标显著水平0.05行数r2列数c3自由度2自由度为(r-1)(c-1)(6) 进行结果分析临界值5.991 240.228 p值0.000 临界值 =CHIINV(0.05(显著水平),自由度)因为40.22大于5.99,所以拒绝原假设,假设不成立,三个酒店不是所有的服务质量都相同。(7)Marascuilo 检验p值1-pnp10.0.216p20.0.232p30.0.252绝对值差临界值结果结论|p1-p2|0.0.拒绝显著不同|p1-p3|0.0.拒绝显著不同|p2-p3|0.0.拒绝显著不同临界值为:专心-专注-专业
展开阅读全文