管理学研究方法04-统计分析方法(一)

上传人:dao****ing 文档编号:243137132 上传时间:2024-09-16 格式:PPT 页数:81 大小:1.34MB
返回 下载 相关 举报
管理学研究方法04-统计分析方法(一)_第1页
第1页 / 共81页
管理学研究方法04-统计分析方法(一)_第2页
第2页 / 共81页
管理学研究方法04-统计分析方法(一)_第3页
第3页 / 共81页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,管理学研究方法(,4,),-,统计分析方法(一),学习目标,了解和认识统计数据在管理研究中的重要作用,理解、掌握统计数据处理的基本方法,理解、掌握统计学的基本概念和基本方法(描述统计、统计推断、抽样调查),理解、掌握数据分析的基本技术与方法(方差分析、相关分析、因素分析、回归分析),学会应用,Microsoft Excel,、,SPSS,进行数据处理、数据分析、模型估计、假设检验等。,学会用统计分析方法研究实际的管理学问题。,主要参考文献,李怀祖:,管理研究方法论,,第,5,章第,1,、,2,节。,陈晓萍:,组织与管理研究的实证方法,,第,9,章。,马庆国:,管理统计,数据获取、统计原理、,SPSS,工具与应用研究,,科学出版社,,2006,年。,美,戴维,R,安德森等著:,商务与经济统计,,中译本,张建华等译,机械工业出版社,,2003,年。,柯惠新等:,调查研究中的统计分析方法,北京广播学院出版社, 1999,年。,李心愉:,应用统计学,,,北京大学出版社,,,1999,年。,卢纹岱主编:,SPSS for Windows,-,统计分析,电子工业出版社, 2000,年。,统计学方法在管理学研究中的应用,1.,描述统计与统计图表:数据分析中的最直接表述!,2.,分组数据的统计与分析:比较分析或对比分析,3.,相关分析:变量间相关与依存关系的解释,4.,回归分析:变量间因果关系及其影响程度,5.,误差与标准差:,3,、,6,与质量控制,6.,假设检验:研究中命题或理论的检验,7.,抽样调查与数据分析:调查研究、市场调研,8.,时间序列与统计决策:预测与决策,9.,因子分析与主成分分析:主要影响因素分析,10.,聚类分析:事物或现象的分类研究与特征揭示, 有数据、用数据的地方,就要用统计学方法!,一、统计学与数据,1,.,什么是统计学,统计学是一门对群体现象的数量特征进行描述、分析和推论的科学,要点,: ,研究对象 群体现象大量性, 研究内容 群体现象的数量表现的内在规律性, 研究目的 计量、描述、分析和推论,2.,统计学在经济和管理中的应用, 经济 :物价、经济增长、就业、贸易、生活, 管理:计划、组织、营销、生产、成本、财务、质量, 还广泛应用于各个领域和各个方面:医药、生物、物理、农林、社会学、人口学、文学、体育等,- cont,3.,数据及其类型和来源,数据:,-,数据类型,(,按分布形式、来源、性质、时序分),-,数据来源,(,官方、半官方(企业)、研究机构或个人、媒体),4.,统计学的分类,* 描述统计学和推断统计学,* 理论统计学和应用统计学,统计分析方法与思想概述,* 统计学的要素:,总体、样本、,描述、推断、推断的可靠性,* 统计学的方法:数据搜集、整理、度量、描述、分析、推断、,预测、决策,二、 描述统计学,数据的搜集,数据的整理与汇总,数据的度量,两个变量间关联的度量,分组数据,2.1,数据的搜集,原始数据的搜集,* 统计调查方式:,定期统计报表 普查,抽样调查 典型调查,重点调查,* 统计调查方案,* 问卷调查,-,民意测验,二手数据的搜集:年鉴、年报、出版物,2.2,数据整理与汇总,数据分组,分组,:,将总体所有单位按一定的标准区分为若干部分,以此将具有某种共性的个体归入同一组,而将总体内部个体间的差异通过组别区分开来。,分组标准:数量标志、品质标志、混合分组,频数及频数分布,频数:具有某种属性的个体在某一组中出现的次数。,频数分布:一列表明各组数据频数(个数)的汇总表,它描述了总体的结构和分布特征。,相对频数:每组的频数,/n,累计频数:各组相对频数的累加,-cont,组数与组宽(距),组限,组中值,直方图,频数多边形,累积曲线,统计图,统计表,Example: Hudson Auto Repair,The manager of Hudson would like to get a better,picture of the distribution of costs for engine tune-up,parts. A sample of,50 customer,invoices has been taken,and the costs of parts, rounded to the nearest dollar, are,listed below.,-cont,Frequency Distribution,选择组数:,5,20,组之间,数据集与组数对应(数据集大组数大,数据集小组数小),选择组宽:,等距分组,近似组宽,=,-cont,Frequency Distribution,如果选择,6,组,近似组宽,= (109 - 52)/6 = 9.5,10,Cost ($),Frequency,50-59 2,60-69 13,70-79 16,80-89 7,90-99 7,100-109,5,Total 50,相对频数与百分比频数分布,Cost ($),相对频数 百分比频数(,%,),50-59.04 4,60-69 .2626,70-79.3232,80-89 .1414,90-99.1414,100-109,.10,10,Total 1.00 100,-cont,-cont,直方图(,Histogram,),2,4,6,8,10,12,14,16,18,Frequency,50,60,70,80,90,100,110,Cost ($),-cont,累计分布(,Cumulative Distributions,),Cost ($),累计频数 累计频数 累计频数,59 2 .04 4,69 15 .30 30,79 31 .62 62,89 38 .76 76,99 45 .90 90,109 50 1.00 100,-cont,累计曲线(,Ogive,),累计曲线的意义与应用,10,20,30,40,50,Cumulative Frequency,50,60,70,80,90,100,110,Cost ($),2.3,数据的度量,1.,集中趋势 (位置,,location ),的度量,(measures of central tendency,),* 平均数,(mean),*,中位数,(,median),*,众数,(mode),*,四分位数和百分位数,(,quartiles & percentiles),- cont,2.,离散趋势的度量(,measures of dispersion,),* 全距,(,极差,) : Range = X,max,- X,min,*,四分位数间距,(,interquartile range): d=Q,3,- Q,1,*,方差,(variance) (,样本,),*,标准差,(standard deviation),(样本):,s,- cont,3.,平均数和标准差的应用,*,z - scores,:,z=,(,x-,),/,数据的标准化,* 切比雪夫定理,(Chebyshev,s Theorem),任何数据中,至少有,(1-1/k,2,),项落在,(,位于,),平均值,(mean),的,k,个标准差之内。,数学表述:,Px-k 1-1/ k,2,*,经验规则,(3, -,规则,),-cont,4.,探索性数据分析,-,五数概括法:,a.,最小值(,min,),b.,第,1,四分位数(,Q1,),c.,中位数(,Q2,),d.,第,3,四分位数(,Q3,),e.,最大值(,max,),-,盒形图(箱线图):用图形概括数据(上述,5,个数据)。,2.4,两个变量间关联的度量,1.,协方差,(covariance),-,两个随机变量的联合数字特征,相依存程度的度量。,-,定义:,cov,(,X,,,Y,),=E,(,X-EX,),(,Y-EY,),= E,(,XY,),- EX,EY,-,样本协方差:,-,协方差的解释:,-cont,2.,相关系数,(,Correlation coefficient),-,两个随机变量间线性相依程度的度量。,-,定义:,-,性质:,0,xy,1,;,xy,= 0,,,X,与,Y,独立;,xy,= -1,,完全负相关 ;,xy,=+1,,正相关,-,样本相关系数:,-,相关系数的解释:,2.5,分组数据的度量,1.,加权平均,2.,统计分组,:,意义、方法、要点,3.,分组数据的平均数,4.,分组数据的方差,5.,分组数据的标准差,: s,关于偏度和峰度,偏度(,skewness,),:,偏斜度、偏态系数,是对分布偏斜程度的度量,S,k,=,3,/,3,3,=E,(,X-EX,),3,是,X,的三阶中心矩,是,X,的标准差,S,k,=0,,对称分布。通常:,S,k,0,,曲线分布向右偏。,峰度(,kurtosis,),:,峰态系数、峭度,E,k,=,4,/,4,- 3,4=E,(,X-EX,),4,是,X,的四阶中心矩,,是,X,的标准差,E,k,=0,,正态分布。通常,,E,k,越小,曲线分布的峰越陡峭;,E,k,越大,曲线分布的峰越平坦。,三、 统计推断,参数估计,抽样与抽样分布,参数估计(点估计),参数估计(区间估计),假设检验(关于总体均值、总体比例、总体方差)(单个总体、两个总体),1.,抽样及抽样分布, 总体与样本, 总体参数:总体分布的数字特征, 统计推断:根据样本信息推断总体的数量特征,,及对总体参数的估计和检验。, 简单随机抽样,a.,有限总体,-,等可能性,b.,无限总体,-,独立地被抽到,-cont,抽样分布,a.,一个实例,- EAI,b.,的分布,的均值,: E ( ) =,的标准差,:,or,-cont,中心极限定理,:,从总体中抽取样本容量为,n,的简单随机样本,当样本容量很大时,样本均值 服从近似的正态分布。, 抽样误差,:,sampling error =,样本容量与 的抽样分布的关系,增大样本容量,样本均值落在总体均值某一特定范围的概率将随之增大。, 样本比例 的抽样分布,E ( ) =,p,or,2.,点估计及其性质,什么是点估计,?,用样本数据计算一个样本统计量,以此来估计总体参数。,例子,点估计的性质,-,如何评价估计的好坏,?,无偏性,:,有效性,:,一致性,:,3.,参数估计,-,区间估计,区间估计的基本概念,区间估计的基本步骤,总体均值的估计,总体比例的估计,总体方差的估计,样本大小的确定,3.1,区间估计的基本概念,区间估计的基本思想:首先求出待估参数的估计值,然后以此为基础估计出一个区间 ,并提供总体参数落入该区间的概率。,以概率表示为:,置信区间:以一定的概率保证的总体参数可能落入的区间,区间 。,置信度或置信水平:,(1 -,),100%,显著性水平(,Significance Level,):,置信度为,(1 -,),100%,的置信区间的解释,3.2,区间估计的基本步骤,确定待估参数和置信水平:(,1 -,),100%,。,确定所用的估计量,并找出该估计量的抽样分布。,根据估计量的抽样分布和指定的显著性水平,计算置信区间。,3.3,总体均值的估计,已知时,样本均值 服从正态分布,:,即,:,总体均值,的置信度为:,(1 -,),100%,置信区间为,:,关于,Z,/2,与显著性水平,的解释, 例子,-,-cont,为,未,知时,大样本,(n30),时,样本均值 服从正态分布,:,即,:,总体均值,的置信度为:,(1 -,),100%,置信区间为,:,例子,-cont,t,-,分布:,为未,知时,小样本,(n 30),时,样本均值 服从自由度为,(n -1),的,t,-,分布,:,即,:,总体均值,的置信度为,(1 -,),100%,的置信区间为,:,例子,-cont,两个总体均值之差的估计,1,2,为,已知时,样本均值之差 服从正态分布,即,:,两总体均值差,1,- ,2,的置信度为,(1 -,),100%,的置信区间为,:,例子,-cont,1,2,为未,知时,大样本,(n,1, n,2, 30),时,样本均值之差 服从正态分布,即,:,两总体均值差,1,- ,2,的置信度为,(1 -,),100%,的置信区间为,:,例子,-cont,1,2,为未,知时,小样本,(n,1, n,2,5,样本比例,m /n=,p,近似地服从正态分布,: p N(P, P(1-P)/n),单个总体比例的区间估计,-cont,两个总体比例之差的估计,的抽样分布,p,1,p,2,为已知时,:(,近似地,),此时两个总体比例之差置信区间,(,置信水平为,(1-,)100%),为,:,p,1,p,2,为未知时,则令:, 例子,3.5,总体方差的区间估计,单样本总体方差的区间估计,a),抽样分布,设,X,1,X,2, X,n,是抽自正态总体的简单随机样本,总体方差为,2,则,(n-1)S,2,/,2,服从自由度为,(n-1),的 分布,即,:,(n-1)S,2,/,2, (n-1),b),总体方差的置信度为,(1-,)100%,的置信区间:,例子,四、统计推断,假设检验,1.,假设检验的基本原理与步骤,2.,总体均值的假设检验,3.,总体比例的假设检验,4.,总体方差的假设检验,5.,计算犯第二类错误的概率,6.,假设检验中样本容量的确定,7.,分析、评价统计软件输出结果,1.,假设检验的基本原理与步骤,a.,什么是假设检验,?,b.,假设检验的基本思想,-,概率性质的反证法、小概率原理,c.,原假设,H,0,与备择假设,H,a,d.,几个例子,-,如何提假设,?,-,检验研究中的假设,:(,H,0,:,0,H,a,:,0,),-,检验某一陈述或声明的有效性:,(,H,0,:,0,H,a,:,0,),-,决策中的假设检验:(,H,0,:,0,H,a,:,0,),e.,犯两类错误的概率,犯第一类错误,:,弃真错误,-,概率为,犯第二类错误,:,取伪错误,-,概率为,f.,接受域与拒绝域,g.,假设检验的基本步骤,假设检验的基本步骤,1.,根据问题的需要,提出原假设,H,0,和备择假设,H,1,2.,选择检验所用的统计量,并确定该统计量的抽样分布 。,3.,指定检验用的显著性水平,。,4.,利用显著性水平提出拒绝,H,0,的规则(即找临界值),。,5.,收集样本数据,并计算检验统计量的数值。,6.,比较和判断,:,比较检验统计量值与临界值,结论:接收还是拒绝原假设,H,0,?,2.,总体均值的假设检验,关于单尾与双尾检验的解释,拒绝域的确定,-,何时拒绝,H,0,?,单个正态总体, ,2,已知。,- Z-,检验:,单尾检验,:,H,0,:,0,H,a,:,0,拒绝域:,Z - Z,H,0,:,0,H,a,:,0,拒绝域:,Z Z,双尾检验,:,H,0,:,0,H,a,:,0,拒绝域:,Z Z,/2,-continued,单个,(,正态,),总体, ,2,未知。,大样本,(,总体分布可能未知,),:,Z-,检验(单尾检验、双尾检验),用,s,代替,,拒绝域同上。,小样本,(,正态总体,),:,t-,检验,单尾检验,:,H,0,:,0,H,a,:,0,拒绝域:,T - t,H,0,:,0,H,a,:,0,拒绝域:,T t,双尾检验,:,H,0,:,0,H,a,:,0,拒绝域:,T t,/2,两个总体均值差异的显著性检验:,即:,1,=,2,?,i.e ,1,-,2,= 0,?,1,2,?,or,1,2,?,A) ,1,2,2,2,为已知时,:,单尾检验,:,H,0,:,1,2,H,a,:,1,2,拒绝域:,Z - Z,H,0,:,1,2,H,a,:,1,2,拒绝域:,Z Z,双尾检验,:,H,0,:,1,-,2,=0H,a,:,1,-,2,0,拒绝域,:,Z Z,/2,-continued,B) ,1,2,2,2,为未知时,:,大样本:,假设和拒绝域同上,小样本,(,1,2,=,2,2,但未知,),单尾检验,:,H,0,:,1,2,H,a,:,1,2,拒绝域:,t - t,H,0,:,1,2,H,a,:,1,2,拒绝域:,t t,双尾检验,:,H,0,:,1,-,2,=0H,a,:,1,-,2,0,拒绝域:,t t,/2,两个正态总体均值差异的显著性检验,-,匹配样本,总体,1:,1,样本为,(x,1,x,2, x,n,),总体,2:,2,样本为,(y,1,y,2, y,n,),令,: ,d,=,1,-,2,d,i,= x,i,- y,i, i=1,2,n,H,0,: ,d,= 0 H,a,: ,d, 0,拒绝域:,t t,/2,H,0,: ,d, 0 H,a,: ,d,0,拒绝域:,t t,H,0,: ,d,0 H,a,: ,d,0,拒绝域:,t - t,3.,总体比例的假设检验,a.,原假设与备择假设的提出,:,单个总体与两个总体,b.,样本比例的抽样分布,: (,见区间估计,),c.,假设、检验统计量、及拒绝域,单个总体,(,大样本,或,np5),H,0,:,p,p,0,H,a,:,pp,0,拒绝域:,Z Z,/2,H,0,:,pp,0,H,a,:,p,p,0,拒绝域:,Z - Z,H,0,:,pp,0,H,a,:,p,p,0,拒绝域:,Z Z,-continued,两个总体,(,大样本,),H,0,:,p,1,-p,2,=0H,a,:,p,1,-p,2,0,拒绝域:,Z Z,/2,H,0,:,p,1,p,2,H,a,:,p,1,p,2,拒绝域:,Z - Z,H,0,:,p,1,p,2,H,a,:,p,1,p,2,拒绝域:,Z Z,d.,例子,4.,总体方差的显著性检验,a.,单个总体方差的假设检验,-,单尾检验,-,双尾检验,-,例子,b.,两个总体方差的假设检验,- F -,分布,- s,1,2,/s,2,2,的抽样分布,-,单尾检验,:,方法、 步骤 、例子,-,双尾检验,:,方法、步骤、例子,5.,计算犯第二类错误的概率,第二类错误如何产生,?,犯第二类错误的概率与原假设及临界值的关系,一个例子,检验的功效(,1-,)与功效曲线(,Power Curve,),当,H0,为假时,做出拒绝,H0,的正确结论的概率, 称为检验的功效。,计算犯第二类错误的概率,:,方法与步骤:见,安德森,商务与经济统计,,第,9,章,,pp265-267,.,6.,假设检验中样本容量的确定,a.,关于单个总体均值进行假设检验时,b., ,与,n,之间的关系,c.,一个例子,7.,几个有关的问题,p,-,值检验,利用临界值所对应的概率,p,-,值与显著性水平,比较,决定是否拒绝,H,0,。,如果,p -,值,F,F,为服从,F,分布的临界值 (分子的自由度为,p,,分母的自由度为,n,-,p,- 1,),Testing for Significance:,t,Test,假设(,Hypotheses,),H,0,:,i,= 0,H,a,:,i,= 0,检验统计量(,Test Statistic,),拒绝规则(,Rejection Rule,):,Reject,H,0,if,t,t,t,为,t,分布的临界值(自由度为,n,-,p,- 1,),.,Example: Programmer Salary Survey,A software firm collected data for a sample of 20,computer programmers. A suggestion was made that,regression analysis could be used to determine if salary,was related to the years of experience and the score on,the firm,s programmer aptitude test.,The years of experience, score on the aptitude test,and corresponding annual salary ($1000s) for a sample,of 20 programmers is shown on the next slide.,data,Exper.,Score,Salary,Exper.,Score,Salary,4782498838,71004327326.6,18623.7107536.2,58234.358131.6,88635.867429,10843888734,07522.247930.1,18023.169433.9,6833037028.2,6913338930,-cont,多元回归模型,假设工资(,salary,,,y,)与工作经历年数(,years of experience,,,x,1,)和能力倾向测试得分(,score on aptitude test score,,,x,2,)有关,则回归模型如下,:,y,=,0,+,1,x,1,+,2,x,2,+,这里:,y,= annual salary ($000),x,1,= years of experience,x,2,= score on aptitude test score,-cont,多元回归方程:,E(,y,) =,0,+,1,x,1,+,2,x,2,估计的回归方程:,y,=,b,0,+,b,1,x,1,+,b,2,x,2,Solving for the Estimates of,0,1,2,x,1,x,2,y,4 78 24,7 100 43,. . .,. . .,3 89 30,b,0,=,b,1,=,b,2,=,R,2,=,t =,F =,etc.,通过计算机,软件,如:,Excel, SPSS,SAS, Minitab,解回归问题,-cont,Minitab Computer Output,The regression is,SALARY = 3.17 + 1.40 EXPER + 0.251 SCORE,Predictor Coef Stdev t-ratio p,Constant3.1746.156.52.613,EXPER1.4039.19867.07.000,SCORE.25089.077353.24.005,s,= 2.419,R-sq,= 83.4%,R-sq(adj),= 81.5%,-cont,方差分析,(,Analysis of Variance,),SOURCE DF SS MS F P,Regression2500.33250.1642.760.000,Error1799.465.85,Total19599.79,假设检验:,For,= .05,,,F,.05,= 3.59,(,d.f. = 2, 17,),F,= 42.76 ,F,.,结论:拒绝,H,0,:,1,=,2,= 0,For,= .05,,,t,.025,= 2.11,,,t,.1,=7.07,t,./2,,,t,.2,=3.24,t,./2,结论:拒绝,H,0,:,1,= 0,和,2,= 0,判定系数:,R,2,= 83.4%,R,2,(adj),= 81.5%,总的结论:回归效果较好,经验年限和能力测试态度对工资水平有显著影响。,虚拟变量的回归,虚拟变量的实质,属性变量、品质变量、二元变量、标记变量,虚拟变量回归方法,Y=,0,+,1,x,1,+,2,x,2,+ ,1,D,具有某种属性,不具有某种属性,例子,参数的解释,E(y|D=1)= (,0,+ ,1,) + ,1,x,1,+,2,x,2,E(y|D=0)= ,0,+ ,1,x,1,+,2,x,2,多个虚拟变量的情况,如何评价多元回归模型,判定系数,R,2,充分大,(,越大越好,), t-,检验统计量显著,(,一般地,t2),F,-,检验统计量显著,(,可查表,一般地,F,值,20),变量间确有实际关系,或模型有实际意义,变量间不存在多重共线性, 时间序列变量,(,数据,),不存在自相关性,(,如果存在,须按某种方法处理,),(后两种在计量经济学中涉及!), 如何看统计软件(计算机)输出结果,多元回归方程的表述,-,多元回归方程的表述,模型,: y,i,= ,0,+,1,x,1i,+,2,x,2i,+,+,p,x,pi,+,i,估计的方程,:,y: risk; x,1,: age; x,2,: blood pressure; x,3,: smoker,t = ( -6.03) ( 6.49 ) (5.57) (2.91),R,2,= 0.873 R,2,(adj) = 0.85,F = 36.82 DW = ?,回归方程的含义与解释,(,各变量的影响,),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!