资源描述
,Quality Management,质量管理学,任务一 收集质量特性数据,3,任务二 整理与显示数据,任务三 统计分析方法的应用,2,1,质量管理方法,质量管理方法,学习目标:,1.了解质量特性数据的含义、类型与收集方法;,2.掌握数据排序、数据分组的方法;,3.熟知数据特征的描述;,4.掌握参数估计、假设检验、相关分析、回归,分析等统计分析方法。,任务情境,任务一收集质量特性数据,快速收集数据,抢占市场先机,作为广东省佛山市某大型陶瓷公司的市场总监,李总这段时间特别忙:一系列 新产品已经研发成功,准备在最短时间内推向市场,抢占市场份额。,为了对系列新品进行准确的价格定位、制定差异化的推广策略,李,总要求销售助理联系五个大区的销售经理,尽可能全面地收集竞品的市场价格、,销售情况以及推广活动等信息。,两天后,销售助理小张战战兢兢地向他报告,仅仅收集到四个大区的部分市场,数据,另外一个大区经理因为出差无法及时提供数据。李总并不着急,递给小张一,叠报表:“这是全国各销售网点的销售人员针对新品收集的市场调研材料,以及同,类产品的价格、销量、定位、市场占有率等市场数据,你把这些整理出来就行。”,小张非常诧异,无法理解李总如何在两天时间内完成这么烦琐的数据收集,工作!,李总解释道:“昨天下班前我用信息机通知全国各区销售总监、区域经理,要求他们今天早上九点前把同类产品的价格、销量、定位、市场占有率等市场数据发给我。”,数据信息是企业重要的战略资源,,合理有效地使用正确的数据能指导企,业领导作出正确的决策,提高企业,的竞争力。不合理地使用不正确的数,据(差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。,任务分析,任务一收集质量特性数据,波动性是指在相同的生产技术条件下生产出来的一批产品,其质量特性数据由于受到操作者、设备、材料、方法、环境等多种因素的影响而总存在着一定的差异。,1. 波动性,任务一收集质量特性数据,规律性是指当生产过程处于正常状态时,其质量数据的波动是有一定规律的。,2. 规律性,任务一收集质量特性数据,二、 质量特性数据的类型,1.,计数值数据,2. 计量值数据,任务一收集质量特性数据,(一)定量数据,计数值,数,数据是,指,指在有,限,限的区,间,间内只,能,能取有,限,限个整,数,数值的,数,数据,,其,其取值,只,只能是,大,大于或,等,等于零,的,的整数,,,,否则,将,将失去,其,其实际,意,意义,,如,如铸件,内,内的气,孔,孔个数,、,、一批,产,产品中,不,不合格,品,品的件,数,数等。,1. 计数值数据,任务一,收,收集,质,质量特,性,性数据,计数值,数,数据又,可,可分为,计,计件值,数,数据和,计,计点值,数,数据。,(1),计,计件值,数,数据,,表,表示具,有,有某一,质,质量标,准,准的产,品,品个数,,,,如总,体,体中合,格,格品数,、,、一级,品,品数。,(2),计,计点值,数,数据,,表,表示个,体,体(单,件,件产品,、,、单位,长,长度、,单,单位面,积,积、单,位,位体积,等,等)上,的,的缺陷,数,数、质,量,量问题,点,点数等,,,,如检,验,验钢结,构,构构件,涂,涂料涂,装,装质量,任务一,收,收集,质,质量特,性,性数据,计量值,数,数据是,指,指在某,个,个区间,上,上的可,能,能取值,具,具有连,续,续性的,数,数据,,即,即在该,区,区间内,可,可以取,无,无穷多,个,个实数,值,值。常,见,见的计,量,量值数,据,据有质,量,量、面,积,积、长,度,度和体,积,积等。,此,此外,,一,一些属,于,于定性,的,的质量,特,特性,,可,可由专,家,家主观,评,评分、,划,划分等,级,级而使,之,之数量,化,化,得,到,到的数,据,据也属,于,于计量,值,值数据,。,。,2. 计量值数据,任务一,收,收集质量,特,特性数据,定性数据是用来描述质量的定性特征的数据。,任务一,收,收集质量,特,特性数据,(二)定,性,性数据,三、 质,量,量特性数,据,据的收集,任务一,收,收集质量,特,特性数据,(一)全,数,数检验,全数检验是对总体中的全部个体逐一观察、测量、计数、登记,从而 获得对总体质量水平 评价结论的方法。,小 案 例,外国公司怎样才能更加稳妥地进入中国市场?,哈根达斯是一个国际著名的冰淇淋品牌。在进入中国冷饮市场前曾经做了大量细致的市场调查工作。公司认为首先要确定进入中国市场的“登陆滩”。公司从居民的收入水平、消费习惯、对外来产品的接受能力等方面对中国几个大城市作了调查,结果表明上海是最理想的首选地。同时调查结果还表明,上海对中国其他地方消费观念的影响作用也十分明显。,接下来哈根达斯着手研究的是通过什么渠道将产品推进上海的千家万户。调查结果显示上海市民选购冷饮的基本地方是:食品商场、大卖场、超市和便利店。但是对具体的品牌选择上有明显的“购买场所与品牌”的倾向。一些早期进入上海冷饮市场的国际品牌有自己的专卖店(与著名零售商业合作)。而中外合资的便利店中顾客都是较高收入者和追求新奇的年轻人,这部分人是国际品牌在上海的领先采用者。所以,哈根达斯选择在特定便利店与顾客“见面”的销售方式。最早可以选择那些开设在高中、大学校园附近的和高档住宅区邻近的便利店,稳定一段时间使顾客形成购买习惯。,任务一,收,收集质量,特,特性数据,小 案 例,产品包装设计的调查结果表明,哈根达斯若像可口可乐那样“中国化”可能会影响它的品牌形象,所以公司决定在包装设计上尽量维持原有特征。,最后的调查目标是“上海消费者会接受的价格水平”。“和路雪”也是外来者,它已经成为上海消费者最熟悉的食品商品品牌,价格已经作了几次调整,成为大众化冷饮,而哈根达斯要独树一帜,就必须差异化营销。由于哈根达斯的产品定位是高档冰淇淋,价格不能低,这样才能避免陷入原定目标顾客的“价廉无好货”的思维定势。,近年来的实践证明,哈根达斯制定的营销策略实现了既定目标。在年轻人中的普及率、忠诚度都达到并稳定在一定的水平。,任务一,收,收集质量,特,特性数据,任务一,收,收集质量,特,特性数据,(二)随,机,机抽样检,验,验,抽样检验是按照随机抽样的原则,从总体中抽取部分个体组成样本,根据对样品进行检测的结果,推断总体质量水平的方法。,抽样检验抽取样品不受检验人员主观意愿的支配,每一个体被抽中的概率都相同,从而保证了样本在总体中的分布比较均匀,有充分的代表性;同时它还具有节省人力、物力、财力、时间和准确性高的优点;它又可用于破坏性检验和生产过程的质量监控,完成全数检测无法进行的检测项目,具有广泛的应用空间。,1.,简单随机,抽样,2.,分层抽样,3.,系统抽样,4.,整群抽样,5.,多阶段抽样,任务一,收,收集质量,特,特性数据,随机抽样方法分为:,简单随机,抽,抽样又称,纯,纯随机抽,样,样、完全,随,随机抽样,,,,是对总,体,体不进行,任,任何加工,,,,直接进,行,行随机抽,样,样,获取,样,样本的方,法,法。,简单随机,抽,抽样是指,从,从含有N,个,个单位的,总,总体中随,机,机抽取n,个,个单位作,为,为样本,,使,使得每一,个,个容量为n的样本,都,都有相同,的,的机会(,概,概率)被,抽,抽中,这,样,样的抽样,方,方式也称,纯,纯随机抽,样,样。简单,随,随机抽样,是,是最基本,的,的抽样方,法,法。,1. 简单随机抽样,任务一,收,收集质量,特,特性数据,采用简单,随,随机抽样,方,方式抽取,样,样本,先,要,要将总体,各,各个单位,进,进行编码,,,,后按随,机,机原则抽,取,取若干数,码,码,所有,中,中选数码,所,所对应的,单,单位即构,成,成样本。,具,具体做法,如,如下。,任务一,收,收集质量,特,特性数据,(1)抽,签,签法。,当给总体,各,各单位编,号,号后,把,号,号码写在,结,结构无效,的,的签上,,将,将签混合,均,均匀后即,可,可以从中,抽,抽取。采,用,用这种方,法,法简便易,行,行,然而,对,对较大的,总,总体来说,,,,编号做,签,签工作量,很,很大,而,且,且混匀有,困,困难,所,以,以,这种,方,方法的应,用,用具有一,定,定局限性,。,。,任务一,收,收集质量,特,特性数据,(2)随,机,机数字法,。,。,随机数字,可,可以借助,于,于计算机,获,获得,也,可,可应用随,机,机数表,,其,其中随机,数,数表方法,应,应用较为,普,普遍。表,中,中数字是,按,按照完全,随,随机的方,法,法排列的,。,。利用随,机,机数表进,行,行抽样时,,,,首先要,给,给每个总,体,体单位编,号,号,据编,号,号的最大,位,位数确定,将,将要使用,随,随机数表,的,的列数,,然,然后从表,中,中任意一,列,列、任意,一,一行开始,,,,由纵向,或,或横向划,线,线取数,,遇,遇到属于,总,总体单位,编,编号范围,内,内的数组,就,就确定为,样,样本单位,,,,然后继,续,续往下找,。,。如果要,求,求不重复,抽,抽样时,,遇,遇到重复,出,出现的数,字,字(组),就,就弃之,,直,直到取足,要,要求的单,位,位数为止,。,。,2. 分层抽样,任务一,收,收集质量,特,特性数据,分层抽样,又,又称分类,或,或分组抽,样,样,是指,在,在抽样之,前,前先将总,体,体划分为,若,若干层(,类,类),然,后,后从各个,层,层(类),中,中抽取一,定,定数量的,单,单位组成,样,样本的抽,样,样方式。,任务一,收,收集质量,特,特性数据,例子,某大学的经济管理学院想对201,5,年的毕业生,进行一次调查,以便了解他们该年度的就业倾向。,该大学经济管理学院共有5个专业:工商管理、经济,贸易、市场营销、经营管理、物流管理。201,5,年共有,4 500名毕业生,其中工商管理专业1 050名,经济贸易专业,850名,市场营销专业1 150名,经营管理专业1 150名,,物流管理专业300名。使用分层抽样,假定要选取450,人作为样本单位,各专业应抽取的人数分别为:工商,管理专业105名,经济贸易专业85名,市场营销专业,115名,经营管理专业115名,物流管理专业30名。,任务一,收,收集质量,特,特性数据,分层抽样,是,是一种常,用,用的抽样,方,方式。它,主,主要具有,以,以下优点,。,。,(1),分,分层抽样,既,既可以对,总,总体进行,估,估计,也,可,可以对各,层,层的子总,体,体进行估,计,计。,(2),分,分层抽样,既,既可以按,自,自然区域,分,分层,也,可,可以按行,政,政区域进,行,行分层,,这,这样使抽,样,样的组织,和,和实施都,比,比较方便,。,。,(3),分,分层抽样,的,的样本分,布,布在各个,层,层内,从,而,而使样本,在,在总体中,的,的分布比,较,较均匀。,(4),分,分层抽样,可,可以提高,估,估计的精,度,度。,任务一,收,收集质量,特,特性数据,3. 系统抽样,系统抽样,,,,也称等,距,距抽样或,机,机械抽样,,,,是指先,将,将总体各,单,单位按某,种,种顺序排,列,列,并按,某,某种规则,确,确定一个,随,随机起点,,,,然后,,每,每隔一定,的,的间隔抽,取,取一个单,位,位,直至,抽,抽取n个,单,单位形成,一,一个样本,的,的抽样方,式,式。,任务一,收,收集质量,特,特性数据,系统抽样,也,也是一种,常,常用的抽,样,样方式,,它,它主要具,有,有以下优,点,点。,(1)简,便,便易行。,当,当样本容,量,量很大时,,,,简单随,机,机抽样要,逐,逐个使用,随,随机数字,表,表抽选也,是,是非常麻,烦,烦的,而,系,系统抽样,有,有了总体,元,元素的排,序,序,只要,确,确定出抽,样,样的起点,和,和间隔后,,,,样本元,素,素也就随,之,之确定,,而,而且可以,利,利用现有,的,的排列顺,序,序。,(2)系,统,统抽样的,样,样本在总,体,体中的分,布,布一般也,比,比较均匀,,,,由此抽,样,样误差通,常,常要小于,简,简单随机,抽,抽样。如,果,果掌握了,总,总体的有,关,关信息,,将,将总体各,元,元素按有,关,关标志排,列,列,就可,以,以提高估,计,计的精度,。,。,整群抽样,(,(clustersampling),也,称,称集团抽,样,样或分群,随,随机抽样,,,,是将总,体,体划分成,若,若干群,,然,然后以群,作,作为抽样,单,单位,从,中,中抽取部,分,分群,再,对,对抽中的,各,各个群中,所,所包含的,所,所有单位,进,进行观察,的,的抽样方,式,式。,4. 整群抽样,任务一,收,收集质量,特,特性数据,整群抽样,具,具有以下,优,优点。,(1),不,不需要有,总,总体元素,的,的具体名,单,单而只要,有,有群的名,单,单就可以,进,进行抽样,,,,而群的,名,名单比较,容,容易得到,。,。,(2),整,整群抽样,时,时群内各,元,元素比较,集,集中,对,样,样本进行,调,调查比较,方,方便,节,约,约费用。,当,当群内的,各,各元素存,在,在差异时,,,,整群抽,样,样可以提,供,供较好的,结,结果,理,想,想的情况,是,是每一群,都,都是整个,总,总体的一,个,个缩影。,在,在这种情,况,况下,抽,取,取很少的,群,群就可以,提,提供有关,总,总体特征,的,的信息。,但,但是,如,果,果实际情,况,况不是这,样,样,那么,整,整群抽样,的,的误差会,很,很大,相,应,应地,效,果,果也就很,差,差。,任务一,收,收集质量,特,特性数据,5. 多阶段抽样,任务一,收,收集质量,特,特性数据,多阶段抽,样,样又称多,级,级抽样。,上,上述抽样,方,方法的共,同,同特点是,整,整个过程,中,中只有一,次,次随机抽,样,样,因而,统,统称为单,阶,阶段抽样,。,。但是当,总,总体很大,时,时,很难,一,一次抽样,完,完成预定,的,的目标。,多,多阶段抽,样,样是将各,种,种单阶段,抽,抽样方法,结,结合使用,,,,通过多,次,次随机抽,样,样来实现,的,的抽样方,法,法。,任务情境,怎样称翡翠的重量,假设有一颗价值很高的翡翠,想用一架天平尽可能准确地称出它的重量有多少,通常天平总会有些误差。为得到更准确的结果,可以在天平上重复称5次,得到数据,这是含有误差的数据,误差多大,由种种偶然性的因素(环境因素、人操作不当之类)所决定,其值在各次称量时都可能不同,无法确知,但遵从一定的概率规律。一般人使用的方法是取5次称量结果的平均值。一般来讲,这比只称一次要准确,其实这正是统计学中常用的一个重要方法。,任务二,整,整理与显,示,示数据,任务二,整,整理与显,示,示数据,数据整理,是,是根据调,查,查研究的,目,目的,运,用,用科学的,方,方法,对,调,调查所获,得,得的数据,进,进行,审查、检,验,验,分类,、,、汇总等,初,初步加工,,,,并以集,中,中、简明,的,的方式反,映,映调查对,象,象总体情,况,况的过程,。,。数据整,理,理是数据,研,研究的重,要,要基础,,是,是提高调,查,查数据质,量,量和使用,价,价值的必,要,要步骤,,是,是保存数,据,据的客观,要,要求。,任务分析,任务二,整,整理与显,示,示数据,数据的检查是指对所收集的数据的完整性和准确性进行检查。,数据检查的目的是为了甄别出符合研究要求的有效数据,剔除无效数据的干扰和影响,为进一步的统计整理打好基础,从而提高统计分析结果的准确性。针对问卷调查而言,数据检查的主要内容就是问卷的完整性和准确性。,一、 数,据,据的检查,二、 数,据,据的校订,所谓数据的校订,是指根据研究目的和研究设计,对数据做进一步的补充和修正,以满足统计 研究的要求,。,任务二,整,整理与显,示,示数据,三、 数,据,据的排序,数据排序就是将数据按,照数值大小、类别等级等规则进行重新 排列。特别是当数据类型是定量数据,且数据的数量较为庞大时,通过数据排序更,有助于突出一些明显的特征和趋,势,并且可以为后面的分组、众,数、中位数等统计计算提供便利。,任务二,整,整理与显,示,示数据,四、 数,据,据的分组,数据分组是根据统计分析的需要,将,数据总体按照一定的分组标志,分成若干,个组成部分。分组有助于显现数据的类别差,异、结构情况或数量上的层次性,也有助于简化后续的一些统计计算,是整理数据时被广泛采用的一种方法。,任务二,整,整理与显,示,示数据,任务二,整,整理与显,示,示数据,四、 数,据,据的分组,数据分组是根据统计分析的需要,将数据总体按照一定的分组标志,分成若干个组成部分。分组有助于显现数据的类别差异、结构情况或数量上的层次性,也有助于简化后续的一些统计计算,是整理数据时被广泛采用的一种方法。,对于定性数据,可以根据统计分析的需要按照数据的类别或等级对数据进行分组。,任务二,整,整理与显,示,示数据,1. 定性数据分组方法,任务二,整,整理与显,示,示数据,抽取某种产品100个,通过检验,有特等品20个、一等品49个、二等品28个、残次品3个。,例子:,分组方案一:将该数据按照表述中的等级分为四组,显示出具体的产品等级情况。,分组方案二:只考虑产品的合格率,也可以采用另一种分组形式,将其直接分为两组,即合格产品97个、残次品3个。,这两种分组方案各有其针对性,为更直观地显示其类别结构情况,可以采用饼图将这两种分组方案分别表示出来,如图下图所示。,解:,任务二,整,整理与显,示,示数据,对定量数据进行分组的关键是确定组数、组距及组限。,任务二,整,整理与显,示,示数据,1. 定性数据分组方法,任务二,整,整理与显,示,示数据,(1)组数。,对于定量数据分组的组数不存在严格的规定,确定组数主要应参考数据的数量和集中程度。但组数既不宜过多也不宜过少,因为过多或过少都不便于观察数据的特征和规律。美国学者斯特奇斯(H.A.Sturges)提出了一个关于确定组数的经验公式:,式中,K为组数;n为数据个数。,任务二,整,整理与显,示,示数据,(2)组距。,组距可以由组数得到,组距用字母h表示:,式中,K为组数;R为全距,是n个待分组数据中最大值与最小值的差。,任务二,整,整理与显,示,示数据,(3)组限。,在确定了组距之后,就需要确定具体的组限,并进而确定最终的组数。组限就是各个相邻组之间的具体分界值,也就是每一个组的两个端值。,一个组取值范围的下限用字母L表示,上限用字母U表示。组限范围必须包含所有的数据值,即第一组的下限要小于或等于数据中的最小值,而最末组的上限则应大于或等于数据中的最大值。,任务二,整,整理与显,示,示数据,(,4)组中值。,组中值是一个分组的上限和下限的中间值,即:,对于开口组的组中值,通常是以其邻近组的组距来进行计算。即:,分组数据频数柱形图,任务二,整,整理与显,示,示数据,一个组的组中值体现了该组数据的一个平均水平,可以作为一个标志值来近似代表整组数据的数值,可以用柱形图将每组数据的个数更加直观地表示出来,:,五、 数,据,据特征的,描,描述,任务二,整,整理与显,示,示数据,(,一)集中,趋,趋势,常见的计算,方法有:,1. 算术平均数,2. 几何平均数,3. 中位数,4. 众数,计算公式是:,任务二,整,整理与显,示,示数据,1. 算术平均数,任务二,整,整理与显,示,示数据,(1)简,单,单算术平,均,均数。,对于未分,组,组的n个,数,数据x1,,,,x2,x3,,,xn,,,,其简单,算,算术平均,数,数的计算,公,公式为:,计算公式是:,任务二,整,整理与显,示,示数据,(2)加,权,权算术平,均,均数。,当数据经,过,过分组处,理,理后,设,其,其组数为n,各组,的,的组中值,依,依次为x1,x2,,,,x3,,,xn,各组,的,的频数依,次,次为f1,,,,f2,f3,,,fn,,,,那么其,加,加权算术,平,平均数为,:,:,计算公式是:,计算公式是:,任务二,整,整理与显,示,示数据,2,. 几何平均数,计算公式是:,任务二,整,整理与显,示,示数据,3,. 中位数,计算公式是:,任务二,整,整理与显,示,示数据,4,. 众数,(1)当数据的分布状态基本对称时,算术平均数、众数和中位数三者的数值非常接近,甚至几乎相同。,数据分布基本对称时,算术平均数、众数及,中位数的关系,任务二,整,整理与显,示,示数据,5.,算术平均数、众数及中位数的关系,(2)当数据的分布状态不对称时,算术平均数、众数和中位数则取值不同。,数据分布呈正偏态时,算术平均数、众数及中位数的关系,数据分布呈负偏态时,算术平均数、众数及中位数的关系,任务二,整,整理与显,示,示数据,任务二,整,整理与显,示,示数据,(,二)离散,趋,趋势,离散趋势也称离中趋势,用以表征数据离散的程度。对应于数据的集中趋势,用以度量数据离散趋势的常用方法包括对应于算术平均数的平均差、方差与标准差、离散系数,对应于中位数的四分位差,以及对应于众数的异众比率。,任务二,整,整理与显,示,示数据,2.,方差与标准差,3.离散系数,4.,四分位差,5.,异众比率,1.,平均差,离散趋势的,常用方法,任务二,整,整理与显,示,示数据,1. 平均差,平均差是各个数据与它们算术平均数的离差绝对值的算术平均数,用A.D.表示。其取值越大,也就表示数据的离散程度越大。,对于未分组的数据,平均差的计算公式为:,对于已分组的数据,可以采用加权平均差的计算公式:,任务二,整,整理与显,示,示数据,(1)方差与标准差的定义。,方差与标准差,是测度定量数据离散程度时最重要、最常用的统计指标。方差是各个数据与它们算术平均数的离差平方的平均数,通常用2表示。方差的算术平方根就是标准差,也称均方差,通常用表示。,2. 方差与标准差,任务二,整,整理与显,示,示数据,(2) 总体方差与标准差。,首先对总体数据的方差与标准差进行计算。总体容量记为N,则总体数据可以依次表示为X1,X2,X3,Xn,总体平均数记为X。那么,对于已分组及未分组的总体数据,方差和标准差的计算公式分别为(K为组数):,任务二,整,整理与显,示,示数据,未分组总体数据的方差:,任务二,整,整理与显,示,示数据,已分组总体数据的方差:,任务二,整,整理与显,示,示数据,未分组总体数据的标准差:,任务二,整,整理与显,示,示数据,已分组总体数据的标准差:,任务二,整,整理与显,示,示数据,(3) 样本方差与标准差。,样本方差与总体方差在计算上存在着细微的区别:总体方差是用总体数据的个数去除离差平方和;而样本方差则是将样本数据个数先减去1,然后再去除离差平方和。,任务二,整,整理与显,示,示数据,为区别于总体方差和标准差,样本方差用s2表示,样本标准差用s表示。样本容量记为n,样本数据依次为x1,x2,x3,xn,样本平均数用x表示。所以对于已分组及未分组的样本数据,其方差和标准差的计算公式分别为(k为组数):,任务二,整,整理与显,示,示数据,未分组样本数据的方差:,任务二,整,整理与显,示,示数据,已分组样本数据的方差:,任务二,整,整理与显,示,示数据,未分组样本数据的标准差:,任务二,整,整理与显,示,示数据,已分组样本数据的标准差:,任务二,整,整理与显,示,示数据,3. 离散系数,(1)离散系数的含义。,其数值的大小一方面与数据值绝对量的整体水平有关,即当离散程度相当时,数据值绝对量的整体水平越高,其离散趋势的测度值自然也就越大,反之亦然;另一方面,其测度值的大小也与数据值的计量单位有关,当数据值采用不同的计量单位时,其离散趋势测度值的绝对量也就相应不同。,任务二,整,整理与显,示,示数据,离散系数,也称变异系数,就满足了这种要求,它消除了数据值绝对量水平高低以及计量单位不同对考察离散程度相对水平的影响。离散系数是采用离差值与平均数的比值,通常用百分数表示。,任务二,整,整理与显,示,示数据,(2) 标准差系数及公式。,离散系数有多种计算方法,但最常用的是标准差系数。标准差系数就是数据的标准差与其相应的均值之比,公式为:,式中,V为总体标准差系数;Vs为样本标准差系数。,任务二,整,整理与显,示,示数据,4. 四分位差,四分位差是对应于中位数对集中趋势的刻画,用以描述数据离散程度的一种方法。类似于中位数选取在数列中间位置的数据值的思想,应用四分位差时,可以将数列进行四等分,选取位于四分之一和四分之三位置上的两个数据值,分别记为Q1和Q3。那么四分位差就等于Q3减去Q1的差值,用QD(quartile deviation)表示,即:,任务二,整,整理与显,示,示数据,5. 异众比率,对应于众数对数据集中趋势的测度,可以在此基础上用异众比率度量其数据的离散趋势。异众比率是非众数(组)的频数占总频数的比重,通常用Vr表示。其具体的计算公式为:,式中,fm为众数(组)频数。,任务三,统,统计分析,方,方法的应,用,用,医院的新规定是否有帮助,对于新生儿的管理,国外过去传统的做法是让婴儿母亲看一眼新生婴儿后,就将婴儿放到单独的婴儿房间中去喂养,8小时后再放回母亲身边。为了研究新生儿出生后将孩子放在母亲身边是否会增进日后母子的感情,研究人员从临产的孕妇中随机地抽出28个孕妇,进而随机地将其分成两组,每组14个孕妇。一组按传统方式,即前8小时单独喂养;另一组按试验方式,一直放在母亲身边。但在试验中要注意有两个随机性:一是28个孕妇应随机抽出,二是在将28个孕妇分出两组时也应保持随机,因为只有随机性才能避免试验结果的系统偏差并能够控制随机误差。,在婴儿成长的一段时间里,试验者要将这28个母亲每人的有关行为进行记录,如对于哭叫的婴儿是否立即抱起来及搂抱的时间长短,对于孩子定期体检和孩子生病的关心程度等。然后对每个母亲按其对孩子感情的由浅到深的程度打分。其中,0分是对孩子毫无感情,12分表示感情最深。经过整理得出,新的试验方式得分较高,即婴儿出生后就放在母亲身边能加深母子感情。,任务情境,要证实这一判断,可以用假设检验方法检验两个总体(两种方式)的均值是否相等。利用置信区间和假设检验的对偶性,即置信区间和假设检验是同一问题的两个方面,计算两个总体均值之差的95的置信区间。在试验中不难得到如下试验方式的得分数据值,X,1,和对应的频数,f,1,,如下表所示。,得分数据,值,值 X,1,和对应的,频,频数 f,1,任务三,统,统计分析,方,方法的应,用,用,传统方式的得分数据值X2和相应的频数f2,如下表所示,。,任务三,统,统计分析,方,方法的应,用,用,任务三,统,统计分析,方,方法的应,用,用,利用两个总体均值之差置信区间公式得到:,由于两种方式得分均值之差的95置信区间是(3.641.88,3.64+1.88)即(1.76,5.52),试验方式比起传统方式的得分要明显地多26分,说明两种方式的差异是明显的。另外,我们也可将(1.76,5.52)看成一个假设检验的区间,由于这个区间没有能够覆盖原假设 H,0,:,1,2,0(两种方式无差别)的数值,因而不能接受原假设 ,1,2,0,可以认为 ,1,2,0。在该例子中,1,2,是明显的。,任务三,统,统计分析,方,方法的应,用,用,任务三,统,统计分析,方,方法的应,用,用,任务分析,上述这个试验是M.H.Klaus教授等在1972年发表的著名论文母爱(Maternal Attachment)中所做的。这个结论的可靠性取决于样本的随机性和代表性。显然,这个试验的样本(28个母亲)是不大可能从美国这一国家的全部孕妇中抽出的,而是从某一地区的孕妇中抽出的,那么这一地区的教育水平、生活收入等特点就会对试验结果产生影响。事实上,样本抽取地区的老百姓生活水平较低,许多家庭是依靠社会保障和社会救济生活的。由于这一样本的特殊性,那么是否对所有的美国妇女来说这一试验的结果都有效呢?即对于所有的妇女当新生婴儿出生后母子在一起能有益于母子感情的加深呢?其他的科学家也做过相似的试验,回答是肯定的。但研究又发现,越是生活贫困的母亲,越希望新生婴儿能留在自己身边,所产生的母子感情越深厚,影响的时间越深远。这一研究成果的发表在20世纪70年代产生了较大的轰动和影响,许多医院的妇科病房都改进了婴儿喂养方式,从出生后就将孩子留在母亲身边,并一直延续至今,而证明这一试验的方法就是上述讨论的假设检验的统计方法。,一、 参,数,数估计,任务三,统,统计分析,方,方法的应,用,用,(一)点,估,估计,点估计也称定值估计,是指通过计算样本的参数值,估计对应整体参数的一个具体数值。例如,用袋装食品质量的样本平均数作为其总体平均质量的估计值。在点估计的各种方法中,最常见的有矩估计法和最大似然估计法,。,任务三,统,统计分析,方,方法的应,用,用,(二)区,间,间估计,区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如,人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。区间估计的基本思想就是依照一定的概率保证程度,用样本统计量估计总体参数的取值范围,。,任务三,统,统计分析,方,方法的应,用,用,在区间估计中,一个重要的概念是置信度,也称置信水平或置信概率。置信度用1-表示,其中(01)代表一个较小的概率。,将需要估计的总体参数记为,而L和U是由样本确定的两个统计量,如果对于给定的,满足:,就称(L,U)是参数的置信度为1的置信区间。该区间的两个端点L、U分别称为置信下限和置信上限。,商 店 选 址,张先生是台湾某集团的企划部经理,在今年的规划中,集团准备在某地新建一家零售商店。张先生目前正在做这方面的准备工作。其中有一个项目便是进行市场调查。在众多信息中,经过该地的行人数量是要考虑的一个很重要的方面。张先生委托他人进行了两个星期的观察,得到每天经过该地人数如下:,544,468,399,759,526,212,256,456,553,259,469,366,197,178。,如果设立商店要求的最低行人数为520人,那么,根据观察到的上述数据,能否支持设店的决策呢?,把14天经过该地的人数作为样本,商店开张后经过该地的人数作为总体。显然,这是参数估计问题。根据样本数据,可计算得出样本均值为403人,样本标准差为168.48人。设置信度为95,则可估计出平均每天经过此地的人数,如下表所示。,小,案,例,任务三,统,统计分析,方,方法的应,用,用,结果表明,在95的置信度下,行人数为306500人。这个结论意味着,如果要观察100天,则有95天的行人数位于这一区间内。那么如果设立商店要求行人数最低不低于520人,显然在这一地点建立商店是不明智的。,小,案,例,任,务,务,三,三,统,统,计,计,分,分,析,析,方,方,法,法,的,的,应,应,用,用,区,间,间,估,估,计,计,的,的,结,结,果,果,1.,无偏性,2.,一致性,3.,有效性,任,务,务,三,三,统,统,计,计,分,分,析,析,方,方,法,法,的,的,应,(三)评价,估,估计量的标,准,准,1. 无偏性,任务三统,计,计分析方法,的,的应用,无偏性的直观意义是没有系统性误差。虽然每个可能样本的估计值不一定恰好等于未知总体参数,但如果多次抽样,应该要求各个估计值的均值等于总体参数的均值,即从平均意义上看,估计量的估计是没有偏差的。这一要求称为无偏性,如下图所示。一般来说,这是一个优良的估计量必须具备的性质。例如,样本均值x和样本比例p分别满足:,任务三统,计,计分析方法,的,的应用,有偏和无偏,估,估计量示例,任务三统,计,计分析方法,的,的应用,按照无偏性的要求,样本标准差 是不能作为总体标准差的估计量的,因为它不满足无偏性的要求(证明从略)。可以证明,样本修正标准差,是总体标准差的无偏估计量。,2. 一致性,任务三统,计,计分析方法,的,的应用,一致性要求,用,用样本估计,量,量估计和推,断,断总体参数,时,时要达到:,样,样本容量n,充,充分大时,,样,样本估计量,充,充分靠近总,体,体参数,即,随,随着n的无,限,限增大,样,本,本估计量与,未,未知的总体,参,参数之间的,绝,绝对离差任,意,意小的可能,性,性趋于实际,的,的必然性。,根,根据概率论,中,中的大数定,律,律可知,当,样,样本容量越,来,来越大时,,样,样本均值与,总,总体均值的,偏,偏差小于任,意,意给定的正,数,数的可能性,趋,趋近于1的,概,概率,即几,乎,乎是一定发,生,生的。因此,,,,样本估计,量,量是总体参,数,数的一致估,计,计量,如下,图,图所示。,任务三统,计,计分析方法,的,的应用,两个不同容,量,量样本的样,本,本统计量的,抽,抽样分布,3. 有效性,任务三统,计,计分析方法,的,的应用,有效性要求样本估计量估计和推断总体参数时,作为估计量的标准差比其他估计量的标准差小。如果一个无偏估计量在所有无偏估计量中标准差最小,即:,式中, 为任意一个无偏估计量,则 是有效估计量,或称该估计量具有有效性。显然,如果某总体参数具有两个不同的无偏估计量,希望确定哪一个是更有效的估计量,应该选择标准差小的那个。估计量的标准差越小,推导出接近于总体参数估计的值的机会越大,如下图所示。,任务三统,计,计分析方法,的,的应用,两个无偏点,估,估计量的抽,样,样分布,二、 假设,检,检验,1.,2.,3.,4.,5.,建立假设,选取适当的检验统计量,确定显著性水平,对检验统计量进行计算,判断假设是否成立,任务三统,计,计分析方法,的,的应用,(一)假设,检,检验的步骤,任务三统,计,计分析方法,的,的应用,(二)双侧,检,检验与单侧,检,检验,根据显著性水平可以得到临界值,也就是将检验统计量的取值范围划分为接受区域和拒绝区域。拒绝区域表示检验统计量小概率在其中取值的区域。根据实际问题不同,拒绝区域可能是在检验统计量分布的两端,也可能是在其分布的某一侧,这两种情形分别称为双侧检验和单侧检验。单侧检验依据拒绝区域是在左侧还是在右侧,可以分为左单侧检验和右单侧检验。,当需要分析的问题是总体平均数等参数是否发生了变化,而不必关心或区分它是变大或者变小时,就应该采用双侧检验。此时,原假设表述为等式,而备择假设是用“”符号表示的不等式。,(1) 做假设检验之前,应注意资料本身是否有可比性。,(2)当差别有统计学意义时,应注意这样的差别在实际应用中有无意义。,(3)根据资料类型和特点选用正确的假设检验方法。,(4)根据专业及经验确定是选用单侧检验还是双侧检验。,任务三统,计,计分析方法,的,的应用,(三)假设,检,检验的注意,事,事项,任务三统,计,计分析方法,的,的应用,(6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。,(7)报告结论时应注意说明所用的统计量,检验的单双侧及P值的确切范围。,(5)当检验结果为拒绝无效假设时,应注意有发生类错误的可能性,即错误地拒绝了本身成立的 ,发生这种错误的可能性预先是知道的,即检验水准多么大;当检验结果为不拒绝无效假设时,应注意有发生 类错误的可能性,即仍有可能错误地接受了本身就不成立的 ,发生这种错误的可能性预先是不知道的,但与样本含量和类错误的大小有关系。,三、 相关,分,分析,任务三统,计,计分析方法,的,的应用,(一)相关,关,关系的类别,(,1,),1. 函数关系,函数关系是指变量之间存在一种严格的确定性的依存关系,即某一变量发生变化则另一变量也随之发生变化,而且有确定的值与之相对应。,任务三统,计,计分析方法,的,的应用,(,2,),2. 相关关系,相关关系也是变量之间确实存在的一种依存关系,但这种依存关系在数量上并不是严格对应的。所以,在相关关系中,对于某一变量的每一个数值,可以有另一个变量的若干数值与之相对应。因而在实际问题中,很多具有相关关系的变量或现象,都可以表现出一定程度上的因果关系。,对于线性相关关系,可以通过计算协方差等,得到用以表征两个变量间线性相关程度的定量指标相关系数r:,式中,相关系数r的取值介于1与1之间,即1r1。,任务三统,计,计分析方法,的,的应用,(二)线性,相,相关关系,当r0时,表示两个变量为正相关;当r0时,两个变量则为负相关;当r0时,表明两个变量间没有线性相关关系;而当|r|1时,则表示两个变量是完全线性相关关系,即为严格的直线函数关系。,对于r的其他取值,代表的线性相关程度依次为:,0|r|0.3微弱相关;,0.3|r|0.5低度相关;,0.5|r|0.8中度相关;,0.8|r|1高度相关。,任务三统,计,计分析方法,的,的应用,四、 回归,分,分析,一元回归分析,按照涉及的,自变量的多少,多元回归分析,任务三统,计,计分析方法,的,的应用,(一)回归,分,分析的分类,线性回归分析,按照自变量和因变量之间的关系类型,非线性回归分析,任务三统,计,计分析方法,的,的应用,任务三统,计,计分析方法,的,的应用,如果在回归,分,分析中,只,包,包括一个自,变,变量和一个,因,因变量,且,二,二者的关系,可,可用一条直,线,线近似表示,,,,这种回归,分,分析称为一,元,元线性回归,分,分析。如果,回,回归分析中,包,包括两个或,两,两个以上的,自,自变量,且,因,因变量和自,变,变量之间是,线,线性关系,,则,则称为多元,线,线性回归分,析,析。,相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。具体来说,回归分析需要依靠相关分析来表现变量之间数量变化的相关程度,而相关分析也需要通过回归分析来表达变量之间数量相关的具体形式。,任务三统,计,计分析方法,的,的应用,(二)回归,分,分析与相关,分,分析的关系,回归分析的主要目的是通过一个变量或一些变量的变化来解释另一个变量的变化。其主要内容和步骤为:首先,依据对问题的具体判断,将变量分为自变量和因变量;其次,确定适合的数学方程式作为回归模型,描述变量间的相关关系;再次,针对变量的不确定性,对回归模型进行统计检验;最后,应用回归模型,根据自变量来估计、预测因变量,得到最终的分析结论。,任务三统,计,计分析方法,的,的应用,X、Y是具有线性相关关系的两个变量,对于某个确定的x值,其对应的y值虽有波动,但随机误差的期望值应该为零,由此得一元线性回归方程的表达式为:,任务三统,计,计分析方法,的,的应用,(三)一元,线,线性回归分,析,析,1,2,3,4,5,确定变量,建立预测模型,进行相关分析,计算预测误差,确定预测值,任务三统,计,计分析方法,的,的应用,(四)回归,分,分析的步骤,五、 方差,分,分析,任务三统,计,计分析方法,的,的应用,方差分析也是质量管理中常用的统计技术之一,主要针对多个总体的均值是否有显著性差异的检验问题。,方差分析事实上就是对观测数据影响因素的数量分析。,谢谢观看!,Thanks!,谢谢观看,/,欢迎下载,BY FAITH IMEANA VISIONOF GOOD ONE CHERISHES ANDTHEENTHUSIASMTHATPUSHES ONE TOSEEKITS FULFILLMENTREGARDLESS OFOBSTACLES.BY FAITHI BYFAITH,
展开阅读全文