第十一章-定量资料分析课件

资源描述

第十一章定量资料分析第一节资料的整理与录入第二节单变量统计分析第三节双变量统计分析第四节多变量统计分析第十一章定量资料分析第一节资料的整理与录入1第一节资料整理的整理与录入l一、资料的审核l指研究者对所收集到的原始资料进行初步的审阅，校正错误、剔出乱填、空白和严重缺答的废卷。目的是使原始资料具有较高的准确性、完整性和真实性，为数据录入和分析打下基础。第一节资料整理的整理与录入一、资料的审核2l在资料审核中，如发现问题，可以分别不同情况予以处理：l（1）调查中已发现并经认真核实后确认的错误，可由调查者代为更正。l（2）资料中的可疑之处或明确有错误与出入的地方，应设法进行补充调查。l（3）无法进行或无需进行补充调查的情况下，剔除那些明显错误的或无把握的资料，保证真实性和准确性。在资料审核中，如发现问题，可以分别不同情况予以处理：3l资料审核的方法主要有两种，即逻辑审核与计算审核。l逻辑审核，即核查资料的内容是否合乎逻辑和常识，项目之间有无互相矛盾之处，与其他有关资料进行对照是否有明显出入等等。l计算审核，是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错，前后数字之间有无相互矛盾之处等等。资料审核的方法主要有两种，即逻辑审核与计算审核。4数据的审核（原始数据）l 审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况，内容是否符合实际检查数据是否有错误，计算是否正确等数据的审核（原始数据）审核的内容5数据的审核（原始数据）l审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度，审核数据是否符合逻辑，内容是否合理，各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核数据的审核（原始数据）审核数据准确性的方法6数据的审核（第二手数据）1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要2.时效性审核应尽可能使用最新的统计数据3.确认是否必要做进一步的加工整理数据的审核（第二手数据）适用性审核7数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，需要对数据进行筛选3.数据筛选的内容包括：将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来，而不符合特定条件的数据予以剔出数据的筛选对审核过程中发现的错误应尽可能予以纠正8l资料审核的方式：l实地审核：收集资料的过程中进行的审核，即边收集边审核。一旦发现填答错误，或漏填误填，或其他可疑现象，就及时进行询问核实。其优点是及时、效果好；困难在于资料收集时组织安排特别周密，调查员个人处理能力较强。l系统审核（集中审核）：先将资料全部收回，然后集中时间进行审核。其优点是便于统一安排和管理，检查标准统一。但整个周期拉长，且有些核实工作往往那个难以落实。资料审核的方式：9l二、资料转换l将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字。l三、数据录入l数据录入的方式主要有两种：一是直接从问卷上将编好码的数据输入计算机；另一种是先将问卷上编好码的数据转录到专门的登录表上，然后再从登录表上将数据输入计算机。二、资料转换10l四、数据清理l1 有效范围清理l问卷中任何一个变量的编码值都有一定的范围，当数据中数字超出这一范围时，肯定是错误的。l2 逻辑一致性清理l依据问卷中问题相互之间存在的某种内在的逻辑联系，检查前后数据之间的合理性。l3 数据质量抽查四、数据清理11统计分析概述l统计分析就是运用统计学的方法对调查得到的数据资料进行定量分析，以揭示事物内在的数量关系、规律和发展的一种资料分析方法。其主要作用：l1 为研究提供一种清晰准确的形式化语言，对资料进行简化和描述。l如对人们在一胎化政策实行前的行为进行研究，可以发现生育行为受文化程度的影响。从总体上看，文化程度高的妇女其子女数量少于文化程度低的妇女。用定性分析的方法只能得出这样一个概略的认识。采用定量方法进行分析就可以将这种关系提炼成一个数学方程式：Y=4.380.16X。Y代表任何一个妇女生育子女的数量，X代表文化程度。从这个方程中可以看出，每提高一组文化程度，就可以少生0.16个孩子。统计分析概述统计分析就是运用统计学的方法对调查得到的数据资料122 统计分析时进行科学预测、探索未来的重要方法统计分析可以使人发现直觉所不能悟察到的规律，进行科学的预测。3 对变量关系进行深入分析，通过样本推论总体统计分析提供参数估计、假设检验等手段将样本推论到总体的方法。2 统计分析时进行科学预测、探索未来的重要方法13l统计分析的特点l1 统计分析要以定性分析为基础l首先，统计分析是根据数据资料进行的，但这些数据本身不是抽象的数字而是反映了事物属性的统计指标。定性分析要为定量分析规定方向，划分范畴。l其次，统计分析是依据一定公式计算的，公式的选择依赖于一定的理论知识、专业知识和必要的经验。l事实上在定量分析之前已经通过定性分析，从理论和经验上判明了事物之间的联系，决定了要采用的公式。统计分析的特点14l2 统计分析方法必须和其他分析方法结合运用l数量关系只是客观事物存在的诸种关系中的一种，而不是全部。统计分析方法不是万能的，它有自身独特的长处。也有无法克服的局限性，它不能代替其他分析方法。l其次，统计分析方法能够帮助发现社会现象中不易察觉的规律，但对规律的揭示要借助于有关学科的理论。2 统计分析方法必须和其他分析方法结合运用15l3 统计分析有一套专门的方法和技术l统计学是对社会现象作定量研究和分析的科学武器；计算机技术是进行统计研究的技术工具；统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。3 统计分析有一套专门的方法和技术16第二节单变量统计分析主要分为两个大的方面，即描述统计和推论主要分为两个大的方面，即描述统计和推论统计。统计。l描述统计描述统计的主要目的在于用最简单的概括的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信形式反映出大量数据资料所容纳的基本信息。包括息。包括集中趋势分析集中趋势分析、离散趋势分析离散趋势分析等。等。l推论统计推论统计的主要目的，是从样本中所得到的主要目的，是从样本中所得到的数据资料来的数据资料来推断总体推断总体的情况，它主要包的情况，它主要包括括区间估计区间估计和和假设检验假设检验等。等。第二节单变量统计分析主要分为两个大的方面，即描述统计和推论17描述统计1.1.内容内容搜集数据整理数据展示数据2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4￥x x x=30 =30 =30 s s s2 22=105=105=105描述统计内容02550Q1Q2Q3Q4￥x=30 s18推断统计1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体推断统计内容样本总体19描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计（利用样本信息和概率（利用样本信息和概率（利用样本信息和概率（利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等）行估计和检验等）行估计和检验等）行估计和检验等）概率论概率论概率论概率论（包括分布理论、大数定律（包括分布理论、大数定律（包括分布理论、大数定律（包括分布理论、大数定律和中心极限定理等）和中心极限定理等）和中心极限定理等）和中心极限定理等）描述统计描述统计描述统计描述统计（统计数据的搜集、整（统计数据的搜集、整（统计数据的搜集、整（统计数据的搜集、整理、显示和分析等）理、显示和分析等）理、显示和分析等）理、显示和分析等）总体数据总体数据样本数据样本数据统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律20l一、单变量描述统计一、单变量描述统计l1 1 集中趋势分析集中趋势分析l集中趋势分析指的是集中趋势分析指的是用一个典型值用一个典型值来来反映一组数据的反映一组数据的一般水平一般水平，或者是反，或者是反映这组数据向这个典型值集中的情况。映这组数据向这个典型值集中的情况。l这样一个典型值就被称为集中统计量。这样一个典型值就被称为集中统计量。一、单变量描述统计21l 按照处理方式不同集中统量可分为几类，按照处理方式不同集中统量可分为几类，两最常见的集中趋势有两最常见的集中趋势有算术平均值算术平均值、众数众数和中位数和中位数三种。用得最多的是平均数。三种。用得最多的是平均数。l1 1 定类层次：众值（众数定类层次：众值（众数)l其意义为，在众多数值中，出现次数最多其意义为，在众多数值中，出现次数最多的一个数值。的一个数值。l（1 1）原始资料，求众值）原始资料，求众值l例如：例如：2 2，3 3，5 5，5 5，5 5，6 6，6 6，7 7，8 8l出现次数最多的是出现次数最多的是5 5，其，其M M0=50=5 按照处理方式不同集中统量可分为几类，两最常见的集中趋势有算22l（2）次数资料，求众值l例如：江村女青年找对象的标准标准相貌人品文化健康职业能力经济条件政治条件家庭背景感情人数55122 5110413291613682其次数最多的为人品其次数最多的为人品122122人次，所以人次，所以M0=M0=人品人品（2）次数资料，求众值标准相貌人品文化健康职业能力经济条件政23l（3）分组的频数表中，频数最大的区间的组中值就是众值区间组中值频数75-7977170-7472365-6967560-64621055-5957450-54522表中频数最大的为表中频数最大的为1010，对应的区间是对应的区间是60-6460-64，其组中值是其组中值是6262，所以众，所以众值值=62=62。如果在一个次数中出现如果在一个次数中出现两个邻近的次数较多者，两个邻近的次数较多者，众数是二次数多的组中众数是二次数多的组中值的平均值值的平均值（3）分组的频数表中，频数最大的区间的组中值就是众值区间组中24l2 定序层次：中位值（中位数）（单选）l其意义为按大小顺序排列，处在一群数据中央位置的数值。l（1）原始资料，求中位值l例如：有9个人，他们的月工资分别如下：l47，42，50，51，92，112，71，83，108l首先作排列处理，从小到大排列l42，47，50，51，71，83，92，108，112l其次求中央位置lMd的位置=（N+1）2=（9+1）2=5l最后求中位置Md=712 定序层次：中位值（中位数）（单选）25（3 3）定距层次：算术平均数）定距层次：算术平均数l通常称平均数，又称均数或均值。英文为通常称平均数，又称均数或均值。英文为MeanMean，故以故以M M表示。如果是由变量表示。如果是由变量X X计算得来的就记为计算得来的就记为（读（读X X杠），现在一般都以杠），现在一般都以表示样本的平均数，表示样本的平均数，以以U U 表示总体的平均数。表示总体的平均数。l算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数。的总次数。=（3）定距层次：算术平均数通常称平均数，又称均数或均值。英文26算术平均数的计算方法算术平均数的计算方法l1 1、用原始数据计算平均数、用原始数据计算平均数。当一组数据。当一组数据个数不多时，可直接用原始数据来计算。个数不多时，可直接用原始数据来计算。l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为1111，1313，1515，1616，1616，1616，1717，1818，1818，2020。其平。其平均数为：均数为：=1616算术平均数的计算方法1、用原始数据计算平均数。当一组数据个27l2 2、用频数分布表求平均数、用频数分布表求平均数。如果样本的。如果样本的数据很多，达到数十个或数百个，则需编数据很多，达到数十个或数百个，则需编制频数分布表，用频数分布表求平均数。制频数分布表，用频数分布表求平均数。=X Xc c 为各组的组中值，为各组的组中值，f f 为各组的频数，为各组的频数，N N 为总次数（为总次数（）2、用频数分布表求平均数。如果样本的数据很多，达到数十个或28l例调查某企业100名职工的收入，得到表中资料，计算他们的平均收入。收入（元）职工数（人）组中值xf100-199101501500200-299102502500300-3994035014000400-499204509000500-5992055011000合计10038000平均收入=xf/n=38000/100=380（元）例调查某企业100名职工的收入，得到表中资料，计算他们的平292.离散量数分析 l离散趋势指的是测量值围绕中心值比如平均值的分布。极差就是个简单例子。如我们可以报告说平均年龄是37.9，范围是从12到89岁。l离散（中）量数分析指的是用一个特别的数值来反映一组数据相互之间的离散（中）程度.即各组数据相对于平均数的差异程度（离中程度）。差异程度小，平均数的代表性高；差异程度大，代表性低。l它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况。共同反映出资料分布的全面特征，同时它还对现各集中量数的代表性做出补充说明。2.离散量数分析离散趋势指的是测量值围绕中心值比如平均30 示例：某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78,79,80,81.82 X=80数学系:65,72,80,88,95 X=80外语系:35,78,89,98,100 X=80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.示例：31l离散程度表示一组数值的差异情况，测量的是分配的离中趋势。反映数据对于集中趋势的偏离程度的量称为离散程度统计量。l常见的离散量数统计量有全距,标准差,异众比率,和四分位差。离散程度表示一组数值的差异情况，测量的是分配的离中趋势。反映32全距（R）l全距也叫极差,它是一组数据中,最大值与最小值之差.l它是表示数据分布离散程度最简单的方式，即一组数据中最大数与最小数差，故称两极差。R=Xmax-Xmin当数据较多时，应用频数分布表求全距。其方法为：最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-Lmin全距（R）全距也叫极差,它是一组数据中,最大值与最小值之差.33标准差对于定距定比变量，可以采用标准差的测量法l标准差：一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S（或来表示）l式中S（样本统计值）为标准差，X为各学生的成绩分数，为学生成绩的平均数，x为各学生成绩分数的离差，n为学生（数据）数。S=标准差对于定距定比变量，可以采用标准差的测量法标准差：一组34l例：某校三个系各选例：某校三个系各选5 5名同学，参加智力竞赛，他们的名同学，参加智力竞赛，他们的成绩分别如下：成绩分别如下：l中文系：中文系：78 79 80 81 8278 79 80 81 82l数学系：数学系：65 72 80 88 9565 72 80 88 95l英语系：英语系：35 78 89 98 10035 78 89 98 100l平均成绩平均成绩 =80 =80l标准差：一组数据对其平均数的偏差平方的算术平均标准差：一组数据对其平均数的偏差平方的算术平均数的平方根。数的平方根。lS S（中文系）（中文系）=1.414=1.414（分）（分）lS S（数学系）（数学系）=10.8=10.8（分）（分）lS S（英语系）（英语系）=23.8=23.8（分）（分）S=例：某校三个系各选5名同学，参加智力竞赛，他们的成绩分别如下35l l由10个家庭每个月比前两年增加开支的情况是：85，63，50，46，37，34，28，25，22，20。l（1）先计算10个家庭平均每月开支多少？用集中趋势表示X/n=41元l（2）对这10个家庭讲，对这个平均值（41元）的偏差程度如何？往往用标准差表示。lS19.5l这表示，这10个人家，每个月增长消费支出的标准差是19.5。l假如有另10户人家，其标准差是7.8，在这种情况下，说明前10户人家支出的分布比较分散，用的多得很多，用得少的人家则十分节俭。而后10户人家则指出比较平均。因此，标准差越大，表示分布越分散；而标准差越小，表示分布越集中。由10个家庭每个月比前两年增加开支的情况是：85，63，536相对差异（离散或离中）量数 1.离散系数离散系数是一种相对的离散量数统计量，它使我们能够对同一总体中的两种不同的离散量数进行比较，或者对两个不同总体中的同一离散量数进行比较。离散系数的定义是：标准差与平均数的比值，用百分比表示。CV=100%（CV为离散系数）相对差异（离散或离中）量数 1.离散系数37l例例1 1：一项调查得到下列结果，某市人均平均收入为：一项调查得到下列结果，某市人均平均收入为9292元，元，标准差为标准差为1717元，人均住房面积元，人均住房面积7.57.5平方米，标准差为平方米，标准差为1.81.8平方平方米。试比较该市人均收入和人均住房情况哪一个差异程度比米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。较大。l 解解人均收入的离散系数为人均收入的离散系数为lCV=S/100%=18.5%l人均住房面积的离散系数为lCV=1.8/7.5 100%=24%l例2：对广州和武汉两地居民生活质量调查发现，广州居民平均收入为680元，标准差为120元；武汉居民平均收入为360元，标准差为80元。问广州居民相互之间的差异程度，与武汉居民相互之间在收入上的差异程度哪一个更大一些？（应用题）l解广州居民收入的离散系数为CV=120/680 100%=17.6%l武汉居民收入的离散系数为CV=80/360 100%=22.2%例1：一项调查得到下列结果，某市人均平均收入为92元，标准差38标准分数 l是用来描述变量分布中某一分数在整个分是用来描述变量分布中某一分数在整个分布中所处的位置，它是以标准差为单位的布中所处的位置，它是以标准差为单位的相对量数。其计算公式为：相对量数。其计算公式为：l z z =l从公式可以得知标准分数是一个分数与其从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数平均数之差除以标准差所得的商。平均数以上各点的分数为正值，平均数以下各点以上各点的分数为正值，平均数以下各点的分数为负值，平均数的分数为零。的分数为负值，平均数的分数为零。标准分数是用来描述变量分布中某一分数在整个分布中所处的位置39l例如：某班语文平均考试成绩为例如：某班语文平均考试成绩为7575分，标准分，标准差为差为8.58.5分。甲生得分。甲生得9292分，乙生得分，乙生得7070分，问分，问甲乙二生的分数各为多少？甲乙二生的分数各为多少？lZ甲=Z乙=2=-.59据正态分布理论可知的取值范围在据正态分布理论可知的取值范围在-3-3到到+3+3之间。为了使标准分数变成正值并减少小之间。为了使标准分数变成正值并减少小数位数，以便于比较，我们可将标准分数数位数，以便于比较，我们可将标准分数进一步经线性转换成标准分数。其计算公进一步经线性转换成标准分数。其计算公式为：式为：T T=10Z+50=10Z+50 例如：某班语文平均考试成绩为75分，标准差为8.5分。甲生得40l例：有某生三次数学考试的成绩分别为例：有某生三次数学考试的成绩分别为7070、5757、4545，三次考试的班平均为，三次考试的班平均为7070、5555、4242，标准差分别为，标准差分别为8 8、4 4、5 5。如何看待该生的三次考试成绩的地位。如何看待该生的三次考试成绩的地位?l（如果仅从原始分数看，肯定认为第一次最好，其如果仅从原始分数看，肯定认为第一次最好，其实不然，要计算出各次的标准分数，才能说明问题。）实不然，要计算出各次的标准分数，才能说明问题。）l Z1=(70 Z1=(7070)/8=0 Z2=70)/8=0 Z2=（57575555）/4=0.5 /4=0.5 Z3=Z3=（45454242）/5=0.6/5=0.6 l这说明，原始分数为这说明，原始分数为7070，其位置正在平均线上，而，其位置正在平均线上，而原始分数为原始分数为5757的，其位置在平均线上的，其位置在平均线上0.50.5处，而原始处，而原始分数为分数为4545的，其位置在平均线上的，其位置在平均线上0.60.6处。处。例：有某生三次数学考试的成绩分别为70、57、45，三次考试41l 目前，我国各类学校招考新生和对学生进行学习目前，我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示，并用各科成绩相加按总分分一般是用百分制来表示，并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平，来决定被试者的优劣取舍。这种做法开来似乎公平，实际上很不合理。因为各科试题的难易程度不同，造实际上很不合理。因为各科试题的难易程度不同，造成评分标准的宽严不一，因此各科考试成绩的统计量成评分标准的宽严不一，因此各科考试成绩的统计量数，数，如平均数、标准差也不相等。我们不能说语文的如平均数、标准差也不相等。我们不能说语文的考分考分8080分等价于数学的考分的分等价于数学的考分的8080分，也不能说英语考分，也不能说英语考分分7575分等价于物理的考分分等价于物理的考分7575分，分，在这种情况下，把考在这种情况下，把考生的各科考分等量齐观地相加起来，凭个考生的总分生的各科考分等量齐观地相加起来，凭个考生的总分来决定优劣取舍，显然是十分不合理的。科学的方法，来决定优劣取舍，显然是十分不合理的。科学的方法，就是把考生是各科分数，经过一个标准化的转化过程，就是把考生是各科分数，经过一个标准化的转化过程，把每个考生的各科分数变成标准分数，然后再进行相把每个考生的各科分数变成标准分数，然后再进行相加和比较。加和比较。目前，我国各类学校招考新生和对学生进行学习成绩考查评42练习l在一个社区诊所，在一个社区诊所，1010天内来排队看病的人天内来排队看病的人数分别是数分别是5252，6868，3939，4747，5757，3232，7575，2525，3131和和9393，求算术平均数和中位数，以，求算术平均数和中位数，以及标准差及标准差练习在一个社区诊所，10天内来排队看病的人数分别是52，6843二二单变量推论统计l 推论统计，是指根据样本所提供的统计值，运用概率的理论进行分析、论证，在一定的可靠程度上，对总体分布的特征进行估计、推测。具体内容包括：（一）区间估计（二）假设检验二单变量推论统计推论统计，是指根据样本所提供的统计值，44（一）区间估计 l以样本统计量的抽样分布为理论依据，按一定概率要求，由样本统计量的值来估计总体参数的值所在的范围，叫做总体参数的区间估计。l区间估计的实质就是在一定的可信度（置信度）下，用样本统计值的某个范围来估价总体的参数值。范围的大小反映的是这种估。范围的大小反映的是这种估计的精确性问题，而可信度高低反映的是这计的精确性问题，而可信度高低反映的是这种估计的可靠性或和握性问题。种估计的可靠性或和握性问题。（一）区间估计以样本统计量的抽样分布为理论依据，按一定概45l间估计的可靠性或把握性是指用某个区间去估计总体参数时，成功的可能性有多大。可以解释为：如果从总体中重复抽取100次，约有95%次所抽取样本的统计值的某个区间中都将包含总体的参数值，那么就说这个区间估计的可靠性为95%。l区间估计的结果通常可以用下述方式来表述：“我们有95%的把握认为，全市职工的月工资收入在182元至218元之间。”或者“全省人口中，女性占50%-52%的可能性为99%”。间估计的可靠性或把握性是指用某个区间去估计总体参数时，成功的46l社会统计分析中，常用的置信度a分别为90%、95%和99%，与他们所对应的允许误差分别为10%、5%和1%。在计算中，置信度常用1-a 来表示。社会统计分析中，常用的置信度a分别为90%、95%和99%，47l总体均值的区间估计l总体均值的区间估计公式为：l -Zl +Zl其中，为样本平均数；S为样本标准差；Z（1-a）为置信度为1-a的Z值；n为样本规模。总体均值的区间估计48l（2）总体百分数的区间估计l公式为p+（2）总体百分数的区间估计49课堂练习题课堂练习题例：调查某厂职工的工资状况，随机抽取例：调查某厂职工的工资状况，随机抽取900900名工人做样本，调名工人做样本，调查得到他们的月平均工资为查得到他们的月平均工资为186186元，标准差为元，标准差为4242元。求元。求95%95%的的置信度下，全厂职工的月平均工资的置信区间是多少？置信度下，全厂职工的月平均工资的置信区间是多少？解解将调查资料代入总体均值的区间估计公式得将调查资料代入总体均值的区间估计公式得总体均值的置信区间为总体均值的置信区间为183.26-188.74183.26-188.74当将置信度提高到当将置信度提高到99%99%，总体的置信区间为，总体的置信区间为182.39-189.61182.39-189.61元元（随着可靠性的提高，所估计的区间扩大了，但估计的精确性（随着可靠性的提高，所估计的区间扩大了，但估计的精确性就相应地降低了。就相应地降低了。例：从某工厂随机抽取例：从某工厂随机抽取400400名工人进行调查，结果表明女工的比名工人进行调查，结果表明女工的比例为例为20%20%。现在要求在。现在要求在90%90%的置信度下，估计全厂工人中女工的置信度下，估计全厂工人中女工比例的置信区间。比例的置信区间。解解带入总体百分数的区间估计公式带入总体百分数的区间估计公式得得16.7%-23.%16.7%-23.%课堂练习题50l小结：要对总体均数进行区间估计，即在一小结：要对总体均数进行区间估计，即在一定的可靠程度上求出总体均数的置信区间的定的可靠程度上求出总体均数的置信区间的上下限，上下限，首先，首先，要知道与所要估计的参数相要知道与所要估计的参数相对应的样本统计量的值，以及样本统计量的对应的样本统计量的值，以及样本统计量的抽样分布；抽样分布；其次，其次，要求出该统计量的标准误；要求出该统计量的标准误；最后，最后，要明确在多大的可靠度上对总体均数要明确在多大的可靠度上对总体均数作估计，再通过查抽样分布概率分布表，找作估计，再通过查抽样分布概率分布表，找出与该可靠度所对应的该分布在横轴上记分出与该可靠度所对应的该分布在横轴上记分的临界值，从而计算出总体均数的置信区间。的临界值，从而计算出总体均数的置信区间。小结：要对总体均数进行区间估计，即在一定的可靠程度上求出总体51（二）（二）假设检验假设检验 l利用样本信息，根利用样本信息，根据一定的概率，对据一定的概率，对总体参数或分布的总体参数或分布的某一假设作出拒绝某一假设作出拒绝或保留的决断，称或保留的决断，称为假设检验。为假设检验。l假设是对总体参数的一种看法总体参数包括总总体体均均值值、比比例例、方方差差等分析之前之前必需陈述（二）假设检验利用样本信息，根据一定的概率，对总体参数或52假设检验的基本思想.因此我们拒因此我们拒因此我们拒因此我们拒因此我们拒因此我们拒绝假设绝假设绝假设绝假设绝假设绝假设 =50=50=50.如果这是如果这是如果这是如果这是如果这是如果这是总体的真实均总体的真实均总体的真实均总体的真实均总体的真实均总体的真实均值值值值值值样本均值样本均值样本均值 =50=50抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布H H H0 00这个值不像我这个值不像我这个值不像我这个值不像我这个值不像我这个值不像我们应该得到的们应该得到的们应该得到的们应该得到的们应该得到的们应该得到的样本均值样本均值样本均值样本均值样本均值样本均值.202020假设检验的基本思想.因此我们拒绝假设 =50.53总体总体总体总体假设检验的过程（提出假设抽取样本作出决策）抽取随机样本抽取随机样本抽取随机样本抽取随机样本均值均值均值均值 X X=20=20我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁提出假设提出假设提出假设提出假设拒绝假设拒绝假设!别无选择别无选择.作出决策作出决策作出决策作出决策总体假设检验的过程（提出假设抽取样本作出54l当对某一总体参数进行假设检验时，首先从该总体中当对某一总体参数进行假设检验时，首先从该总体中随机抽取一个样本，然后计算统计量的值，并根据经随机抽取一个样本，然后计算统计量的值，并根据经验对相应的总体参数提出一个假设值，这个假设是说验对相应的总体参数提出一个假设值，这个假设是说这个样本统计量的值是由这个假设总体参数值的一个这个样本统计量的值是由这个假设总体参数值的一个随机样本，即这个样本来源于这个总体，而样本统计随机样本，即这个样本来源于这个总体，而样本统计量的值与总体参数值之间的差异是由抽样误差所致。量的值与总体参数值之间的差异是由抽样误差所致。根据这一假设，可以认为像这样的一切可能样本统计根据这一假设，可以认为像这样的一切可能样本统计量的值应当以总体参数值（假设的）为中心形成该统量的值应当以总体参数值（假设的）为中心形成该统计量的一个抽样分布。如果这个随机样本统计量的值计量的一个抽样分布。如果这个随机样本统计量的值在其抽样分布上出现的概率较大时，就得保留这个假在其抽样分布上出现的概率较大时，就得保留这个假设，即承认这个样本来自这个总体，而样本统计量的设，即承认这个样本来自这个总体，而样本统计量的值与总体参数值之间的差异是由抽样误差所致。此时值与总体参数值之间的差异是由抽样误差所致。此时称样本统计量的总体参数与假设的总体参数差异不显称样本统计量的总体参数与假设的总体参数差异不显著。否则就拒绝这个假设，否认这个样本来自这个总著。否则就拒绝这个假设，否认这个样本来自这个总体，样本统计量的总体参数与总体参数值之间有显著体，样本统计量的总体参数与总体参数值之间有显著差异。差异。当对某一总体参数进行假设检验时，首先从该总体中随机抽取一个样55l假设检验假设检验l先对总体的某一参数作出假设，然先对总体的某一参数作出假设，然后用样本的统计量去进行验证，以后用样本的统计量去进行验证，以决定假设是否为总体做接受。依据决定假设是否为总体做接受。依据的概率论中的小概率原理，即的概率论中的小概率原理，即“小小概率事件在一次观察中不可能出现概率事件在一次观察中不可能出现”的原理。的原理。假设检验56l步骤：步骤：l（1 1）建立虚无假设和研究假设，通常是将原假设）建立虚无假设和研究假设，通常是将原假设作为虚无假设；作为虚无假设；l（2 2）根据需要选择适当的显著性水平）根据需要选择适当的显著性水平（即概（即概率的大小），通常有率的大小），通常有=0.01=0.01等；等；l（3 3）根据样本数据计算出统计值，并根据显著性）根据样本数据计算出统计值，并根据显著性水平查出对应的临界值；水平查出对应的临界值；l（4 4）将临界值与统计值进行比较，若临界值大于）将临界值与统计值进行比较，若临界值大于统计值的绝对值，则接受虚无假设；反之，则接统计值的绝对值，则接受虚无假设；反之，则接受研究假设。受研究假设。步骤：57l 什么是原（虚无）假设？什么是原（虚无）假设？(Null(Null Hypothesis)Hypothesis)l1.待检验的假设，又称“0假设”l2.如果错误地作出决策会导致一系列后果l3.总是有等号=,或l4.表示为 H0H0：某一数值指定为=号，即或例如,H0：=3190（克）什么是原（虚无）假设？(Null Hypothesis)58l 什么是备择（研究）假设？什么是备择（研究）假设？l1.与原假设对立的假设l2.总是有不等号:，或。l3.表示为 H1H1：某一数值，或某一数值例如,H1：1.96 =6.671.96l所以拒绝虚无假设，接受研究假设，即从总体所以拒绝虚无假设，接受研究假设，即从总体上来说，该单位职工月平均收入与上月相比有上来说，该单位职工月平均收入与上月相比有变化。变化。例：某单位职工上月平均收入为210元，标准差为15元。问该单62l【例例】某批发商欲从生产厂家购进一批灯泡，根据合同规定，灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布，标准差为20小时。在总体中随机抽取100只灯泡，测得样本均值为960小时。批发商是否应该购买这批灯泡？(0.05)属于检验声明属于检验声明的有效性！的有效性！【例】某批发商欲从生产厂家购进一批灯泡，根据合同规定，灯泡的63lH0:1000lH1:1000l =0.05ln=100l临界值临界值(s):检验统计量检验统计量检验统计量检验统计量:在在 =0.05=0.05的水平上拒绝的水平上拒绝H H0 0有证据表明这批灯泡的使用有证据表明这批灯泡的使用寿命低于寿命低于10001000小时小时决策决策决策决策:结论结论结论结论:-1.645-1.645Z Z0 0拒绝域拒绝域 H0:1000检验统计量:在 =0.05的64第三节双变量统计分析l一、相关的意义及类型l 对两变量间关系进行描述，最常用的是相关量。相关就是指二列变量之间的相互关系。如身高和体重、学习成绩与思想品德等的相互关系。l统计相关分析的目的就是要l（1）确定现象的变化之间是否存在相关关系，并且找出合适的数学表达式。l（2）测定现象之间相关的密切关系l（3）研究相关关系中哪些是主要因素，哪些是次要因素，这些因素之间的关系是如何。第三节双变量统计分析一、相关的意义及类型65l 一种是两列变量的一种是两列变量的变动方向相同变动方向相同，即一种变量，即一种变量变动时，另一种变量也发生或大或小的相同方向变动时，另一种变量也发生或大或小的相同方向的变动，如身高与体重的关系，一般来说，身高的变动，如身高与体重的关系，一般来说，身高越高，体重越重，这叫越高，体重越重，这叫正相关正相关；l 另一种相关情况是当一种变量变动时另一种变另一种相关情况是当一种变量变动时另一种变量是或大或小地向量是或大或小地向相反方向变动相反方向变动，如身体健康状，如身体健康状况与患病率的关系，身体越好，患病率越小，这况与患病率的关系，身体越好，患病率越小，这叫叫负相关负相关。l 第三种是第三种是零相关零相关，即两列变量变化方向，即两列变量变化方向无一定无一定规律规律，一个变量变动时，另一变量的变动方向可，一个变量变动时，另一变量的变动方向可能与其相同，也可能与其相反，且相同与相反的能与其相同，也可能与其相反，且相同与相反的机会趋于相等，如人的相貌与其思想品德之间是机会趋于相等，如人的相貌与其思想品德之间是毫无关系的零相关。毫无关系的零相关。一种是两列变量的变动方向相同，即一种变量变动时，另一种变66l二、交互分类l 交互分类是一种专门用来分析两个定类变量（或一个定类变量，一个定序变量）之间关系的统计分析方法。它是同时依据两个变项的值，将所研究的个案分类，其结果通常以交互分类表的形式反映出来。二、交互分类67某次调查样况的构成情况统计表性别年龄青年中年老年合计男706050180女504030120合计12010080300 上表是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。通过这种交互分类表，不仅可以知道样本中男性、女性各有多少，或者青年、中年、老年各有多少，同时还可以知道男性青年、男性中年等等各有多少。因此，交互分类可以较为深入地描述样本资料的分布状况和内在结构，进而对变量之间的关系进行分析和解释。某次调查样况的构成情况统计表性别年龄青年68X X2 2检验X2检验69Z 检验检验 lZ检验是用正态分布的理论差异发生的概率检验是用正态分布的理论差异发生的概率（误差发生的概率），从而比较两个平均（误差发生的概率），从而比较两个平均数（样本平均数与总体平均数或两个样本数（样本平均数与总体平均数或两个样本平均数）的差异是否显著。平均数）的差异是否显著。Z检验适用于大检验适用于大样本（样本（n30）lZ检验可分为单总体检验和双总体检验。检验可分为单总体检验和双总体检验。Z 检验 Z检验是用正态分布的理论差异发生的概率（误差发生的70t 检验检验 l单总体的检验单总体的检验 l 单总体的检验是检验一个样本平均单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为：其检验统计量的计算公式为：l 式中式中t 为检验的样本平均数与已知总为检验的样本平均数与已知总体平均数的标准离差分数，体平均数的标准离差分数，df 为为t 分布分布的自由度。的自由度。t 检验单总体的检验 71例如：某校初中三年级学生期中英语考试成绩平均数为例如：某校初中三年级学生期中英语考试成绩平均数为7373分，标准差为分，标准差为1717分。期终考分。期终考试后，从该年级学生中随机抽取试后，从该年级学生中随机抽取2020人的英语成绩，其平均数为人的英语成绩，其平均数为79.479.4分，问该年级学生分，问该年级学生的英语成绩是否真有进步？的英语成绩是否真有进步？例如：某校初中三年级学生期中英语考试成绩平均数为73分，标准72一、相关系数一、相关系数l相关系数是用来表示相关程度的量的指标，用相关系数是用来表示相关程度的量的指标，用r表表示。其数值范围在示。其数值范围在-1-1至至+1+1之间，之间，l r的正负号表示变化的方向，的正负号表示变化的方向，l 正号表示变化的方向相同，是正相关；正号表示变化的方向相同，是正相关；l 负号表示变化的方向相反，是负相关。负号表示变化的方向相反，是负相关。l r的绝对值表示两变量之间的密切程度（强度），的绝对值表示两变量之间的密切程度（强度），l 绝对值越接近绝对值越接近1 1，表示两变量之间的关系越密切；，表示两变量之间的关系越密切；l 越接近越接近0 0，表示两变量之间的关系越不密切，表示两变量之间的关系越不密切。l如如r=1=1表示完全正相关；表示完全正相关；r=-1=-1表示完全负相关；表示完全负相关；r=0=0表示零相关。表示零相关。一、相关系数相关系数是用来表示相关程度的量的指标，用r表示73l计算相关系数时，要求二列变量必须成对，而计算相关系数时，要求二列变量必须成对，而且变量的性质不同亦应计算不同的相关系数，且变量的性质不同亦应计算不同的相关系数，即不同的相关系数适用于不同的变量类型。即不同的相关系数适用于不同的变量类型。l如皮尔逊积差相关系数适用于两列等距变量；如皮尔逊积差相关系数适用于两列等距变量；l斯皮尔曼等级相关系数适用于两列等级变量；斯皮尔曼等级相关系数适用于两列等级变量；l点二列相关系数适用于反映一等距变量与另一点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度；真正二分变量间相关程度；l二列相关系数适用于反映一等距变量与另一人二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度，为二分变量间相关程度，计算相关系数时，要求二列变量必须成对，而且变量的性质不同亦应74积差相关系数积差相关系数 l式中：式中：，n n为为成对变量的数目，成对变量的数目，S SX X为为X X变量的标变量的标准差，准差，S SY Y为为Y Y变量的标准差。变量的标准差。积差相关系数式中：，n为75l若用原始分数直接求若用原始分数直接求r，其计算公式，其计算公式为：为：若用标准分数计算若用标准分数计算r，其公式为：，其公式为：若用原始分数直接求r，其计算公式为：若用标准分数计算r，765名大学生身高提高相关系数计算表名大学生身高提高相关系数计算表5名大学生身高提高相关系数计算表77l 不同层次变量的相关测量与检验不同层次变量的相关测量与检验l1.定类变量与定类变量定类变量与定类变量l消减误差比例，指的就是知道消减误差比例，指的就是知道X的值时所减少的误差的值时所减少的误差（E1-E2）与总误差的比。）与总误差的比。l2.定序变量与定序变量定序变量与定序变量l3.定类变量（或定序变量）与定距变量定类变量（或定序变量）与定距变量l4.定距变量和定距变量定距变量和定距变量两变量层次相关系数取值范围是否对称有无消减误差的比例意义检验方法SPSS有无该系数定类-定类定类-定序 0，1对称有x2有定序-定序G-1，1对称有Z有定类-定距定序-定距EE2 0，1不对称无有F有定距-定距rr2-1，10，1对称无有F（t检验）有不同层次变量的相关测量与检验两变量层次相关系数取值78二、回归分析及测定方法 l 相关系数是一种广泛使用的描述统计量，用以描述两个相关系数是一种广泛使用的描述统计量，用以描述两个变量间的关系，除此以外，它还具有预测功能，即根据一个变量间的关系，除此以外，它还具有预测功能，即根据一个变量的情况去预测另一个变量。变量的情况去预测另一个变量。l 如果我们把存在相关的两个变量中的一个作为自变量如果我们把存在相关的两个变量中的一个作为自变量（预测变量），另一个作为因变量（标准变量），并且把两（预测变量），另一个作为因变量（标准变量），并且把两者之间并不十分准确、稳定的关系用数学方程式表达出来，者之间并不十分准确、稳定的关系用数学方程式表达出来，则可以利用该方程自变量来估计预测因变量的估计值。这一则可以利用该方程自变量来估计预测因变量的估计值。这一过程称为回归分析。过程称为回归分析。l 相关分析的目的在于了解两个变量间的关系强度，即用相关分析的目的在于了解两个变量间的关系强度，即用相关系数来描述相关系数来描述X X和和Y Y两个变量之间的共变特征。回归分析则两个变量之间的共变特征。回归分析则是对相关关系的现象，根据其关系的形态找出一个合适的数是对相关关系的现象，根据其关系的形态找出一个合适的数学模型，即建立回归方程，来近似地表达变量间的平均变化学模型，即建立回归方程，来近似地表达变量间的平均变化关系，以便依据回归方程对未知的情况进行估计和预测。建关系，以便依据回归方程对未知的情况进行估计和预测。建立回归方程的基础是最小二乘法。立回归方程的基础是最小二乘法。l 二、回归分析及测定方法相关系数是一种广泛使用的描述统79l两个变量（预测变量X与标准变量Y）间的回归分析，是只有一个自变量的线性回归，也叫一元线性回归。其回归方程为：其中其中a,ba,b、对一对特定数据来说是常数：、对一对特定数据来说是常数：第四节第四节双变量统计分析双变量统计分析两个变量（预测变量X与标准变量Y）间的回归分析，是只有一个自80l例：以前例数据计算由（身高）预测例：以前例数据计算由（身高）预测（体重）的回归方程。（体重）的回归方程。有了这一回归方程后，我们就可以由预测变量的值有了这一回归方程后，我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生经回归方程计算出标准变量的预测值。如另一名大学生的身高为的身高为170170厘米，则其体重的预测值为厘米，则其体重的预测值为65.7865.78公斤。公斤。例：以前例数据计算由（身高）预测（体重）的回归方程。有了这一81第五节第五节多变量统计分析多变量统计分析l一、阐释模式（一、阐释模式（elaboration)l所关心的是两个变量之间的关系，它是通过引进所关心的是两个变量之间的关系，它是通过引进并控制第三变量，来进一步了解和探讨原来两个并控制第三变量，来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。变量之间关系性质的统计分析方法。l因果分析因果分析l阐明分析阐明分析l条件分析条件分析第五节多变量统计分析一、阐释模式（elaboration82l因果分析因果分析的目标是检定被看作自变量的的目标是检定被看作自变量的X与被与被看作因变量的看作因变量的Y之间，是否确实存在因果关系。之间，是否确实存在因果关系。引进若干前置变量（第三变量），以判明引进若干前置变量（第三变量），以判明X与与Y之间的因果关系是否为虚假的，即二者的关系之间的因果关系是否为虚假的，即二者的关系是否为前置变量影响的结果。（例如，住户的是否为前置变量影响的结果。（例如，住户的拥挤程度对夫妻间冲突的影响）拥挤程度对夫妻间冲突的影响）l阐明分析阐明分析的目标则是探讨因果关系的作用方式的目标则是探讨因果关系的作用方式与作用途径。与作用途径。l条件分析条件分析所关注的则是原关系在不同条件下是所关注的则是原关系在不同条件下是否会有所不同。否会有所不同。因果分析的目标是检定被看作自变量的X与被看作因变量的Y之间，83住户拥挤对夫妻冲突的影响（住户拥挤对夫妻冲突的影响（%）夫妻冲突住户拥挤程度高低高低63.8%36.2%41.6%58.4%（n)(599)(401)G=0.423 Z=5.333 P0.05住户拥挤对夫妻冲突的影响（%）夫妻冲突住户拥挤程度高低高684控制家庭经济水平后住户拥挤程度对夫妻冲突的影响（控制家庭经济水平后住户拥挤程度对夫妻冲突的影响（%）夫妻冲突经济水平高经济水平中经济水平低拥挤程度拥挤程度拥挤程度高低高低高低高低61.4 62.238.6 37.881.0 80.719.0 19.310.6 9.689.4 90.4(n)(220)(90)(294)(85)(197)(114)G=-0.018 G=0.008 G=0.052 Z=0.099(不显著）Z=0.040(不显著）Z=0.171(不显著）控制家庭经济水平后住户拥挤程度对夫妻冲突的影响（%）经济水85l二、复相关分析二、复相关分析l复相关分析是一种以一个统计值来简化多复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析个自变量与一个因变量之间关系的统计分析方法。要求所有的变量都是定距以上层次的方法。要求所有的变量都是定距以上层次的变量变量l三、多元回归分析三、多元回归分析lY=b1x1+b2x2+bkxk+a lB值称为净回归系数，它表示的是在控制了值称为净回归系数，它表示的是在控制了其他自变量以后，某一变量对因变量的单独其他自变量以后，某一变量对因变量的单独效果。效果。二、复相关分析复相关分析是一种以一个统计值来简化多个自变量与86

展开阅读全文

第十一章-定量资料分析课件

最新文档