资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第9章测量:量表、信度、效度,本章学习目的:,1.了解如何和何时使用不同形式的评定量表与等级量表。,2.解释测量的稳定性与一致性,以及它们是被如何证实的。,3.熟悉不同形式的效度。,4.讨论各种决定测量方法质量的概念,以及为什么需要在研究中确定它们。,本章学习重点:测量的信度和效度,9.1,评定量表,二分量表(dichotomous scale),类别量表(category scale),李克特量表(Likert Scale),数值量表(numerical scale),语义差异量表(semantic differential scale),列举式评定量表(itemized rating scale),固定或常数总和评定量表(fixed or constant sum rating scale),Stapel量表(Stapel Scale),图形评定量表(graphic rating scale),共识性量表(consensus scale),不常用的:塞斯通等距量表与多元尺度量表(Multidimensional Scale),9.1评定量表,二分量表,二分量表通常以“是或“否来做答复,如以下例如(它采用定类尺度来标记受试者的答复)。,类别量表类别量表通常使用多重选项来标记单一答案,同样地,它一般也是采用定类尺度,9.1评定量表,李克特量表,李克特量表被设计为五点量表,如下所示,定位点(anchors)是用来代表受试者对表达句的赞成或不赞成程度有多强烈。,接着,可将每位受试者在题项上的答案加总,而这些题项通常用来测量某个概念或变量。该量表一般采用的是定距尺度,而且量表中任何二点之间的差距是相等的。,语义差异量表,几个具有两极性的属性,可通过所谓的语义空间(semantic space)加以测量,将相对应的属性放在量表两端当作极端值,而受试者那么被要求在语义空间中指出他们对某些特定的个人、目标物或事件的态度。例如,常使用某些具有相对性的形容词,如“好一坏、“强一弱、“热一冷等。语义差异量表不仅常被用来评估受试者对某个品牌、广告、目标物或个人的态度,还时常可通过受试者的答复来获得不错的观点。此外,该量表通常会被当作定距尺度来处理。,9.1评定量表,数值量表,数值量表跟语义差异量表很类似,也经常被当成定距尺度来使用。不过其不同之处在于数值量表提供五点或七点量表,并且将极端的形容词放在两端。,列举式评定量表,列举式评定量表根据研究需要为每一个题项提供五点或七点量表,由每位受试者在每个题项旁填写适宜的数字,或是圈选出他认为适合的数字,然后将这些题项的答案加总。该量表也被当成定距尺度来使用。如果需要的话,列举式评定量表可以灵活地提供较多的定位点(四点、五点、七点、九点或任何数目),而且也能使用不同的定位方式(如从“非常不重要到“非常重要;从“极端低到“极端高)。当有中立点时,量表为平衡式评定量表,当没有中立点时,量表为不平衡式评定量表。,研究报告指出,五点量表就是一个很好的量尺,而且评定量表从五点增加到七点或增加到九点其实并不会增加评定信度。,列举式评定量表常被应用到企业研究中,既然该量表本身可弹性地调整成想要采用的点数,那么每一个定位点的命名就必须仔细推敲以符合研究者欲测量变量的特性。,9.1评定量表,固定或常数总和评定量表,受试者必须在欲评定的变量之间分配分数。p144,量表,Stapel量表可同时测量受试者对研究主题的态度的方向与强度,其特色在于它设置了中心点以及数值量表的范围。例如,量表的两端是从十3到一3。这提供了一个用来测量距离的方式,即表现受试者的答案与测量因素有多近或多远。但该量表并无绝对零点,所以属于定距尺度。145,9.1评定量表,9.1评定量表,图形评定量表,利用图形可帮助受试者在量表中指出其答案所在的位置。通过在坐标上适当的点做记号,帮助受试者在量表上表达他们对特定问题的答复。该量表的优点是容易作答,并可通过量表中标示点旁的简短表达来导引评点的位置。,共识性量表,共识性量表是由座谈小组依据与被测量概念的切题程度或相关程度来挑选特定的题项,并经信度与效度检验之后开展而成。其中,塞斯通等距量表(Thurstone EqualAppearing Interval Scale)就是一种共识性量表,在挑选出题项后使用大量表达概念(命题)的卡片,让座谈小组评定该命题与被研究概念的接近程度。,9.1评定量表,其他量表,有些高级测量方法,如多维度量表可用视觉方式将目标物、人或这二者加以量化,然后再进行联合分析(cojoint analysis)。该量表可提供构念中各维度间关系的想像空间。,在此需注意的是,许多有名的量表如李克特量表或其他数值量表是组织研究中最常用的测量态度与行为的工具。,9.2等级量表,等级量表是用来测量个体对两个或两个以上目标物或工程间(其本质是定序尺度)的偏好。然而,这样的排序也许不能为某些正(寻求答案的人提供决定性的线索。例如,假设目前经理正在搜集四条生产线的相关信息,以决定要将重心放在哪一条生产线上。假定有35%的受试者选第一条生产线,25%的受试者选第二条生产线,20%的受试者认为第三条与第四条对他们而言都一样重要。然而,管理者还是无法决定,是否该选择最多人偏好的第一条生产线,因为其中有65%的受试者并未选择该条生产线。在等级量表中可使用的方法包括:配比照较、强迫选择和比较量表,9.2等级量表,配比照较,配比照较量表常用来评估数量较少的目标物,由受试者在两个目标物间做出选择以确定受试者的偏好。在先前的例子中,如果使用配比照较,那么可计算受试者对某一产品的一致性偏好,例如喜欢第一条生产线多过喜欢第二条,也多过喜欢第三条或第四条。如此,管理者终于可确定须将重心放在哪一条生产线。然而随着比较目标物数量的增加,配比照较的次数也会随之增加(假使目标物有n个,那么配比照较的次数为n(n一1)/2),这也使得受试者容易感到疲倦。因此假设目标物较少,配比照较是不错的方法,强迫选择,强迫选择是要求受试者将目标物或群体做相对等级的排序。此方法对受试者而言比较容易,特别是对需要排序的选项,且目标物或群体数量有限的时候。,9.2等级量表,比较量表,比较量表提供一个偏好的标杆或评分用以评估对研究目标物、事件或情况的态度。,9.2等级量表,总而言之,定类资料本身即适用于二分法或类别量表,具备顺序特性的资料那么适用于任何一个等级量表:配比照较、强迫选择或比较量表。具备定距或等同于定距特性的资料那么适用于评定量表,这些都可以在上述各种不同范例中看到。语义差异量表与数值量表严格说来并不是定距尺度,虽然它们时常在资料分析中被视为定距尺度来处理。,评定量表通常被用来测量大局部的行为概念,而等级量表那么是将原本以定类尺度做区别的变量进一步进行比较或加以排序。,9.3测量的质量,通过一套评估方法来确保这些已开发量表的质量。,9.3测量的质量,题项分析,题项分析(item analysis)是用来了解量表中的题项是否恰当以及题项所具有的鉴别力。换言之,就是检验每个题项是否具有将研究对象区别出高分群与低分群的能力。在题项分析中,可通过t值(t-values)来检验高分群与低分群的平均数是否有显著的差异(可参考本书最后对t检验的解释)。具有高t值的题项(该指标可在量表中找出具有区别能力的题项)将被留在量表内,然后再对测量工具进行信度检验,最后确定测量工具的效度。,所谓的信度是当测量工具在测量任一概念时检验其是否具有一致性。效度那么是检验开发出的测量工具是否能真正测量出想要测量的特定概念。换句话说,效度是关于我们是否真正测量到“对的概念,而信度那么是与测量的稳定性与一致性有关。测量的效度与信度可以证明研究的科学严谨性。,9.4信度,信度是指测量无偏差的程度。没有偏差是指在不同时间点和以量表内不同题项去测量的结果应该是一致的。换言之,测量工具的信度是一项稳定性指标,且量表所使用的题项必须跟想要测量的概念是一致的,如此才能确定测量的质量。,9.4信度,测量的稳定性,测量的稳定性或低可变性是指在不同时间点的测量结果相同,即使在无法控制测量条件或受试者状态的情况下,测量结果仍然稳定不变。这种稳定性确保了测量的质量,因为不管何时概念都可以稳定地被测量。一般来说,有两种稳定性的检验方式再测信度与复本信度。,再测信度,将第二次与第一次的测量做比较,这种经重复测量所得到的信度系数,我们称之为再测信度(test-retest reliability)。也就是说,将一份测量某概念且包含数个题项的问卷对同一组受试者进行测试,第一次与第二次测试可能间隔一段时间,例如,数星期到6个月之间。然后计算同一组受试者在两个不同时点作答所得的分数,并求两分数间的相关系数,这个相关系数被称为再测系数(test-retest coefficient)。系数愈高,表示再测信度愈高,也代表测量的稳定性。,9.4信度,复本信度,针对同一概念,有两组同质且相当的测量工具,这两组工具测量出的结果高度相关时,即可认为具有复本信度。一般而言,这两种版本的量表会有相似的题项与填答格式,唯一不同的是表达的语法与问题呈现的顺序。在此我们将尝试找出因为题项的语法与顺序所造成的误差。如果这两组复本所得出的分数之间高度相关(高于8以上),我们就可确定该份量表是相当可靠的,而且由语法、排序或其他因素所造成的误差是相当小的。,量表的内部一致性,量表的内部一致性是指在测量某一概念时题项间的一致性指标。换句话说,这些题项应该是“被当成具有同样性质的组合,而且都能够独立测量相同概念。也就是说受试者对这些题项都有一个整体的且同样的看法。一致性可通过检查量表中题项与题项之间,或子题项之间是否高度相关来确定。一般来说,一致性指标包括工程间一致性信度与折半信度。,9.4信度,1.工程间一致性信度,工程间一致性信度是用来检验在同一个量表中受试者对所有题项答案的一致性。假使这些题项是对相同概念的独立测量单位,那么题与题之间应有一定的相关程度。而在工程间一致性信度指标中,最普遍使用的检验是Cronbach s a系数(Cronbach,l946),它适用于多重评分量表的题项(multipoint-scaled items)。另外,库李法那么适用于二分法的题项(dichotomous items),上述系数愈高,测量工具愈好。,2.折半信度,折半信度(split-half reliability)是指将单一量表拆成两半之后彼此的相关性。不过,该系数的估计值会受到将量表内的题项拆成两半的方式的影响。此外,折半信度只有在一种情况下会比Cronbachs系数更适用,即只有当量表的题项要测量一个维度以上的情况下,而且其他限定条件都刚好符合时(完整说明请参考Campbell,1976)才比较好。因此,大局部的案例中,Cronbachs a系数可以被视为代表工程间一致性信度的适宜指标。,9.4信度,在此应注意的是,还有另一种信度,称为评分者间信度(interrater reliability),它是指不同的评定者对同一个现象的看法或对反响的解释(这不应与测量工具的信度混淆)。如前所述,当资料是通过观察、投射测验或非结构性访谈获得时,因为这些资料很大程度上依赖主观性的解释来分析,所以评分者间信度显得格外重要。,另外,信度在量表质量的检验中是一个必要条件而非充分条件。例如,某个量表具有高度稳定性与一致性,因此能可靠地测量某个概念,但是它衡量到的也许不是研究者想要测量的概念。而效度就是用来确保量表具有能够测量到想要测量的概念的能力。以下我们将讨论效度的概念。,9.5效度,在本书第7章关于实验设计的局部,曾经讨论过几个看起来有点关联的名词内部效度与外部有效性。这些概念代表的意思是因果关系的正确性(内部效度),以及该因果关系可类推到外部环境的共性(外部有效性)。而我们现在要探讨的是测量工具本身的效度,即当我们询问受试者一组问题后(如开发出一个测量工具),其实是
展开阅读全文