明确地界定“经典测验理论”这一术语是困难的,人们使用这一术语通常也是含糊的。一般说来,人们将本世纪初以来所发展的,至50年代而相对成熟和完善的一套测验理论及其方法,统称为经典测验理论。它与50年代以后标准参照测验理论以及项目反应理论的发展密切相关,人们只是为了区别起见,才将本世纪初以来的测验理论赋予一个新的名称而已。事实上,这一测验理论仍处在不断的发展之中,在实践上仍然有着广泛的应用性。
一、基本理论假设
综观经典测验理论的体系和方法,可以得出以下几条基本的理论假设:
第一、平等形式的测验。
经典测验理论认为,如果在两上或多个测验上,每一被试都具有:(1)同样的真实分数,(2)同样条件的误差的方差,则可以认为这两个或多个测验是平等形式的测验。
第二、真分数。
如果一测验有许多平等形式,则某被试可以在每一形式上获取一个获得分数(即观察分数这样就产生了一个获得分数的频率数分布表,这一分布的平均值(期望值)就称作为该被试的真分数。
第三、误差的无相关性。
根据以上两点假设,经典测验理论进一步对测量误差作出了假设,即误差的无相关性。具体含义是:在两个平等形式的测验x和y上,测量误差与不同测验上的真实得分无相关性,而且两个测验上测量误差之间也无相关性。
显然,这三点理论假设是一个统一的整体,它们互相依赖,互相支持,从而奠定了经典测验理论的基础。
二、信度及效度理论
信度即可靠性,是指测量结果的一致性程度。在理论上信度被定义为一组测量真分数的方差与获得真分数的方差的比率。由于人们不易获得测量中的真分数数据,根据经典测验理论的假设提出一些信度估计的操作化定义及其估计方法,这基本上可分为:(1)再测信度。以同一测验对同一组被试先后实施两次,所得结果的一致性程度。它通常以两次测验结果之间的相关系数表示。(2)复本信度。同一组被试在两个复本上测验上得分的一致性程度。这也以相关系数来表示。(3)内在一致性程度。被试在测验中所包含的各个测题上得分的一致性程度。这可以用分半相关、K-R公式及a系数等方法估计。
信度系数是衡量测验质量好坏的一个重要指标,并且信度在解释个体测验分数的误差以及两种测验分数的比较上也有作用,但是它受到了许多因素的影响。常见的因素有:被试样本组同质性的程度和平均水平,测验的长度,测验的难度等等。
效度即正确性,是指一个测验对它所要测量的特性准确测量的程度。从理论上可定义为所欲测量的特性引起的变异与实测值的变异之比。可以归纳出三种基本的效度类型:效标关联效度、内容效度和结构效度。在效度的估计中相关法及因素分析等方法常常被采用。
效度与信度一样,也是衡量测验质量好坏的一项重要指标,同样也受到了诸多因素的影响。这些因素有测验长度、样本团体的身心状态及其结构、测题的质量、测验的实施条件以及效标的可靠性等等。此外,从信度与效度的定义来看,这两者具有密切关系,即信度是效度的必要条件。
三、方法体系
鉴于以上假设及理论,经典测验理论也形成一套相对完善的方法体系,主要包括题目分析和测验标准化两大部分。
题目分析是针对以往测验题目的编写或选择、题目及测验的评价缺乏客观标准而产生的。对测验题目的整体分析方法主要就是上述的信度与效度估计,而对各测验题目的具体分析则常采用难度和区分度的概念。
经典测验理论中,难度被定义成题目的通过率。对于0、1记分的测验题目而言,难度即为被试答对题目的人数百分比;对于非0、1记分而言,难度则是所有被试在该题目上得分的平均值与该题目上满分的比值。显然,对测题的难度分析有助于测验编制者及测验使用者了解测题对被试的适合性,反过来也能在一定程度上反映被试的行为水平。不过,这种难度的分析只能在测验结束以后才能实施,因而难度大小较大地依赖于被分析的样本组的水平结构。
区分度是指测验题目对被试能力的区分程度,经典测验理论常以某题目高分组与低分组平均分数的差异,或某题的得分与测验总分之间的相关程度来表示。区分度的高低反映了测题对被试能力的鉴别程度,按经典测验理论的观点,测题区分度越高,测题越好。但根据难度和区分度的定义可见,难度与区分度之间有着密切的关系,当难度接近0.5时,区分度才接近最大值,而当难度趋向0或1时,区分度则趋近零。
尽管经典测验理论构建了测验分析的众多方法——信度、效度、难度的区分度等,但是它们受到来自测验各个方面因素的影响,因而,为了控制这些因素对信度、效度难度和区分度等估计的影响,从而产生一个相对稳定的结论,经典测验理论又进一步提出了测验标准化的方法。
测验的标准化主要是指测验的编制、实施、记分及分数的解释等都是按照统一的标准和严格的规定而进行,并使所有被试的测验条件一致。标准化的作用在于可将被试的测验分数上的差异归咎到被试能力水平的差异上。标准化的主要内容包括:(1)对所有被试实施相同的或等值的题目,这是标准化的首要条件;(2)在施测中向每一被试及主试提供相同的指导语,并根据不同性质的测验,给予适当的时间限制;(3)采用客观化评分,排除评分者的主观因素;(4)对分数的解释按照统一的标准,通常以测验常模为依据。
四、评价
随着项目反应理论等新测量理论的日益发展和成熟,我们是否应该抛弃经典测验理论呢?回答应该是否定的。经典测验理论具有项目反应理论所无法替代的优点。首先,它比较直观形象,易于为人们理解;其次,它的数学表达比较简单;此外,其理论假设比较弱,因而在实践中有较广的适用性。更重要的是,研究表明,对于极大多数的测量数据而言,仍然可以采用经典测验理论加以分析。在目前的测验实践中,人们还是普遍采用经典测验理论。