考研网 发表于 2016-7-5 21:19:59

概化理论

1.方差分量的估计
  凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的,而CTT理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT理论。
  GT理论的基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score),用“概括化系数,G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
  概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。如学生阅读能力测验,其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。
  2.概化系数与可靠性指数
  在GT中,将CTT中的“信度”转化为概化系数(G系数)或可靠性指标Ф系数。用于相对决策的概化系数,简称G系数(也可用Ep2表示),是测量目标方差与测量目标方差加上相对误差方差之和的比率,近似等于观察分数与全域分数相关平方的期望值。在GT中,全域分数就是个体所有重复测量结果的期望值,测量目标的方差实际就是全域分数方差。用于绝对决策的依存性指标,又称Φ系数,是测量目标方差与测量目标方差加上绝对误差方差之和的比率,关注的是绝对误差,即所有侧面的主效应和侧面及测量目标之间的交互效应的方差分量。
  GT研究过程由两大部分组成,G研究和D研究。G研究是指在观测全域上,根据测量设计对测量目标、所有侧面以及它们之间的交互作用的方差协方差分量进行估计。在这个研究中,需要研究者明确测量对象和测量目标、测量侧面和观测全域以及它们的关系,还包括对测量设计和测量模式的确定。测量目标和测量侧面形成3种测量设计,分别是,交叉没原封不动(cross design)、嵌套设计(nest design)和混合设计(mixed design)。每种测量设计都对应相应的测量模型及其假设。在测量模型中,将观察分数分解为总体均值和各种误差变异效应的累加。依据测量设计收集样本数据后,运用ANOVA的分析方法估计观察全域的方差分量,并确定测量目标,测量侧面及其交互作用的方差分量。这些方差估计值将为有效的测量方法提供—定信息。D研究则是在G研究基础上,通过改变测量侧面结构,测验模型等来考察概化系数和可靠性指数的变化,从而为有效控制误差,提高测验精度提供参考。其中,需要根据测量目的确定概化全域,也就是确定测验结果推广的侧面,及各侧面推广的范围。然后根据确定的概化全域,在各侧面条件样本水平上重新估计G研究中各因素的效应和交互作用的方差分量,获得特定概化全域上的整个测验的概化系数和可靠性指数。通过多次反复。获得不同概化全域上的系数指标,比较这些系数的估计精度,从而确定最佳的测量设计方案,将G研究中结果概化到新的全域上。
页: [1]
查看完整版本: 概化理论