2015考研：心理学测量笔记（3）

考研网 · 发表于 2016-7-28 12:39:04

　　第三章心理测验的编制
　　工欲善其事，必先利其器。为了在研究工作和实践中更好地发挥测验的效能，首先要编制出各种高质量的、合用的测验。
　　第一节编制测验的一般程序
　　编造测验的方法，依测验的性质而异。不同类型，不同用途的测验，编制的具体过程是不同的。但由于测验原理大体相同，因而可以概括出一套通用的编制程序。
　　总的说来，编制心理测验一般要经过以下几个步骤，确定测验的目的，制定编题计划，编辑题目，题目的试测与分析，集合成测验，将测验标准化，对测验的鉴定，编写测验说明书。
　　一、确定测验的目的
　　(一)测量对象
　　在编造测验前首先要明确测量对象，也就是该测验编成后要用于哪些团体。只有对受测者的年龄、智力水平、社会经济和文化背景以及阅读水平等心中有数，编制测验时才能有的放矢。
　　(二)测量目标
　　所编的测验用来测量什么，是测能力、人格，还是学业成就，也是必须首先考虑的问题。不但要明确测量的目标，还要对测量目标加以分析，将此目标转换成可操作的术语，即将目标具体化。如美国著名测验学家瑟斯顿通过因素分析，将智力分解为七种基本心理能力：
　　语文理解——阅读时了解文义的能力。
　　语词流畅——正确迅速拼字与敏捷联想词义的能力
　　数字运算——正确而迅速使用数字解答算术问题的能力。
　　空间关系——运用感觉器官及知觉经验正确判断空间方向及各种关系的能力。
　　机械记忆——对事物强记的能力。
　　知觉速度——迅速而正确地观察与辨别事物的能力。
　　一般推理——根据已知条件推理判断的能力。
　　瑟斯顿根据上述七种因素于1941年编成了“基本心理能力测验”又如，在60年代后期，人们开始对测量创造力发生兴趣。作为指导测验编制的操作定义，有人将创造力看作发散思维的能力，即对规定的刺激产生大量的、变化的、独特反应的能力，据此定义从反应的流畅性、变通性(灵活多变)和独创性三方面来测量创造力。
　　(三)测量目的
　　所编出的测验是要对被试做描述，还是做诊断，亦或是选拔和预测，这一点也是在测验编制前就应明确的。目的不同，编制测验时的取材范围以及试题难度等也不尽同。譬如，中学毕业考试的目的是考察学生是否掌握了中学阶段所学的各学科的基本知识，在命题时主要注意取材的代表性，不必过多参考虑题目的难度。而大学入学测验的目的是把学生作区分，以便择优录取，因此试题取样的代表性并不重要(在我国，高考实际上还具有左右中学教学的指挥棒作用，所以应考虑题目取样是否符合教学大纲)，但必须根据录取率来确定适当的难度。而一个学科诊断测验，则只要能找出学生学习困难之所在就可以了，对题目的难度和取样的代表性都不必考虑。

kysix · 发表于 2016-7-28 13:38:20

　　二、制定编题计划
　　编题计划，实际上就是编制测验的蓝图，通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容、技能的相对重视程度。不同的测验有不同的内容和技能，对于学绩测验来说，所谓内容就是某一学科教材中的各个课题;所谓技能，就是在教学中要达到的行为目标。美国心理学家布鲁姆(B•S•BlJoom)最早提出教育目标的分类问题。他把学习的心理活动过程分成认知、精神运动和情感三个领域，又把认知领域具体分为知道(记忆事实、条件、方法、原理等的能力)、理解、应用、分析、综合、评价六个层次。在布鲁姆等人编的《教育目标的分类》一书中，为每个认知层次提供了许多题目范例。后来人们一般就依据布鲁姆的认知性行为目标编拟学科试题，以测量学生的学习结果。
　　表3—1是一个小学高年级自然常识测验的编题计划。表中的数字代表每一类题目所占的百分比，这些比例反映着每一个内容及目标的相对重要性。在编制标准化的学绩测验时，这种双向细目表是由学科专家和有经验的教师，在对教材和教学大纲仔细分析的基础上，经过集体讨论制定的，以确保分类合理，比例恰当。
　　表3一1小学自然常识测验编题计划
　　获得基
　　本知识理解原
　　理原则应用原
　　理原则分析因
　　果关系综合成
　　系统
　　见解建立评
　　价标准合计
　　生物世界 3 5 6 3 2 1 20
　　资源利用 2 3 3 1 1 0 10
　　动力和机械 2 3 4 2 0 1 12
　　物质、物性与能量 5 6 8 3 2 1 25
　　气象 2 4 3 2 2 0 13
　　宇宙 2 5 4 1 0 0 12
　　地球 2 2 2 1 1 0 8
　　合计 18 28 30 13 8 8 100
　　测验计划有两个用途：
　　(一)在编题阶段，测验计划指出应该写多少和写哪些种类的题目;题目编好后可将题目的实际分布情况与测验计划对照，以确定测验题目是否恰当地代表了所要测量的领域，核对重要方面的内容是否有遗漏。
　　(二)在记分时可按表中百分比确定每类题目的分数。
　　三、编辑项目或题目
　　(一)搜集有关资料
　　测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。为此要注意以下几个问题：
　　1.材料要丰富
　　资料搜集愈齐全，命题工作便愈顺利，这样测验内容便不致有所偏颇，而且能提高行为样本的代表性。如编制人格测验，搜集的资料应包括：人格的主要理论，用于描述人格的术语，临床观察的资料，以及其它人格调查表的题目等。
　　2.材料要有普遍性
　　所选择的材料对测验对象要尽可能公平，即受测者都有相等的学习机会。譬如，编制标准化的学科成绩测验时，要以统一的教学大纲和统编教材作为题目来源，不能只考虑个别教师的意见，而要考虑大多数教师和专家的意见。在编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。

kyfour · 发表于 2016-7-28 13:54:38

　　(二)选择项目形式
　　测验编制者还必须确定题目的表现方式，是纸笔测验还是操作测验，是只要受测者认出正确答案，还是需要他自己做出正确答案。在大多数情况下，任何题目都可以用几种形式呈现，问题是如何选择“最优的’形式(各种题目形式的比较和编题原则，在下一节详细讨论)。在一个测验中，可以采用一种形式，也可以采用几种形式。
　　在选择题目形式时，要考虑以下几点，
　　1.测验的目的和材料的性质
　　如果要考察学生对概念和原理的记忆，适于用简答题，要考察对事物的辨别和判断，适于用选择题，而要考察综合运用知识的能力，则适于用论文题。
　　2.接受测验的团体的特点
　　如对幼儿宜用口头测验，对于文盲识字不多的人不宜采用要求读和写的项目，而对有言语缺陷的人(如聋哑，口吃)则要尽量采用操作项目。
　　3.各种实际因素
　　譬如，当被试人数过多，测验时间和经费又有限时，宜用选择题进行团体纸笔测验，而人数步，时间充裕，又有某些实验器和设备，则可用操作测验。
　　我国的廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则：使被试者容易明了测验作法;在做测验时不会弄错;做法简明省时，计分省时省力;经济。
　　(三)编写和修订题目
　　制定测题的过程包括，写出、编辑、预试和修改等一系列过程。在获得一个令人满意的测题之前，这些步骤是不断重复的。在这个过程中，编制者和有关方面专家要对题目反复审察修订，改正意义不明确的词语，取消一些重复的和不合用的题目。然后将初步满意的题目集起来组成一个预备测验。编写题目要注意以下几个问题。
　　1.题目的范围要与测验计划所列的内容技能双维表相一致。
　　2.题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复份。
　　3.题目的难度必须符合测验目的的需要。
　　4.题目的说明必须清楚明白。
　　四、项目的试测和分析
　　初步筛选出的项目虽然在内容和形式上符合要求，但是否具有适当的难度与鉴别作用，必须通过实践来检验，也就是要通过预测进行项目分析，为进一步筛选题目提供客观依据。
　　(一)试测
　　项目性能之优劣，不能仅凭测验编制者主观的臆测来决定，必须将初步筛选出的项目结合成一种或几种预备测验，经过实际的试测而得客观性资料。预测应注意以下几个问题：
　　1.预测对象应取自将来正式测验准备应用的群体。例如，对于一个学绩测验来说，进行预备测验的学生必须和测验所指定的被试属于同一个年级。并且具有相同的课程背景。取样时应注意其代表性，人数不必太多，亦不可过少。
　　2.预测的实施过程与情境应力求与将来正式测验时的情况相近似。
　　3.预测的时限可稍宽一些，最好使每个受试者都能将题目做完。以搜集较充分的反应资料，使统计分析的结果更为可靠。
　　4.在预测过程中，应对受试者的反应情形随时加以记录，如在不同时限内一般受试者所完成的题数、题意不清之处及其他有关问题。
　　预测的目的在于获得被试对题目如何反应的资料，它既能提供哪些题目意义不清，容易引起误解等质量方面的信息，又能提供关于题目好坏的数量指标，而且通过预测还可以发现一些原来想不到的情况，如检验时限长合适，在施测过程中还有哪些条件需要进一步控制等。

kythree · 发表于 2016-7-28 15:02:25

　　(二)项目分析
　　对项目的分析包括质的分析和量的分析两个方面。前者是从内容取样的适切性，题目的思想性以及表达否清楚等方面加以评鉴，后者是对预测结果进行统计分析，确定题目的难度、区分度、备选答案的合适度等。
　　编制一套测验，只依据一次预测的结果所作的题目分析是不够的。
　　由于预测的被试样本可能会有取样误差，故由此得到的项目分析结果未必完全可靠;为了检验所选出的项目的性能是否真正符合要求，通常需再选取来自同一总体的另一样本再测一次，并根据其结果进行第二次项目分析，看两次分析结果是否一致。如果某个题目前后差距较大，说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫做复核。关于项目分析方面的问题，将在第七章详细讨论。
　　五、合成测验
　　经过预测和项目分析，对各个题目的性能已有可靠的资料作为评价的根据，下一步就可以选出性能优良的题目加以适当的编排，组合成测验。
　　(一)项目的选择
　　在选择项目时，不但要考虑项目分析所提供的资料，还要考虑测验的目的、性质与功能。最好的题目，就是只测定所需要的特征，并能对该特征加以有效区分的难度合适的题目。首先是要测定所需要的特征，如果我们想测定语言推理能力，就不要包括主要测量阅读能力或算术知识的项目。题目性能好坏是相对的，不同的测验对题目的难度和区分度有不同的要求。
　　一般说来，题目的区分度越高越好，这是选择题目的一条重要标准。特别是对于选拔测验，此条尤为重要。但有时根据需要也可以保留个别鉴别力不高的题目。如在学科成就测验中有些内容十分重要，即使区分度低一些，也要包括在内。
　　选择题目的另一个指标是难度.难度多大合适并无一个绝对标准，而要根据测验目的来确定。有的要求难一些，有的则要求容易一些，有的可不考虑难度，就是同一张试卷，题目难度也可以不同，只要整个测验的平均难度符合测验要求即可。
　　根据题目分析资料选出的题目，还要与测验计划(双向细目表)再次对照，看看在材料内容以及所测量的认知技能上的比率是否与计划相符，必要时须加以适当调整。此外题目的数量还必须适合于所限定的时间。
　　(二)项目的编排
　　项目选出之后，必须根据测验的目的与性质，并考虑受试者作答时的心理反应方式，加以合理安排。
　　在测验开头应该有一，两个十分容易的题目，以使受测者熟悉作答程序，解除紧张情绪，建立信心，进入测验情境。对试题的总的编排原则是要由易到难。这样可避免受测者在难题上耽搁时间太多，而影响对后面问题的解答。在测验最后可有少数难度较大的题目，以测出受测者的最高水平。
　　下面是两种常见的排列方式：
　　1.并列直进式
　　此种方式是将整个测验按试题材料的性质归为若干分测验，在同一分测验的试题，则依其难度由易到难排列。
　　2.混合螺旋式
　　此种方式是先将各类试题依难度分成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。此种排列的优点是，受试者对各类试题循序作答，从而维持作答的兴趣。

kyone · 发表于 2016-7-28 16:36:59

　　(三)编造复本
　　为增加实际的效用，一种测验至少要有等值的两份，份数越多，使用起来愈便利。例如，我们要用测验来考察一班学生在一学期中的进步，必须测量两次，一次在开学初，一次在学期末，两次结果的差别代表一学期中成绩的提高。如果测验只有一份，用两次就难免有练习的影响，不能完全代表进步的数量。要是这个测验有好几份替换使用，就可以免掉这种困难。
　　测验的各份复本必须等值，所谓等值需符合下列几个条件：
　　1.各份测验测量的是同一种心理特性。
　　2.各份测验具有相同的内容和形式。
　　3.各份测验的题目不应有重复的地方。
　　4.各份测验题目数量相等，并且有大体相同的难度和区分度。
　　5.各份测验的分数分布(平均数和差异度)大致相等。
　　只要有足够数量的题目，编造复本的手续是很简单的。先将所有合用的题目按难度排列，其次序为1、2、3、4、5、6、……如果要分成两个等值的测验本，可采用下面的分法。
　　A本：1、4、5、8、9、12、13、16、17、20、……
　　B本：2、3、6、7、10、11、14、15、18、19、……
　　如果要分成三个等值的测验本，可用采下的分法：
　　A本：1、6、7、12、13、18、19、24、……
　　B本：2、5、8、11、14、17、20、23、……
　　C本：3、4、9、10、15、16、21、22、……
　　采用上面的分法可使复本之间在难度上基本相等，从而获得大体相同的分数分布。复本编好后，应该再试测一次，以决定各份究竟是否等值。
　　六、将测验标准化
　　—套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差，就要控制无关因素对测验目的的影响，这个控制的过程，称作标准化。具体包括以下几方面：
　　(一)内容
　　标准化的首要条件，是对所有受测者施测相同的或等值的题目。测验的内容不同，所得的结果便无法比较。
　　(二)施测
　　尽管对于所有的受测者使用了相同的题目，但如果在施测时各行其是，所得的分数也不能进行比较。为了使测验条件相同，必须有统一的指导语和时间限制。

kyfour · 发表于 2016-7-28 16:57:45

　　1.指导语
　　给受测者的指导语属于测验刺激的一部分，它的内容通常包括对测验目的说明和受测者应该如何作答的指示(包括如何选择反应、记录反应、以及时限等)。对于纸笔测验来说，这些指示一般印在测验的开始部分，也可以印在另外一张纸上。要求简单明确，不引起误解。如果题目形式对被试是生疏的，还应该有一些例题。
　　指导语会直接影响受测者的作答态度与方法。有人以不同的指导语对几组被试实施同一个能力测验，结果表明，将该测验说成“智力测验”的一组，成绩最高;将之说成“日常测验”的一组，成绩最纸。
　　为了保证测验情境的一致，还要有对主试者的指导语，主要是对测验细节作进一步解释，以及其它一些有关事项，包括测验房间场地的安排(照明、桌掎、隔音、温度等)，测验材料的分发，如何计时、记分，对被试的各种提问如何回答，以及在测验中途发生意外情况(如停电，有人迟到，生病;作弊等应该如何处理。由于主试者的一言一行，甚至表情动作都会对受测者产生影响，所以主试者一定要严格遵守施测指导，不要任意发挥和解释。总的要求是，无论什么人、在什么时候、什么地点使用同一测验，都必须做同样的事，说同样的话。对主试者的指导语与测验是分开的。
　　2.时限
　　确定测验的时限，要考虑施测条件和实际情况的限制(如一节课时间的长度)，以及被试的特点(如对儿童、老人、病人施测时间不宜过长)，不过更重要的是考虑测量目标的要求。
　　对于人格测验来说，反应速度是不重要的，可不必规定严格的时限，但是在测量能力和学绩成就时，速度是需要考虑的一个重要因素。依据速度在活动中所起的作用，可以把测验分成速度测验和难度测验。纯速度测验时间应当严格限制，使被试中没有人能在规定时间内做完全部题目。纯难度测验只考察被试解决难题的水平而不考虑完成时间。实际上，大多数能力和学绩测验介于上述二者之间，既考察反应的速度也考察解决难题的能力。通常所用的时限是使大约90%的受训者能在规定时间内完成全部测验，如果题目由易到难排列，应使大多人在规定对间内完成他会答的问题。
　　确定时限一般采用尝试法，即通过预测来决定。假设根据第一次试测的经验，我们估计大部分被试可以在25分钟内做完，在第二次试测时，可以先叫被试用黑铅笔做20分钟，然后换成红铅笔，再过5分钟换成蓝铅笔，这样便可了解被试在规定时间内完成题目的数量。另一种方法是在施测现场挂一只钟，每个被试做完后即将当时时间写在试卷末尾。试卷收齐之后再根据被试完成情况规定合适的时限。
　　(三)评分
　　标准化的第三个要素是客观评分。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。一般说来，自由反应的题目(如问答题、论文题等)评分者之间很难取得完全一致，而选择题的评分较为客观，因此有人将选择题组成的测验叫客观性测验。
　　无论哪种测验，为使评分尽可能客观，有三点要求：
　　1. 对反应的及时的和清楚的记录。特别是对口试和操作测验，此点尤为重要，必要时可以录音和录象。
　　2. 要有一张标准答案或正确反应的表格，即计分键。选择题测验的计分包括一系列正确的答案和容许的变化;论文题的计分键包含各种可能答案的要点;人格测验不可能有明确而统一的答案;计分键上指明的是具有或缺少某种人格特征者的典型反应。
　　3. 将受测者的反应和计分键比较，对反应进行分类。对于选择题来说，这个程序是很容易的，但是当评分者的判断可能是一个起作用的因素时(如问答题、论文题)，就需要对评分规则作详细的说明，评分时将每一个人的反应和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。
　　无论采用何种评分方法，都必须符合客观、正确/经济/实用四项原则。

kyfour · 发表于 2016-7-28 18:20:33

　　(四)常模
　　一个标准化测验，不但内容、施测和评分要标准化，对分数的解释也必须标准化，如果同一个分数可做出不同的推论，测量便失去了客观性。
　　多数测验用常模作解释分数的依据。测验分数必须与某种标准比较，方能显出它所代表的意义。例如。某学生成绩单上写着：物理——85分。我们仅从这个分数很难断定他学得如何，因为没有一个比较的标准。在传统心理测验中，是把个人所得的分数与代表一般人同类行为的分数相比较，以判别其所得分数的高低。此处所指的“代表一般人同类行为的分数”，即为“常模”。例如，以摄氏温度计，便可确诊为发烧，因为一般人的正常体温是37℃，这就是成人体温的常模。
　　建立常模的方法是，在将来要使用测验的全体对象中，选择有代表性的一部分人(称标准化样本)，对此样本施测并将所得的分数加以统计整体，得出一个具有代表性的分数分布。标准化样本的平均数，即为该测验的常模。
　　常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。
　　七、对测验的鉴定
　　测验编好后，必须对其测量的可靠性和有效性进行考验，为此就要进行测量学方面的分析，搜集信度和效度资料。
　　(一)信度
　　信度指的是测量的可靠性或一致性。我们用钢片卷尺去量黑板的长度，所得的结果是可靠的，因为无论是由一个人量数次还是分别由几个人去量，所得的结果都是一致的。如果我们改用橡皮筋做的软尺去测量黑板的长度时，因为拉力大小不同，多次或多人测量所得的结果就难得一致。因此，用橡皮筋做的软尺测量长度是不可靠的，也就是说，这样的测量工具是缺乏信度的。
　　一个测验在标准化的时候，必须确定它的信度。确定信度多采用相关法。以相关系数的大小表示信度的高低。
　　(二)效度
　　效度指的是测量的有效性或正确性，这是测量工具的最基本的要求。衡量一个测量工具有没有效，就是看它所测量的是不是它所要测的东西。例如，以磅秤量体重是有效的，但如果用它量身高，虽然多次测量结果一致(信度高)，但所得的数量并不能代表个人的身高，因此对量身高来说，磅秤是个无效或效度极低的工具。
　　在编制心理测验时，如何提高效度，无疑是个首要的问题。效度的确定方法，视测量的性质和目的而定。一般将效度分为三大类：实证效度、内容效度、构想效度。关于信度和效度问题，本书后边有专章讨论。

kyfour · 发表于 2016-7-28 19:21:36

　　八、编写测验说明书
　　为使测验能够合理地实施与应用，在正式测验编写完成后，还要编制一份说明书，就下列问题作出详尽而明确的说明：
　　(一)本测验的目的和功用。
　　(二)编制测验的理论背景以及选择题目的根据。
　　(三)测验的实施方法、时限及注意事项。
　　(四)测验的标准答案和评分方法。
　　(五)常模资料，包括常模表，常模适用的团体及对分数如何做解释。
　　(六)测验的信度效度资料，包括信度系数，效度系数以及这些数据是在什么情境下得到的。
　　经过以上八个步骤，一个测验便可正式交付使用了。
　　第二节测验题目的编制技术
　　编制测验的核心是命题。欲编制良好的测验，除必须遵循上一节所讲的程序外，还要掌握命题的方法与技巧。
　　—、命题的一般原则
　　试题的类型繁多，性质不同，功能各异，但在编制时还是有一般原则可循的。
　　(一)试题要符合测验的目的。
　　(二)内容取样要有代表性。
　　(三)题目格式不要使被试发生误解。
　　(四)文字要筒明扼要，即排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。
　　(五)应有不致引起争论的确定答案(创造力测验、人格测验除外)。
　　(六)各个试题必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。
　　(七)题目中不可含有暗示本题或其它题正确答案之线索。
　　(八)题目内容不要超出受测团体的知识和能力。
　　(九)所提问题应避免涉及社会禁忌与个人隐私。
　　(十)施测与评分省时

kyfive · 发表于 2016-7-28 20:24:34

　　二、测题的种类及编制要领
　　在长期的测验实践中，发展出了多种多样的题目形式，根据应答方式，总的说来可以分成两大类，即自由应答型和固定应答型。自由应答型题目是让受测者用自己的语言或行动来对某一问题做出回答，包括填充题、简答题、应用题，论文题、联想题，操作题等。固定应答型题目又称客观性题目，是让受测者从测验编制者事先定好的答案中辨认出正确答案，包括多选题、是非题、匹配题等。这种题目因为评分客观，所以在标准化测验中用得较多。
　　各种类型的题目均有自己的特点和编制原则。现分别叙述如下：
　　(一)多选题
　　在标准化的学科测验，学习能力测验和团体智力测验中最常采用的是多选题。此种题目在结构上包含两部分，一为题干，由直接问句或不完全的陈述句构成;另一为选项，包含一个正确答案或正确答案的组合及若干个(一般3—4个)错误答案。多选题可适用于文字、数字和图形等不同性质的材料，可以考察记忆、分析，鉴别，推理、理解和应用知识的能力。下边是几种常见的变式。
　　1.简单计算
　　例题：小明给了弟弟2枝铅笔，自己还剩8枝，小明原来有几枝铅笔?
　　(A)4(B)6 (C)8 (D)10
　　2.类比推理：已知甲和乙的关系，推出丙和丁的关系。
　　例1：船——水，飞机——?
　　(A)大地 (B)白云 (C)天空 (D)海洋
　　例2：对于①相当于口对于
　　3.找不同类：每一题内有几项属于同一类事物，只有一项不属于这一类，要找出。
　　例1：找出与其它几项不属于同类的一项：
　　(A)狗 (B)鸟 (C)树 (D)鱼
　　例2：找出与众不同的一个图形：
　　4.最好理由：几个备选答案都是对的，但其中有一个最好，要把它找出来。
　　例题：偷东西的人应该受惩罚，因为：
　　(A)惩罚可使他不敢再犯。
　　(B)偷窃为法律所不容。
　　(C)偷东西的人不是好人。
　　(D)偷窃扰乱社会治安。
　　多选题的优点是：①单位时间内可以施测很多项目(一般每题不超过一分钟)，从而能保证取样的广泛性，使测验更有效。②评分客观，：加上题目数量多，可以减少随机因素的影响，从而能保证测验的可靠性。③可以通过改变错误答案的迷惑性来调整题目的难度。④阅卷方便迅速，并可用机器评分，被试多时比较经济。⑤保密性好，好的题目可存入题库重复使用。
　　多选题的缺点是：①有固定答案，测不出组织材料的能力和创造力。②题量大，并要为每个题目考虑几个似是而非的答案，因而编写困难费时，需要一定技巧。
　　编拟多选题的要领及原则如下，
　　1.根据测验的目的和内容来选择最适当的题型。例如，要考虑辨别，比较和评价能力，宜用最好理由式，要考察推理能力宜用类比法。
　　2.备选答案要简短，必要的叙述或相同的修饰语应全部置于题干中。
　　例题：孔子最伟大的成就在于，
　　(A)学术教育方面 (B)国防军事方面
　　(C)艺术建筑方面 (D)内政外交方面
　　四个选项皆有“方面”两个字;可移置于题干中，将题目改为直接问句：“孔子最伟大的成就在哪一方面?”如此，可使选项更为简短。
　　3.每题只能环绕一个中心，并只有一个正确该答案在内容和形式上不可特别突出，但其正确性必须确凿无疑。
　　4.题干应当包括解题所必须的共同要素，并尽可能做到精炼、准确、清楚，不要把选项夹在题干中间。
　　例题：战国初期，魏继承
　　(A)秦 (B)燕 (C)齐 (D)晋
　　的旧业，最为富强。
　　此题的题千被选项分隔为二部分，增加作答困难。应改为：战国初期，魏国继承何国旧业而最为富强?
　　5.错误答案对被试具有迷惑性，不要错得太明显。这种答案可以是人们经常出现的错误，也可以是一般性的误解和似是而非的内容。
　　例题：美国的首都是：
　　(A)东京 (B)华盛顿 (C)太平洋 (D)1776
　　此题中选项(C)非地名，(D)为美国建国年代，(C)、(D)均与题干间缺乏逻辑联系 (A)错得过于明显。如改为(A)纽约 (B)华盛顿 (C)巴黎 (D)伦敦，则好些。
　　6.各个选项在形式上应该协调一致，或为数字，或为图形，或为人名，应取—律，文字长短也应大体相当，以免对正确回答提供线索。
　　7.选项之间不应相互重选，相互包括，相互依赖。
　　例题：9-3是多少?
　　(A)大于5 (B)6 (C)小于7 (D)12
　　选项中除(D)外，其余三者相互重选，均为正确答案，故应修改。
　　8.几个选项最好按逻辑顺序(如按量值大小。时间先后等)排列或随机排列，正确答案在每个位置上出现的次数要大致相等，且不要形成固定的格式。
　　9.所有选项在逻辑上和语法上都能与题干相接，否则本来正确的答案，会因为逻辑上或语法上与题干不一致而放弃。反之，如果干扰答案在逻辑上或语法上与题干不吻合，被试就会根据常识，发觉它们之间的矛盾而加以排除。
　　10.题干要尽量创设新的情境，文字要自己拟定，避免重复书本上的现成实例或措词。

kytwo · 发表于 2016-7-28 21:35:23

　　(二)是非题
　　是非题又叫正误题，是指出一个论点要被试判断是否正确，或从是非两个答案中做出选择，因此可把是非题看作是两个备选答案的选择题。此种格式出题容易，回答方便，适于考查学生对简单观念或知识的了解。其缺点是易受猜测因素的影响，重要的材料有时不能用对与错简单回答;缺乏教育诊断作用，故应用不如多选题广泛，主要用于年幼儿童以及需要快速而粗略地做出判断的情况。
　　例题：鲸是哺乳动物，是口非口
　　编拟是非题应注意下面几点：
　　1.内容应以有意义的事实、概念或原理为基础，避免无关重要的问题或琐碎的细节。
　　2.每题应只包含一个观念，避免两个以上的观念在同一题中出现，而造成题目.似是而非”或“半对半错”。如“纽约是美国的首都和第一大城市”。此题后一半是正确的，前一半是错误的。
　　3.论点要简明扼要，意义明确，不要有艰深难懂的词句或含糊不确定的文字叙述。
　　4.对论点的陈述要重新组织，不要照搬教科书上的词句或仅仅加上否定词就构成错误项目。
　　5。避免使用具有暗示性的特殊字词，如“绝不”，“完全”等，通常带有“错”的暗示，而“有时”，“可能”等通常带有“对”的暗示。如：“所有智商高的学生学习成绩都很好。”受试者仅凭题中“所有……都”这种措词便可猜出此话是错的。
　　6.尽量采用正面肯定的叙述，避免反面陈述或双重否定的文句。如：“生物没有不是由细胞所构成的。”此题既难读又难理解，宜改为“生物是由细胞构成的。”
　　7.“是”与“非”的题数应大致相等，且随机排列。
　　8.题数不能太少。
　　(三)匹配题
　　此种试题包括并列的两行，—行为刺激项目，另一行为反应项目，被试的任务是由后者中选出与前者相适合的项目。可以是完全匹配(刺激项目与反应项目数量相等)，也可以是不完全匹配(反应项目多于刺激项目);
　　例题：
　　指导语：从右边所列的人名中找出左边所列的每本书的作者，每个人名可以用一次，也可用多次或全然不用，
　　( )1、家 A、鲁迅
　　( )2、子夜 B、郭沫若
　　( )3、阿Q正传 C、矛盾
　　( )4、骆驼样子 D、老舍
　　E、巴金
　　匹配题是选择题的一种变式，一个匹配题实际上就是一套多选题，适用于测量概念或事实之间的关系。其优缺点与多选题相同。
　　编写匹配题的要领是，
　　1.一个题目的各个刺激项目及各个反应项目应在内容上同质，若涉及年代都为年代，涉及地点都为地点，涉及符号都为符号。
　　2.在指导语中要讲清匹配依据，告诉被试每个反应可用几次。
　　3。配对项目不可过多或过少，如在十对以下，最好应用不完全配合，使反应项目比刺激项目多出一两个，以增加其可靠性。
　　4.每个刺激项目应有一个而且只有一个反应项目相匹。
　　5.按一定逻辑次序(例如按字母顺序，数字大小，时间先后等)安排反应项目;同时要避免答案的固定格式。
　　6.同一组项目应印在同一页上，以免造成作答时的困难。其它原则与编多选题相同。
　　(四)填空题和简答题
　　上边几种形式均可归类为选择题，要求的是对正确答案的辨认。填空题与简答题要求的是对正确答案的回忆，即由被试自己写出答案。填空题是提出一个不完整的陈述，要求被试把缺少的字词填上，可以空一处，也可以空几处。
　　例题：第一个智力测验是由_____与_____编造的。
　　简答题是提出简单的问题，让被试回答，通常只要几个字或一两句话即可答完。
　　例题：一年有哪几个季节?
　　填空题、简答题与选择题适于同样类型的材料，但填空题和简答题比多选题容易编写写，而且被试无法猜，但评分不如选择题方便和客观。
　　填空题和简答题的编写原则如下，
　　1.填空题目所空出的应该是关键字句，并且要和上下文有密切联系，不要空出无关紧要的字词。
　　2.一句内不要有太多的空白，空白太多，不容易明了题意。
　　3.空白最好放在句子的尾部，免得空格数量为答案提供线索。
　　4.测题句子避免直接引用教科书的措词。
　　5.问题要具体，范围要确定，要使受测者知道答案的类型、长度和确切程度。
　　6.准备一个正确答案和可接受的变式的标准，如果部分正确也适当给分，则要做出更具体的规定。

		自动登录	找回密码
密码			立即注册

2015考研：心理学测量笔记（3）

浏览过的版块