近年来,随着教育评价理念的不断更新和测试技术的快速发展,国际上诸多大规模教育测试把关注的重心放到了测试结果上。就像到医院体检后会得到一份详细的“诊断报告”一样,参加大规模教育测试的学生也会得到相应的结果报告——用来分析自己水平高低或能力强弱及其背后的成因,从而实现精确诊断和快速改进的目的。
结果报告成为大规模教育测试的关键环节
从心理学的角度来看,大规模测试就是通过一系列外部刺激来收集被试的行为反应,并进一步推断其潜在特质水平的过程。之所以称这种特质是“潜在的”,是因为它无法和物理测量中的身高、体重那样被直接观测和度量。不同的测试,其测量的潜在特质是不一样的,它可以是能力、成就、个性倾向、人格态度、价值观等,也可以是教育领域中的学业水平、学术成就。当我们用一定数量的试题来收集学生的作答反应,并把不同考生的水平用数量化的方式描绘出来时,这就是考试。由于测量目标、功能等方面的差异,不同测试在处理考生作答时采用的统计分析方法很不一样,这导致测试最后提供的结果报告也各不相同。有些结果报告非常简单,就给出一个分数或等级,有些则经过极其复杂的分数转换来给出详细的描述。
对广大被试或考生来讲,参加考试最重要的就是得到一个体现自己真实水平的结果。在实践领域,测试结果常常被用于各种重要决策,如高校选拔、升学鉴定、优劣评判等。这不得不让研究者和从业者高度重视结果报告的科学性、公平性。“如果忽视了测试的结果报告,那之前的所有努力都将白费”,这已经成为国际测试行业的共识。目前,国际上最权威的行业标准——《教育与心理测试标准》就多次提到了结果报告的重要性,甚至对一些具体的技术指标做出了明确规定:如测试机构应该负责提供关于测试结果的正确解释;结果报告的信息应该包括内容范围、测试结果的含义、精确性、结果使用等;结果报告要给出每个分数或等级的测量误差,并且提供与结果解释有关的信息。教育是大规模测试应用最为广泛的领域。每年全世界都有数以亿计的考生参加各种考试。受《教育与心理测试标准》等国际行业标准的影响,当前大规模教育测试在结果报告上呈现出了以下几个新趋势。
趋势一:结果报告经过相应的分数转换
无论什么样大规模测试,最后都要呈现一个数字化或等级化的结果来对测试群体的水平进行区分。在教育考试中,这个结果一般体现为分数或等级。出于科学性和公平性的考虑,目前国际上知名的考试如SAT、ACT、TOEFL、IELTS以及大规模测试项目如PISA、TIMSS,其结果都是经过复杂的统计处理而得出的,这个过程通常都涉及必要的分数转换。以TOEFL为例,作为一个面向全球的考试,它需要满足来自不同国家和地区的考生,在不同时间参加不同版本试卷测试的需求。而在申请大学时,TOEFL的分数又必须是准确一致和高度稳定(成绩两年内有效)。这必然要求考试设计者采用相应的考试技术,以确保各次考试分数尽可能不受试题难度的影响。如果某次TOEFL考试的试题过难或过易,那对参加该次考试的考生就非常不公,高校在选拔学生时也会无法评估考生的真实水平。备受关注的PISA,其测试使用的试卷并不是全球都完全一样,而是有多种试题组合并形成不同版本的试卷。PISA在全球几十个国家和地区测试时就面临与TOEFL一样的问题。分数转换是对考试结果进行技术处理后的一个必要环节,它使得测试结果更加科学公平和更容易解释。因而,转换后的分数,因其操作过程的模式化和结果的稳定性,常被认为是一种具有相应标准的分数。
趋势二:结果报告具有诊断和改进功能
对于一个大规模测试来说,分数或等级是结果报告的主要呈现形式。但如果仅仅局限于这样一些数字,那显然是不够的。随着测评技术的发展,诊断性的结果报告在实践中产生了深远影响。与传统单一的“分数条”相比,诊断性结果报告的内容更加丰富、细致,对测试者的能力、水平的剖析也更加精准。例如,在PISA公布的测试结果中,我们不仅可以看到各国或地区在各个素养上的总分,还可以进一步了解在某个素养的次级维度上的表现以及在某个维度上的不同水平,这使得测试结果具有相应的诊断功能,也更有利于参测的国家或地区深入分析成绩的归因并采取有针对性的改进措施。在教育考试领域,SAT、ACT的结果报告在内容上不仅更加丰富,而且还按需提供给多个利益相关者,其中包括大学、中学、政府甚至媒体和公众。其中,SAT提供给学生的结果报告包括总分、分项成绩、分测验分数、跨学科分数、子维度分数以及相对应的百分位数。在面向其他对象的结果报告中,SAT提供了更为详细的结果,包括在国家或者州参照群体中的位置、在各类问题上表现、作答情况、原始分数等等。ACT的结果报告同样丰富而且涉及范围更广,除了各种分数、百分位数、水平等级等基本的统计结果之外,还包括学生的高中、大学、职业、专业选择和生涯规划的信息。这些结果综合了考生的背景、学习状况、学科能力、个性倾向、兴趣爱好等等,基于此对学生做出的评价显然更加全面和深入,也有利于学生提升自我认知水平,有利于高校提高人才选拔成效,有利于中学改进日常教学和管理工作。
趋势三:在真实情景中对结果报告进行描述和解读
从统计测量的角度来进行分数解释丰富了结果报告的内容,完善了测试的功能,但仅仅围绕这些统计数字来分析仍旧是有局限的。举个简单的例子,只要有一把尺子,我们就很容易测量出一个成年男性的身高,比如170cm,这是一个客观测量值,但这样的身高究竟意味着什么,则在很大程度上取决于测量目的。如果说为了选拔国家篮球队的运动员,这个身高恐怕远远不够。但在日常生活中,对这样的身高也不能轻易得出个头矮的结论。测评领域的专家早就认识到:一系列统计分析后的结果可以用来判定优劣和区分测试者,可无论这些结果多么丰富,还是无法解释其背后深层次的含义。近年来,国际测试行业开始结合测量目标本身来尝试新的结果解释方式。通俗地讲,就是在原来描述测试结果“是什么”和“怎么样”的基础上,进一步描述得到这些结果的测试者“能做什么”。例如,上面提到的ACT,它给考生的结果报告除了多个分数的统计值外,还有与这些分数相对应的行为描述,并且进一步预测学生在大学不同专业上获得成功的概率。同样,TOEFL考试的结果报告也有对取得该分数考生所对应能力的描述,包括水平分析、分数说明和学习建议。TOEFL阅读部分的测试结果甚至纳入蓝思分级阅读框架体系中。这个框架体系是用来评估英语阅读能力和阅读材料难度的一套标准,在国际上拥有较高的权威性和广泛影响力。TOEFL的阅读分数和它对接之后,有利于考生看到分数所代表的真实阅读能力,并据此来选择与自身水平相适应的阅读材料,从而达到精准匹配的目的。
最后需要强调的是,国际上这些具有广泛影响的大规模教育测试,之所以需要引入复杂的统计技术来对测试结果进行分数转换,除了考试实施的客观需求和在科学与公平上的不懈追求外,一个很重要的原因是由其特殊的结果使用方式决定的。大规模教育测试一般都伴随着重要决策,但在很多国家,这些测试结果仅仅是影响决策的一个重要因素,而不是唯一因素。如SAT、ACT和TOEFL等用于升学录取的考试,其考试结果仅仅是高校人才选拔中的众多指标之一。考生在申请这些高校时,除了考试成绩之外,一般还需要准备多方面的材料,甚至还会参加面试。大规模测试是一个并不复杂的技术活,但测试结果的使用方式背后则有着深刻的文化、制度、社会、心理等方面的成因。不管怎样,让测试结果更加科学、公平和精准,让测试结果更好地发挥诊断和改进功能,是国际测试领域一个长期努力的方向。
(本文为全国教育科学规划2022年度教育部重点课题《新高考结果评价改进的创新应用研究》〔编号:DFA220435〕的阶段性成果)
《光明日报》( 2022年12月22日14版)
作者:刘轩(南京工业大学副教授,教育学博士)