1、ETS 是全球统一阅卷么?
ETS 在整个试卷的制作过程中,非常关注 Fairness 这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。尤其是 ETS 将托福改革成 iBT 之后,更是加速了利用网络进行统一阅卷评分的进程。
2、阅卷评分人员都是 ETS 的官方人员么?
ETS 管理着诸多考试项目,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。但是从 ETS 总部有限的办公区域来看,我们可以料想到它是不可能去配备那么多官方人员来阅卷的。
ETS 的评分员并非仅限于 ETS 官方人员,而是面向美国本土的人员通过特定的流程进行招募的。只要是在美国本土工作的人员都可以申请成为评分员,他们不需要在 ETS 办公,甚至可以在家里阅卷。
但是为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。申请人通过资质审核后,会先进入到线上培训环节成为一名 Train rater。
当培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试,成为一名 Certify rater。
而在整个过程中,ETS 的官方评分员充当的就是一个裁判和导师的角色,也正是利用这样的模式才确保了专业人员的高效利用,同时也确保了评分的科学性和准确性。
3、ETS 仍然在使用电脑评分么?电脑评分是否会计入真实成绩?
其实电脑评分这个概念,很早就已经运用于写作考试中,这并非什么新兴产物。自从2010年1月开始,iBT 的写作评分系统就进行了调整。由原来的2个评分员评分,取算术平均分作为 raw score 原始分,改为1个评分员和1个电脑评分系统(e-Rater)评分,取算术平均分作为原始分的方式。
尽管之后也有很多出题机构也学习了这种评分方式,但是最终都因为评分效果不理想而最终放弃,这也正是很多人猜测 ETS 现今的考试中是否还继续使用电脑评分的原因所在。
可以说在 ETS 的培训中,几乎每一位ETS的官方人员都会不断地提及 Human Scoring & Automated Scoring 的概念。想必大家也能猜想到结果了,ETS 对于利用电脑评分的操作是乐此不疲的,而且对于评分的结果是极度信任的。
其实来到 ETS 之前,对电脑评分这件事情也是心存顾虑的,总担心这样的评分方式不够智能,会过于机械化地得出结果。但是当听完专家的讲解后,明白了 ETS 利用电脑评分的意义所在。
一方面,我们之前对于电脑评分的认识并不够全面,总是觉得仅仅是利用一些具有纠错功能的软件来进行评分。而真正意义上的 e-Rater 更像是一个基于强大数据系统支持的一个运算系统,它能够将输入的文章内容和数据库里面的内容进行比照式批阅,这样就极大地增强了阅卷评分的灵活度和广泛度。
而 ETS 作为全球最大的测试服务机构,他有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。
另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。它不存在阅卷的疲惫度,永远能够关注每一个评分标准,考虑到文章中的每一个细节和每一个特征;它没有情绪,所以也就不存在主观印象,对于同一篇文章永远只会给出一个不变的分数;它能对于每一篇文章所给出的分数都能给出具体的解释,这是人为评分无法做到的。
对于托福考试而言,关于语言输出部分的口语和写作两个项目都会涉及到电脑评分,而且评分结果是计入到真实成绩的。只不过算分方法并不是机械地将评分员评分和电脑评分进行求平均计算。我们其实可以更形象地把他们理解成为分工协作,联合判分。
首先,E-Rater 负责 Linguistic 的部分,关注的是文章的逻辑、语法、用法、架构、词汇等要素,而人工负责内容和含义的理解,他们在评分目标上各有分工。
其次,阅卷人和电脑是独立判分,他们彼此看不到对方的分数。当两者的分差介于动态区间值时分数有效,判分结束;当两者的分差大于动态区间值时,人工评分和电脑评分均无效,将会引入新的判分组进行重新评分。如果仍然判分无效,将会指定给 ETS 官方阅卷人主管直接判分,但这种情况很少出现。