下载客户端

GRE作文用AI打分20周年：给中国考生分数高于人类打分

2019-10-06 09:40

来源：澎湃新闻·澎湃号·湃客

关注前沿科技量子位栗子发自凹非寺

量子位报道 | 公众号 QbitAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项调查，这件事又成了热烈讨论的焦点。

VICE调查了美国的50个州，发现有至少21个州 (包括加州) 的教育系统，已经把AI当成作文打分的主要/第二主要工具，用在标准化考试里。

△ 蓝=AI打分，浅蓝=有试点，红=无AI打分，桃红=看学区，灰=未回应

这21个州里，只有3个州表示，人类也会参与作文打分；余下18个州，只会随机抽出5%-20%的作文，交给人类复核一下AI给的成绩。

问题是，标准化考试常常作为选拔依据，左右人类前途。AI打分的话，命运就在AI手里了。

这时，人们不免想起了GRE，这个20年前就开始用AI判作文的大前辈。

有有不少研究表明，包括GRE打分机器e-rater在内，许多AI评判文章的机制，都有明显的缺陷。

不过经年累月，AI不但没有被各种作文考试抛弃，反而越发受欢迎了。

于是，Hacker News网友开启了激烈的讨论，不到一日热度便有了330+。 GRE：机器比人更偏爱中国考生

早在1999年，主办GRE的美国教育考试服务中心 (ETS) ，就开始用e-rater给作文打分了。

跟据官方信息，这个自然语言处理 (NLP) 模型，评分标准有以下8条：

· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

· 词汇复杂度/措辞 (Lexical Comlexity/Diction)

· 语法错误比例 (Proportion of Grammar Errors)

· 用法错误比例 (Proportion of Usage Errors)

· 机械错误比例 (Proportion of Mechanics Errors)

指拼写错、大小写错、标点错等等技术问题。

· 风格评论比例 (Proportion of Style Comments)

比如，某个短语出现过多，太短的句子过多，太长的句子过多等等。

· 文章组织和发展分 (Organization and Development Scores)

· 地道用语 (Features Rewarding Idiomatic Phraseology)

当然，这只AI不止服务GRE。至少，托福和GRE一样，也是ETS出品的考试。

至于这套算法的缺陷都出在哪，ETS官方就做过不少研究，且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里，都能发现AI给中国大陆考生的分数，普遍比人类打分要高。

相反，在非裔美国人身上，AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里，也有相似的情况。即便团队一直改进算法，也没有消除这个问题。

ETS的一位高级研究员说：

如果我们想让算法对某个国家的某个群体友好一些，那就很可能会伤害到其他群体了。

再进一步，分单项来观察AI的打分情况。

会发现在全部考生里面，e-rater给中国大陆考生的语法 (Grammar) 和写作技巧 (Mechanics) 分，整体偏低；

而在文章长度和复杂单词的选用上，中国大陆考生的AI打分超过平均。最终，AI给大陆考生的总分，整体比人类打分更高。GRE作文满分6分，AI比人类打分平均高出1.3分。

相比之下，在非裔美国人身上，AI比人类打分平均要低0.81分。以及，这只是平均数据，在许多考生那里，差异来得比这更剧烈。

不论是1.3还是0.81，在6分制的考试里都不是小数字，可能严重影响考生的成绩。

不止如此，MIT的小伙伴们开发过一个叫BABEL的算法，把复杂的词句拼贴在一起，得出的文章没有任何实在的意义，却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

但ETS说，AI不是单独判卷，每篇AI打分的作文，都有一个人类同时打分。然后，把人机打分之间的差异，交给第二个人类去判断，得出最终的分数。

所以，ETS认为考生并不会受到AI缺陷的不利影响。

不过对比一下，传统方法是两个人类同时给一篇文章打分；而当AI替代其中一人打分，相当于这个人的职责变成了复核。

成本大概下降了不少，对结果的影响有多大就很难说，至少打分机制和AI参与之前有差别了。

另外，AI的存在不止影响评分，也直接影响考生的应试策略。这些年，讨好AI的攻略越来越多：

△来自ChaseDream论坛@竹林中人

还好，GRE有人类和AI一起打分。

可还有许多考试是直接交给AI判作文的：不止GRE算法有问题

比如，VICE调查发现，犹他州把AI作为主要 (Primary) 作文评分工具，已经有些年头了。

州内的一位官员解释了原因：

手动打分除了耗费时间之外，也是本州一项重大开支。

所以，用AI来为写作评分，在降低成本的同时，能不能做到公平公正？

美国研究协会 (American Institutes of Research，AIR) 是一间非盈利机构，也是犹他州最主要的考试提供方。

关于交给AI打分的是怎样的题目，AIR给出了一个范本：

这道题目是，看到一张海牛图像，考生要写出一个观察 (A) ，和一个推理 (B) 。

而AIR每年都会做出一份报告，评估一些新题目的公平性。

评估的一个重点就是：女生和少数族裔学生，在特定考题上，是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。

报告显示，2017-2018学年、三至八年级的写作考题里，有348道题被判定为，对女生和少数族裔学生有轻微DIF；相比之下，对男生和白人学生有轻微DIF的题目有40道。

另外，还有3道题被判定为：对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

可能造成DIF的原因有多种，而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (@dahart) ，占据了Hacker News讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得，教育本来就是费时费力的，不可能又快又便宜。

他说，孩子的作文是机器打分，全家不满意AI给的分数，爱人和孩子都会哭。

One More Thing

当然，AI判作文也不止美国才有。

去年，《南华早报》说国内已经有6万所学校靠AI批改作业，分布在全国各地。

其中，学生提交的英文作业，也是机器打分。作文批改系统来自酷句批改网，要理解文字的一般逻辑和意思，对作文的整体质量做出像人一样合理的评判，还要在写作风格、结构、主题等方面给出建议。

据说，AI和人类教师对一篇作文的评分，在92%的情况下是一致的。

但从评论来看，同学们也像美国的小伙伴一样，受了不少委屈：

这样的情感，还是不分国界的。

参考资料：

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发的许多NLP论文：

https://www.ets.org/research/topics/as_nlp/writing_quality/

— 完 —

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#GRE #AI打分 #AI #考试 #考生

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈