开学之际,美国一号称服务2万所学校的AI评分系统受到质疑,学生利用系统漏洞,输入相应关键词,即使关键词之间没有关联,也能轻松获得高分。
随着人智能的发展,很多教育类APP都加入了智能评分系统,能够快速批改试卷、及时给出分数,受到很多老师和学生的欢迎。不过,很多家长也对智能评分系统有所不满,比如英语跟读类APP的评分系统,有时候英语八级的人也只能考80分。
除了口语英语采用的智能评分系统,人智能还运用在试卷评分上。不过,这种智能评分系统也时有“翻”现象。据报道,开学伊始,一号称服务于美国2万所学校的AI评分系统受到质疑,学生利用其漏洞,在没有任何准备的情况下轻松通过考试。学生之所以利用漏洞,是因为该系统只按关键词评分,学生只需输入相应的关键词,即使关键词之间没有任何关联,也能顺利通过考试,甚至获得高分。
在评分之前,你需要设定评分标准
“自动评测评分系统一般需要先制定评测标准,然后根据制定的标准设计合适的评测算法和模型。”天津大学智能与计算学院教授、博士生导师熊德毅介绍,比如口语评测评分,就需要机器判断人的发音是否标准,所读句子的重音是否正确,所读句子是否连贯流畅,衔接部分是否准确等。
AI评分体系涉及语言和文本的评价,涵盖语法、语义等多个方面,并将大量运用自然语言处理技术。
“自然语言处理技术是人智能的一个重要分支,研究利用计算机对自然语言进行智能化处理。基础自然语言处理技术主要围绕语言的不同层次展开,包括音素(语言的发音模式)、形态(字符和字母如何组成词语,以及词语的形态变化)、词汇(词语之间的关系)、句法(词语如何组成句子)、语义(语言表达的对应意义)、语用(不同语境下的语义解释)、篇章(句子如何组合成段落)等。”熊德毅强调,这些基础自然语言处理技术常常应用于下游的多种自然语言处理任务(如机器、对话、问答、文档摘要等),而自动评分中的语言与文本评测通常涉及这七个层次中的几个。
自动评测指标的设计方式有很多种,通常根据不同的评测类型选择合适的方法。“比如,如果考试阅卷系统要对题进行自动评测,老师可以事先写好多个参考,然后将学生的与参考进行比较,计算它们的相似度,作为学生的评测指标。”熊德毅举例称,机器常用的评测指标BLEU,就是根据参考译文与机器译文之间的N-gram(N元语法)匹配来计算相似度的。
一个单词为一元词组,两个相连的单词为二元词组,还有三元词组和四元词组。如果中的单词与参考中的单词相同,则会给出一元词组分数。同样,可以计算二元词组、三元词组和四元词组的分数。研究人员对不同的一元词组设置不同的权重,然后将分数协调成一个客观值。分数越高英语常用口语对话,两者的相似度就越大。
不同AI评分系统的结果差异很大
AI评分系统“崩溃”的导火索,是美国一位历史教授的子在一场历史考试中只得了50%,她评估了子的后,觉得孩子的基本没有问题。
对于同一个,为何人评价与机器评价会有那么大的差别?
“这就是基于AI算法的自动评测面临的最大挑战:如何保持与人评测的一致性。应对这一挑战需要解决的问题有很多。比如如何制定合适的评价标准。主观题的自动评测必须有合适的评价标准和规范;比如如何应对不断变化的语言。语言多样性是自然语言处理技术的主要挑战之一,自动评测和语言的自动处理都面临着多样性的挑战;比如如何设计一个综合的评价指标。虽然目前有各种各样的指标,但很少有指标能全面考虑语言和文本的各个方面。比如对于作文的自动评分阿卡索外教,可能需要考虑用词是否合理(词汇)、句子是否通顺(句法)、段落组织是否有序(章节)、内容是否与主题相关(语义、语用)等。” 熊德毅表示,上述BLEU仅考虑了词形的严格匹配,没有考虑词语形态变化、语义相似性、译文句法合理性等因素。
“遵循的评价规则、判断的出发点不同,对应的算法模型也不同,所以最后的结果就会有很大的不同。”熊德毅说。
因此,只使用一种评价方法显然是不完整的,这也就解释了为什么当孩子的母亲试图在中添加“财富、商队、中国、印度”等关键词时,尽管这些关键词之间没有任何联系,却能得到满分。“也许这个AI评分系统只是采用了简单的关键词匹配,所以会出现‘关键词大杂烩’也能蒙混过关的情况。”熊德毅解释道。
此外,口语的人与机器评测也存在较大差异。“近年来,虽然在深度学习技术的推动下,语音识别性能有了明显提升,但在空旷、嘈杂的环境下英语常用口语对话,识别率会下降很多。”熊德毅解释道,如果机器“听”错了一个词,再进行评测,就会形成误差传播,即上游系统的错误会导致下一个系统的错误,错误越积越多,错误越离谱,评测结果就会相差甚远。
“设计评价指标的方法有很多,改进的方法也有很多,比如在计算准确率的同时英语常用口语对话,还要计算召回率。另外,还有对评价指标的评估,也就是对评价的评价,看哪个评价指标更全,更符合人的评价。”熊德毅感叹,很多时候,自动评测的难度和对应的自然语言处理任务的难度,从技术角度上是差不多的。比如用机器去评价一个译文的质量,和用机器生成一个译文的难度差不多。用机器去判断一个文档摘要的质量外教,也和用机器生成摘要的难度差不多。
可与人评估相结合,使系统更加智能
“传统的自动评测指标通常都是基于符号计算的,现在深度学习等人智能技术越来越多地被运用在评测具中。”熊德毅介绍,利用深度学习,可以将语言符号映射到现实稠密向量的语义空间中,利用语义向量计算相似度。即使说出的单词和计算机原来学到的不一样,只要语义一致,机器就能做出准确的评价。因此基于深度学习的自动评测可以一定程度上应对语言多样性的挑战。但深度学习也有一个问题英语常用口语对话,就是需要大量的数据供机器学习。
近年来,基于自监督学习的预训练语言模型在语言表征学习方面取得了突破性进展。“OpenAI的预训练语言模型GPT-3在5000亿词的海量语料上训练出了拥有1750亿个参数的神经网络。通过学习互联网上各种语言的大量文本,GPT-3形成了强大的语言表征能力,可以执行多种任务,如自动、生成、常识推理、问答等,甚至可以进行加减运算,比如它对两位数加减的准确率为100%,对五位数加减的准确率接近10%。”熊德毅介绍不准备也能通过考试?AI评分“失败”引关注,但如此大的神经网络,如果以单精度浮点数存储,需要700G的存储空间,模型训练一次就需要460万美元。 因此,即便 GPT-3 拥有良好的零样本和小样本学习能力,但其高昂的成本使得它距离普遍可用还很远。
但作为阅卷评卷的“老师”,AI有着人类无法比拟的优势。比如AI自动阅卷系统比人阅卷速度更快,老师不可能一下子记住所有选择题的,需要不断查阅标准,非常耗时。自动阅卷系统帮助老师大大提升了效率。此外学英语,自动阅卷系统更加理性,不受外界条件影响,不会因为疲劳等原因导致误判,即使在复杂干扰环境下,依然可以得到正确的结果;AI阅卷系统还能直接在阅卷后分析学习情况,统计试题数据、错题数据等教学资料,帮助老师减负增效,帮助学生提高学习效率。
“让主观题合理客观化,可以降低自动评分的难度。”熊德毅说,虽然无法客观化的主观题很难制定全面的评价标准,但在某些方面制定评价标准还是可行的,比如词形、句子语法的评价准确率就非常高,这类技术完全可以从实验室走向产品应用。
还可以引入人评测,对AI评分系统的评分进行复核和修正,通过反复修正,可以积累大量的评测训练数据,让机器评分更加智能化。
“利用自然语言处理等人智能技术进一步完善主观智能评分系统,将是未来教育领域非常重要的课题。”熊德毅说,未来AI自动评卷系统一定会越来越“聪明”,人智能与教育的结合也会越来越紧密。(记者 陈曦)