2020年5月,OpenAI推出了具有1750亿参数的史上最大AI模型GPT-3,该模型不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。自推出以来,该模型就开始在不同的领域大显身手,如基于问题的搜索引擎、与历史人物对话、基于文本描述生成代码以及绘图和图像补全等等。
但GPT-3的应用之路远未结束…
近日,教育资源网站EduRef进行了一项测试,他们找了一组教授创建了一个写作提示,然后让应届毕业生和本科生以及GPT-3同时根据该提示写作,最后教授组对匿名提交的作文打分,并对作者进行追踪调查。那么,究竟结果如何呢?GPT-3的分数能够超过人类作者吗?未必!
GPT-3通过了大部分课程的写作测试
常言道:「评级为C就可以毕业(C’sgetdegrees)」。AI远远达不到完美,GPT-3的写作水平大概相当于自由写作者(freelancewriter)。
结果显示,在COVID-19疫苗效力的研究方法论文写作上,人类作者可以得到B或者D,而GPT-3往往只能得到C。在美国历史类的测试中,人类作者可以在美国例外主义论文中得到B或者C+,而GPT-3只能得到B-。最后,在法学课上的政策函写作中,GPT-3得到了B-,而3个学生中只有1个能够得到高分。
下图为人类作者与GPT-3在不同学科写作中的得分情况:
由此可见,GPT-3的写作技能主要体现在技术类文档中。在创意写作课程中的地点记叙文(placenarrative)写作中,GPT-3仅得到了F,没有通过测试。作为对比,自由写作者得到了A、B+和D+。尽管在创意写作教授的眼中,GPT-3失败了,但自然语言生成(NLG)软件依然可以用于编写各类内容,包括一部几乎获奖的小说《TheDayaComputerWritesaNovel》。先前的成功也预示着以后的失败,GPT-3或许只需要一些调整即可以成为一名合格的创意作家。总的来说,AI几乎通过了所有的课程写作测试。
GPT-320分钟完成论文
虽然每个教授打分都不一样,但该评分小组包括两名博士和一名医学硕士。他们总共有超过55年的高中和各种大学水平的教学经验。写作者包括应届毕业生和本科生,其中一些人在他们的研究领域写了提示。平均来说,他们需要3天时间完成任务。
对于绝大多数学生来说,3天内完成大学论文似乎是很难的事情,主要原因在于时间太短,但是GPT-3在20分钟内就完成了这个任务。GPT-3利用深度学习产生类似人类的文本,每项任务花费3到20分钟完成,并且用最长的时间来编写创造性的写作叙述。为了避免人为干扰,GPT-3只对输出长度和重复文本进行了轻微的编辑,其生成的内容、真实信息和语法都没有受到影响。
GPT-3生成的美国历史类作文示例如下:
GPT-3可生成类似人类写作的内容
即使没有人为干扰,GPT-3的任务也或多或少地收到了与人类作者相同的反馈。49.2%的评论涉及语法和句法,26.2%的评论涉及重点和细节,语气与行文结构等也被提及,但分别只有12.3%和10.8%。这与人类作家收到的评论比例几乎相同,近50%的评论与语法和句法有关,25.4%的评论与焦点和细节有关。超过13%的评论是关于人类专业知识,而10.4%的评论是关于整体风格等。
人类作者与GPT-3的写作结果收到的评论反馈情况:
尽管收到了同样风格的评论,GPT-3生成的内容与人类作者并不那么相似。以排名靠前的两个单词组合为例,GPT-3和人类作者只分享了排名靠前的组合:「ofthe」。「Peoplewho」、「itis」和「thosewho」常被GPT-3使用,而人类作者经常使用的是「tothe」、「inthe」和「onthe」。总体来说,这些单词是在英语中经常使用的,组合上的差异显示出AI和人类在写作结构上的一些差异。
人类作者与GPT-3在写作用词上的差异分析:
考虑到GPT-3超高的论文得分,搭配统计数据的差异表明,人类作者比AI产生的独特内容明显更多。
尽管GPT-3具有出色的产出,但其生成的论文在短期内还无法独立获得大学学位。当与人类作者竞争时,GPT-3获得了一些及格分数,但在创意写作方面有所欠缺。尽管它在众多领域的成功为AI的未来带来了希望,但对大学教授来说,AI依然存在不足。
原文标题:前沿|除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟
文章出处:【微信公众号:机器人大讲堂】欢迎添加关注!文章转载请注明出处。
责任编辑:haq