21调查丨“玄学”、误判和偏见：高校检测AI论文背后

97 閱讀 0 評論 0 點讚

21世纪经济报道见习记者肖潇北京报道

AI中风险，疑似用ChatGPT生成——这是去年四月，学校查重系统对王宇毕业论文的判定。王宇一下慌了。

当时ChatGPT惊艳亮相不到半年，教育界一度担心学生有了“作弊神器”。在这一背景下，知名学术查重软件Turnitin率先推出了AI文本检测器，用来识别论文中的AI生成内容。国内的格子达、知网两大查重系统也先后上线了AIGC检测功能，王宇就是第一届被检测毕业论文AI率的学生。

随着生成式AI快速迭代，规则和技术渐渐填上监管真空期。去年8月提交审议的《学位法》（草案）拟定，人工智能代写属于学术不端行为，严重者可被撤销学位证书。今年1月，Turnitin的AI文本检测成为正式功能，开始像查重服务一样向高校收取费用，一定程度上意味着AI论文检测步入正轨。

但这没有阻挡学生的使用，高校学生依然是生成式AI的主要用户群。“直接把题目扔给AI让它写一整篇论文，老师肯定一眼就能看出来，我身边已经没什么人这么做了。”刘晨曦告诉21世纪经济报道记者，她的用法是让ChatGPT总结文献、降重、润色，这也是许多学生现在的使用方式。

不过，刘晨曦的论文还是被标记了25%的AI率，任课老师要求重写。王宇在写毕业论文的过程中没有用到生成式AI，她曾经自己尝试找出有“AI风格”的句子，改了两轮后，“AI率越改越高。”

AI参与的论文能不能被准确检测？有没有必要检测？AI论文的监管难题，正在困扰全球教育系统。

查重率低了，AI率高了

王宇去年毕业于湖南一所大学的商科专业。一开始看到自己的本科毕业论文被标记为“AI中风险”，王宇还不知道问题出在哪里，因为她没用过ChatGPT这样的工具写作。直到老师将教师版本的AI检测报告发过来，王宇才明白，那些AI疑似度高的段落，大多是被自己“降重”过的。

“降重”指降低重复率。此前在学生中流行的一种降重方法是，用翻译软件多次转换语言，把他人的话快速“转述”为自己的观点。王宇用的就是这种办法，她把一段话先从中文翻译成英文，再将英语译成日文，最后译回中文，以此更换词语和语序，降低与原文的相似度。

不过办法这一次失灵了。“查重率是低了很多，但被认为是AI写的。”

王宇学校使用的是格子达查重系统，去年四月开始运行“类AI辅写行为检测”功能。在王宇的个人提交界面，论文被评级为AI中风险。在王宇老师的界面，可以更清晰地查看可疑文本，每一句的AI疑似度分高、中、低三档，辅写工具均判定为ChatGPT。

除了格子达和知网，AI检测工具尚未在国内高校全面铺开。相比之下，Turnitin查重系统在海外应用更广，检测也更细致。刘晨曦在加拿大上学，去年十二月，她的一篇论文在Turnitin中显示AI率25%——意思是25%的文本疑似由AI生成。老师因此让她重写，并且无论如何都要扣除25%的分数。

这篇论文是刘晨曦英语文学课的结课作业，主题是比较两部文学作品。写论文时，她先跟ChatGPT最新的GPT-4大模型讨论写作方向，得到了比较两位俄国女诗人的灵感。接着让GPT-4查找文献，自己写出大纲和草稿。最后再让GPT-4降重、润色。最终论文里有多少属于AI，多少属于自己，她很难区分清楚。

刘晨曦说，GPT-4直接输出论文仍然很生硬，编造文献不少，“还不如自己写”。但比起传统的降重方法，ChatGPT的优势是可以精准“调教”，比如改写特定的句子，或者解释复杂概念。在找文献上也更快捷，原本需要检索两到三天的文献，GPT-4几个小时就能整理完毕。

根据Nerdynav的调查，43%的大学生用过生成式AI完成作业。英国媒体The Lab统计发现，罗素大学集团下的八所大学，对ChatGPT的访问量在两个月内高达100万。其中12月和1月是校园网络访问ChatGPT的高峰期，正是考试集中月。多位受访学生告诉记者，AI一键生成的论文意义不大，基本达不到学校要求。学生现在的主要用法是总结文献、降重、润色语言，本质还是他们曾经抄过的一条“捷径”。

划下AI率红线后，这条“捷径”走不通了。从去年夏天起，小到随堂感想，大到结课论文，刘晨曦的学校都要求AI率为0%。

王宇学校规定，毕业论文必须为AI低风险。她把被标记为AI的句子用自己的“大白话”重新描述，在修改了6个版本后，论文终于变为AI低风险。“这是个玄学。”王宇形容。

上世纪论文也被判定为AI

多所高校都发布过AI论文禁令。最早开始的是美国纽约教育局，其限制在学校Wi-Fi网络环境中访问ChatGPT。英国大学尤其注重学术诚信，牛津、剑桥、帝国理工等28所英国大学都曾宣布，在论文和课程作业中不当使用AI，将被视为违反学术诚信的行为，严重者可能被开除学籍。香港大学也表示，学生在课程作业中使用AI需要老师批准，否则可以按作弊处理。

AI检测技术的影响是立竿见影的。Tunitin上线AI检测器的一个月内，全球有超过一万所中高等教育机构激活了这款工具。除了Turnitin，市面上还流行GPT Zero、 Copyleak等AI检测工具，大多向个人免费开放。

一留学中介在社交媒体上分享，2023年在英国留学生中，AI代写论文的学术听证会数量，已经超过人工代写。“AI检测率高是很石锤的学术不端。”

但AI检测器准确吗？石白在美国加州大学系统下的一所大学担任助教，她告诉记者，如果论文全篇用AI生成，有经验的助教一眼就能看出来。去年秋季学期，她的课上就有两篇论文属于这种情况。“用词华丽空洞，而且引用的文献基本不存在。”石白搜索了一款AI检测工具，99%的检测结果帮她肯定了自己的猜测。

被怀疑有AI参与的论文还有三到四篇，AI率在30%～40%之间，但石白没有追究。一个原因是，她熟悉其中一位学生的写作风格，其写法一直比较华丽；另一方面，有其他助教曾经检测了自己的原创论文，AI率也有30%～40%，这让石白觉得AI检测工具还不够可靠。

刘晨曦用五篇AI参与程度不同的论文，测试了市面上的主流AI检测工具，得出的结论是：除非完全不用任何工具，否则都有AI含量。比如，去年十二月，她让GPT-4润色了知名哲学家朱迪斯·巴特勒、斯拉沃热·齐泽克的两篇论文，前者在Turnitin检测出的AI率为51%，后者为34%。

“而且巴特勒本人就喜欢用生僻词语、长难句写作，哪怕直接提交她在上个世纪发表的论文，也显示有AI内容。”刘晨曦补充道。

尽管许多AI检测工具声称误判率在1%之内，但在使用过程中，误判概率似乎远高于官方数字。最大的误判区是语法工具、翻译软件和润色功能，一些固定的个人写作风格也可能被误伤。

对于可能出现的误判，Turnitin的解释是：“AI检测器会识别书写过于一致、平均的模式，而许多人的写作水平可能就属于平均模式。” 这也是市面上大部分AI检测器的说法。

简单来说，人类往往会综合使用长短句，而AI 的句子更单调。此外，人类的文本通常还有复杂的转折、非典型的逻辑结构，让AI无法准确工具测下一个词语。这两个影响因子决定了，一些遵循“写作模板”的论文，可能被误认为是AI作品。至于这些模板究竟是什么，具体如何运作，几乎没有AI检测器能够提供解释。就像AI一样，目前AI检测的技术原理也处于黑箱之中。

考虑到存在误差，许多AI检测工具都发布了“免责声明”。比如Turnitin建议，不把AI率当作唯一标准，希望老师综合专业经验以及对学生的了解做判断。

使用界限模糊

北京大学教育学院学习科学实验室执行主任尚俊杰在采访中告诉21记者，目前AI检测器的意义，主要是监督明显的学术不端行为，比如直接用AI生成全文。

还有一种情况是，AI灵活应用在整个研究和写作过程中。此时的核心问题在于，哪些行为算学术不端，哪些行为算合理使用？简单用数字高低判断并不科学，划分界限是个难题。

论文被检测出25%的AI率、判定为抄袭后，刘晨曦将每一阶段的草稿、文献整理笔记、浏览器搜索历史发给老师，证明论文是自己的原创作品，成功争取到了老师的认同。不过，申诉中介让她不要跟老师提到ChatGPT，于是她谎称用的是另一款老牌写作工具Grammarly。

Grammarly是上一波人工智能浪潮的产物，主要用来纠正语病、润色语句，不少欧美大学的写作指导中心甚至会鼓励学生先用Grammarly批改作业。“严格意义上，用辅助工具都算作弊。但老师比较能理解这些软件的作用，所以我只能这么说。”刘晨曦解释。

既是在读博士，又为大一、大二学生授课的石白，一方面能理解学生用AI写论文，因为她也常用ChatGPT做论文的前期准备，比如做表格、搜文献；另一方面，她认为本科生无法把握使用的边界，所以才会在教学大纲中完全禁止学生使用AI。

多位受访学生提到，求助AI的一个原因是学术能力有限。“本科生的论文没什么学术含金量，这种综述性的作业，大家都是找几篇论文凑一凑观点，再找工具改一改。”王宇说，只要不涉及数据造假、文献造假，她觉得用AI写论文没有什么问题。

但在石白看来，学术论文是观察、思考、提问、论述的完整过程。一篇名为《感谢ChatGPT揭露本科论文的平庸》的文章写道，本科论文的重点是教育，而不是知识的进步。最关键的是训练和展示学生处理信息的能力，不是产出有价值的知识。“如果一直依赖ChatGPT得到结果，就不会经历批判思维的训练过程。而过程才是我想让学生学习的。”石白说。

华盛顿大学的一位教授在《大西洋月刊》上表示，被识别出AI内容的论文可能介于完全没用AI，工具者100%用AI之间。学生究竟怎么使用、用法是否错误，AI检测工具无法回答，师生间诚实的沟通变得越来越重要。

教育规则的反思和变革

AI检测器难以解决的监管难题，反映出一个更深层次的困扰：如何处理AI和教育的关系？

尚俊杰告诉记者，技术革新一直在影响着教育系统。上世纪的学生需要去图书馆逐本翻阅文献，一遍遍用手誊写论文。搜索引擎和电子文稿软件普及之后，学生可以直接在网上检索文献、复制粘贴、比较分析、归纳总结，大大提升了工作效率。可以说，计算机在整个研究和论文写作过程中起到了巨大作用，应用AI是必然趋势。

在尚俊杰看来，AI对高等教育是一次新的提升机会，也提出了更大的挑战。引导学生合理使用AI，需要重新思考教育系统的“游戏规则”。

石白认为，应对生成式AI的冲击，课程设置和考核方式很重要。她观察到，学生用AI写论文，往往跟论文难度有关。比如她发现有数篇AI论文的课程，“学生才刚接触学术写作，老师对论文字数、文献引用数量的要求又很高，其实超过了学生的能力范围。” 另一门课的论文要求相对合理，而且着重于学生批判、思考的基础能力，石白在这门课上几乎没有发现AI代写论文。

近几个月，包括西北大学、德克萨斯大学奥斯汀分校在内的几所美国高校宣布关闭Turnitin的AI检测服务，并放宽对AI的限制。此前澳洲的多所大学尝试转变考核方式，减少标准考卷，采用更多的口头报告、现场演示。

还有一些学校开始积极拥抱AI。今年1月，美国亚利桑那州立大学引入ChatGPT企业版，成为第一个与OpenAI合作的高等教育机构。该校校长表示：“AI将成为帮助学生提高学习效率，更全面地理解学科的工具。此次合作反映了我们的理念和承诺——我们要直接参与到人工智能学习技术的发展过程中。”

尚俊杰指出，在人工智能时代，学生应该做什么、学什么、怎么学，成为一个很重要的问题。“对于现在的高校学生，我们要求他们具有一定的计算机能力。在未来，什么能力是学生需要具备的？哪些能力将与AI挂钩？” 斯坦福大学机器人及未来教育项目主任蒋里曾预测，未来学生的能力会被分成两种：一种是单打独斗的能力，不借助任何AI工具的帮助；另一种是AI加持下的能力，这可能是今后最为重要的能力。不同的能力要求，将重塑人才培养模式。

从更长远的尺度看，当AI全面参与研究过程，学术规范等诸多规则也会迎来改变。例如尚俊杰提到，在文章中如何提及AI的贡献，AI能否列为论文作者，乃至如何定义学术诚信、学术剽窃，都是未来会面临的问题。

“AI应用于高等教育已经是必然趋势，需要鼓励正确使用，而不是一刀切的禁令。人类要探索的新问题是，在人工智能时代下，怎样构建新的学术规范和伦理规则。”尚俊杰说。、

（应受访者要求，王宇、刘晨曦、石白为化名）

點讚(0) 打賞

本文分类：大灣區
本文标签：论文学生学术王宇大学文献老师能力晨曦石白人工智能工具润色检测工具过程记者软件作业学校毕业论文世纪检测器系统诚信技术词语网络英语课程俊杰规则高校不端数量经济用法情况无法方法精准功能整理优势严重者问题草稿规范教授查重意义人类难题笔记结构个人概率浏览器专业作弊科学机器人学院电子英国媒体方式用词界限华丽模型女诗人美国纽约现场语序界面方向俄国教育局口头报告结课
浏览次数：97 次瀏覽
发布日期：2024-02-27 13:04:00
本文链接：https://shuohk.com/cms/dawanqu/110301.html

21调查丨“玄学”、误判和偏见：高校检测AI论文背后

评论列表共有 0 條評論

發表評論取消回复

21调查丨“玄学”、误判和偏见：高校检测AI论文背后

蘋果電視來瞭！就這？

華人撐起瞭溫哥華豪宅市場

富士通Quaderno彩色電子墨水屏閱讀器登場：A4、A5 尺寸，學習辦公新利器

華為Mate X6官宣搭載分佈式玄武架構 機身更輕更薄

评论列表 共有 0 條評論

發表評論 取消回复

華為Mate X6官宣搭載分佈式玄武架構機身更輕更薄

评论列表共有 0 條評論

發表評論取消回复