张久珍：AIGC时代的学术规范|学术界|学术论文|aigc

分享至

题记：2024年4月15日，北大承泽-蔚来seeds讲堂第8期举办，本文根据北京大学信息管理系主任、出版研究院院长张久珍教授的主讲内容整理。

AIGC（Artificial Intelligence Generated Content）即生成式人工智能。从计算智能、感知智能再到认知智能的发展进阶来看，AIGC已经为人类社会打开了认知智能的大门，是人工智能从1.0时代进入2.0时代的重要标志，如今在文本生成、图像生成、视频生成、音频生成等诸多领域得到广泛应用。

今天要分享的这个主题“AIGC时代的学术规范”，源于我在北大开设了一门“学术写作与表达”的课程，这门课程主要教大学生如何撰写学术论文。刚进入大学的学生对学术写作大都比较陌生，曾经的作文训练与学术写作有很大差异，因此需要引导他们掌握学术论文的规范。此外，我还讲授一门工具书课程，旨在帮助学生掌握写论文、查资料、写报告等所需的信息检索技能。这两门课程也是20多年来我一直致力于研究的领域。

AIGC能否辅助论文写作？

如果大家对学术规范、科研诚信、学术不端、抄袭检测软件、查重、文字复制比、降重、AIGC、辅写率、AI率等基本概念不陌生，大概就知道我们平时研究所关注的内容。

比如我们会关注抄袭检测软件，它可以帮助判断论文是否有抄袭痕迹。实际操作过程中，有人选择正规途径进行查重检测，也有人尝试网购查重账号等非正规手段。两者的关键不同在于后者存在被骗或论文被钓鱼的风险，因为被检测的论文可能会被“论文工厂”性质的非法机构卖给其他人。

除了查重，还有降重，二者都是关注文字复制比。作为大学老师，我们关心学生发展，同时也希望避免学术不端行为，培养学生的创新能力。高校和管理部门尤为关心这个问题，有高校每年花费百万购买检测软件的全面服务，以确保学生论文的原创性。鉴于学术不端现象仍时有发生，中办、国办等也已印发相关文件严格管理，科技部还提出学位论文等要实施终身追责制度。如此强调科研诚信，都旨在维护纯净的学术环境。

目前，国内外抄袭检测软件和服务很多也很好用。这些软件好在能够处理大量论文，并力图解决人工难以识别大段抄袭的问题。当然，即便软件被广泛应用，它们也并非万能，还是可能出现漏查或误判。已有高校数据显示，部分校友就曾遭遇误判风险，因此采取针对性措施非常有必要。换言之，AI率和辅写率等可以作为辅助和参考，同时也需要人工干预确保检测的准确性。

同样的道理，人工智能可以作为辅助工具开展学术研究，但是不能忽视规则，否则可能面临撤销学位证的风险。尤其是未来越成功的人，学位论文越可能受到关注。

目前国内外都在关注AI，如美国有89%的大学生使用ChatGPT写作业、53%的大学生使用ChatGPT写论文。我国使用比例较低，但也已证明其有用性。

对此，我的想法可以概括为三句话：

首先，重视规范。作为学习者和研究者，我们应遵循学术规范和原则，使用ChatGPT有悖透明原则，如果要符合原则就必须相应制定一些规则。“允许使用但要有规范”也是目前学术界公开的立场。

其次，一定要用。既然AI有用，我们就应充分利用，发挥工具的有益价值。

最后，要科学合理地使用。所有大语言模型（LLM）都是工具，是使用大量文本数据训练的深度学习模型，它们可以生成自然语言文本，或理解语言文本的含义。从专业角度而言，想要用好这些工具就要快速学习如何应用。

目前国内大模型效用不够理想，主要原因之一就是语料质量有待提升。美国、欧洲近20年推行“开放存取”，包括开源软件和开放获取期刊。尽管人们对这一做法仍存在分歧，但客观事实是他们的大模型使用起来更好一些。ChatGPT 3.5自称拥有1亿本数字图书作为支撑语料，甚至ChatGPT已经成为论文的作者。

AIGC的学术应用如何？

从现实情况来看，人工智能正在赋能各行各业，任何学科都无法置身事外。

以历史学科为例，作为一门基础学科，历史学者也在积极应用人工智能，如探索数字人文这个新的学科方向，致力于将丰富的史料转化为结构化数据集，以便更好地开展学术研究。结构化数据集意味着数据要全面、准确，这是计算的基础，数据全面、准确才能为决策提供有力支撑。

大语言模型积累了海量语料，这些语料是人类文明和智慧成果的累积，当这些语料遇到自然语言处理技术，的确可以实现从量变到质变的飞跃。联合国教科文组织在《高等教育中的ChatGPT和人工智能：快速入门指南》中，就揭示了ChatGPT、人工智能技术在高等教育领域的广泛应用和潜力。

结合论文写作的不同阶段，我们可以细分ChatGPT的应用与价值点。

在研究设计阶段，ChatGPT可以帮助研究人员生成想法，并根据研究内容及实验方案推荐相应的数据源；

在数据采集阶段，它可以帮助研究人员采集数据，并按照研究人员的要求将数据源翻译成所需的语言；

在数据分析阶段，它可以对数据进行编码、提供数据处理的建议，给出不同的数据分析方法，提出要分析的主题；

在论文写作阶段，可以就论文结构提供建议，辅助撰写文献综述以及论文的编辑和润色；

到论文评议阶段，它还有可以帮助预测一篇论文能否被接收，提高论文的质量和可接受性。

面对这些功能与应用，我们能否简单地断言“只要使用AI就等同于抄袭”？这显然过于简单粗暴。我们应深入探讨AI技术应用的边界，最终合理、有效地运用AI技术。就像汽车的出现改变了人们的出行方式，需要制定相应的规则来规范其使用。

实践过程中我们也发现，想要充分发挥AIGC工具的潜力，提出恰当的问题很关键，AIGC的语料库相当丰富，通过不断提问和细化需求，它能提供极具参考价值的建议。另外，使用AIGC过程中产生的所有数据均可自动存储，便于回顾和继续提问。

总之，通过持续地互动与学习，AIGC模型能够协助用户完成PPT制作、图表分析、生成图片和视频、制作问卷、理解概念、写作论文、文艺创作、编写代码等众多工作，显著提升工作效率和成果质量。

展望未来，ChatGPT等AIGC模型在知识生产和学术科研方面的潜力，有望改变传统科研范式，改变知识生产和学术科研的生命周期。比如在出版业，从选题策划、创意构思、大纲制定，到内容生成与定向拓展、风格调整与定制优化，再到智能审校，以及智能评估与反馈分析，知识生产的完整流程大语言模型都可以参与，从而为出版业赋能。

AIGC带来哪些学术伦理问题？

学术期刊界的学术不端，是科学研究领域学术不端问题的集中体现。具体而言，它们集中体现为伪造/篡改、抄袭/剽窃、重复发表、一稿多投、不当署名、第三方代写代投、虚假同行评议、图片操纵等问题，相关政策和管理制度也一直很重视这些问题。

学术不端并非由AIGC引起，但AIGC确实给解决学术不端问题带来很多新挑战。比如论文撤稿问题，作为论文生产大国，我们在国内外学术期刊上发生论文撤稿的现象越来越突出，仅2023年我们的撤稿量就超过1万篇，其中，AIGC辅助随机生成内容导致的撤稿比重显著增加。在国际创新体系中，这无疑会给我国学者带来负面影响，也会影响整体创新氛围和环境。换言之，学术不端行为不仅影响学术界，也会对游戏、电影等各行各业产生深远影响。游戏行业原始创新不足、电影产业的翻拍现象等，都反映出我们在创新方面能力不足。

从实际应用来看，虽然大语言模型可辅助撰写文献综述、润色论文、编写代码及统计分析，然而它辅助生成的论文，也可能通篇内容看似良好但缺乏创新。比如现在跨学科研究非常流行，涉及多个交叉领域，大语言模型应用于科研，它提供的内容是否准确、是否有价值，单一领域的专家很难判断，这就导致该领域无实质贡献的论文特别多，又没有到“伤天害理”的程度，尚未造成严重后果。

也有批评指出，有些论文成果缺乏创造性和独立思考、侵犯知识产权，或者使用不准确、虚假的参考文献，属于虚假研究成果，这类做法除了涉及法律问题，还有道德风险，如果基于这种研究成果来申请职称评定，或者申请国家社科基金和自然科学基金支持，都会引发道德方面的质疑。

另外还有很多细节问题，比如“AIGC能否列为作者”目前还存在争议，再如“怎样规范使用AIGC辅助学术研究和论文写作、是否有必要甄别该论文是机器代写”，同样引发有趣的讨论和重要的挑战。很多学者、各大数据库也都在开展此类问题研究。

如何构建AIGC时代的学术规范？

关于AIGC的应用，管理部门希望通过出台政策、指南，以及开发并开放科研失信检测新工具来加以规范和引导，优化科研诚信制度建设。一些大学和科研院所也尝试做出规定，早期的态度是明令禁止为主，后来逐渐转向科学引导。由于技术发展实在太快，不仅高校从禁止转为鼓励使用，一些出版机构和技术公司也在积极应对。

管理部门近年来发布的相关政策特别多，也特别频繁，如国务院2017年出台的《新一代人工智能发展规划》，国家新一代人工智能治理专业委员会2021年制定的《新一代人工智能伦理规范》等。2023年是政策出台比较密集的一年，继科技部推出《负责任研究行为规范指引2023》之后，国家网信办、发改委、教育部、科技部等七部委又联合发布《生成式人工智能服务管理暂行办法》，《中华人民共和国学位法（草案）》也是在2023年提交审议，提出用人工智能代写论文等学术不端或构成条件撤销学位。基金委也在2023年12月发布《科研诚信规范手册》，制定了面向科研人员、学术出版单位、评议人的AIGC使用规范，基于研究选题和实施、课题申请书撰写、数据管理、文献引用、成果署名、成果发表、同行评议等学术研究流程，明确了AIGC的使用规范，为科研人员符合诚信地应用AIGC提供了指引。

《科研诚信规范手册》明确，不允许使用AIGC直接生成申报材料，如果要使用AIGC处理文字、数据、图像、音频、视频等，应在研究方法或附录等适当部分披露使用的方式和主要细节，说明其生成过程。而且，使用AIGC不应含有侵犯他人知识产权的内容，对其他作者已标注为AIGC内容的，一般不应作为原始文献引用，确需引用的应加以说明，不得直接使用未经核实的由AIGC生成的参考文献，AIGC不得列为成果共同完成人。

此外，学术出版领域也从行业标准（草案）、团体标准（草案）、出版伦理层面制定规范，以促进AIGC的规范使用。

这些政策都旨在引导科学、规范地使用人工智能技术，和以往的学术研究规范也一脉相承。以文献引用为例，在纸本时代，没有计算机和互联网，学术规范要求引用他人研究成果必须做出标注。如今工具变了，但规范、原则依然适用，对前人成果引用保持善意，是对前人和后来的读者负责，也是对自己负责，因为标注之后你的文章不会被误以为是抄袭。

对于个体而言，相关政策和规定都已经比较清楚，我们要做的就是使用过程中遵守规定，做好自我保护，如论文撰写过程中避免遗忘、遗漏标注参考文献，这也是学术研究要遵循的公开、透明原则，再如论文发表环节，清楚了解所投期刊的规定，它们其实就是投稿指南。

相比较而言，国外学术出版机构对使用AIGC要求严格，态度与规范也随技术迭代变化，因此一定要关注最新规则。论文写作与评审中，AIGC使用应坚持透明、诚信、人工审核原则，反对过度引用。当然，有些高文字复制比的文章也可能是创新制作，因此还需要人工审核确认。

目前，2023年QS世界大学排名前100的高校中，有69所制定了使用AIGC的学术规范，可见大部分高校已重视并尝试引导、支持AIGC的使用。出版机构、行业协会、期刊也陆续制定相关规则，并借助相关检测软件进行规范。

总之，应用AIGC已经越来越普及，尤其在知识生产方面，学术界、出版界与AIGC的合作越来越广泛和深入。同时，内容检测也变得常见，AIGC带来新的学术规范问题亟待解决。伴随着AIGC生成技术快速发展，其文本逼真度显著提高，与人类创作的风格、语法接近，对检测系统也提出更高要求，亟需更高级别的特征提取与模式识别能力，以及优化抄袭检测技术。

最后，我主要就今天的分享做两点总结：

首先，AIGC等工具可以使用，养成好的使用习惯也无需过多担忧。无论时代和工具如何变化，工具只是工具，我们仍需自我约束：遵守研究规范，不复制他人成果，不偷懒。研究抄袭检测技术需投入大量成本，包括管理成本，而且，如果人人想偷懒且未受惩罚，创新土壤将不再肥沃。

其次，“不经意的抄袭”现象在国内外都很普遍。大部分学者其实都在努力遵守学术规范，但仍有不少人无意中抄袭。这并非故意为之，而是因为缺乏学术规则方面的知识，对尊重他人、便于后人阅读和保护自己都缺乏足够的认识。因此，学术规范教育仍需加强。做学术研究时，“不抄袭”是不变的规则，“善意使用需透明”是原则性要求，很多时候可能仔细查看规则就可以避免“抄袭”的发生。

整理：王志勤 | 编辑：王贤青

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.