2026年3月30日,一项面向高校本科生的历史学术竞赛正式启动。与常规历史学论文比赛不同,这场名为“我用AI写历史”的学术论文竞赛,明确要求“使用指定的大语言模型(LLM)完成历史学论文写作,并提交全过程材料”,鼓励参赛者“充分地、大胆地使用人工智能进行历史论文写作”。
这项比赛由南京大学数字史学研究中心主办,清华大学日新书院、中国社会科学院大学数字史学研究中心、复旦大学历史学系、上海交通大学人文学院历史数据中心、浙江大学历史学院数智史学交叉实验室、陕西师范大学历史文化学院等多家单位协办,试图在高校和期刊对AI使用普遍持谨慎态度的背景下,走出一条不同的道路。
“在‘平行宇宙’中暴露问题”
赛事的组织者、南京大学历史学院教授王涛告诉澎湃新闻(www.thepaper.cn):“我们有一个预设,希望学术界注意到,在人工智能迅速发展的当下,传统的学术成果展现方式,包括学术论文发表,已经不是一个特别要紧的事情。我们发起一个‘鼓励充分使用’人工智能的写作竞赛,企图展现一个学术研究的‘平行宇宙’,让问题充分暴露,从而让学界同行意识到真的已经到了需要提出应对方案的地步。”
竞赛的征稿启示这样解释这场比赛的缘起:“人工智能浪潮正迅速冲击历史学的研究、写作与发表。与此同时,不少高校与学术期刊陆续发布AI使用守则,使得AI在学术实践中常被‘低调处理’‘隐形使用’,从而造成研究过程不可追溯、方法不可讨论、伦理难以更新。”王涛认为,目前主流学术期刊的AI使用规范,其实是对作者良心的考量:“完全有可能出现这种情况:作者充分使用了AI,但是机器检测不出来,人类评审专家也看不出来。而作者就是不承认用了AI。那么,这样的规范就是遮羞布。我们不需要反思为什么AI使用规范不能被遵守,而应该反思为什么作者会对使用AI的真实情况撒谎。是作者羞于提及AI,还是觉得无所谓,还是其他原因?我们希望通过竞赛,创造一种作者不以使用AI为耻的环境,然后再去考虑哪些规范已经落后了。”
本次竞赛设定三大目标:探索人机协作的边界,评估AI的可能性与局限性,推动方法与伦理更新。主办方认为,与其回避,不如拥抱;与其限制,不如探索。在明确规则与公开披露的前提下,让人工智能从“隐形使用者”走向“台前协作者”,使其参与过程变得可追溯、可讨论、可评估。
王涛表示,目前大家在谈论人工智能的赋能或者局限性的时候,往往缺乏具体的案例,竞赛则可以提供活生生的案例,既可以引起大家对人机协同历史书写的具体问题的讨论,比如界定“辅助”和“代写”,署名权的问题,也可以引申出学术研究的意义这样的宏大议题,这就是征稿启示中强调的“以实践反推伦理”。
“我们在教学中,已经遇到了学生用人工智能提交作业,甚至让人工智能撰写会议论文并被会议收录的情况。学生们已经在大胆使用人工智能了,我们却还在用传统的眼光看待他们。”王涛说。本次比赛的参赛对象限定为大二至大四年级的中国境内外高校在读本科生。“我们希望历史专业的学生掌握一些基本的学术能力以后再来参加比赛,因此规定大二以上可以参赛。”与此同时,比赛也鼓励考古学、文博、区域国别、哲学、政治学等相关专业学生参与,但明确要求论文需符合历史学基本训练与规范。
三条赛道和两场专题培训
比赛由南京大学数智文献实验室提供内容支持,参赛选手报名后自动注册为南京大学数智文献处理平台用户,可在三种方式中任选其一进行创作,也可综合运用。第一种方式为指定文献命题创作,即在主办方统一指定的文献范围内,利用数智文献处理平台进行史料长编整理、智能分析,最终形成一篇完整的学术论文。第二种为自选文献自由创作,选手可自行上传个人收藏或公开获取的历史文献至平台,借助平台的分析工具进行研究。第三种是多工具融合创作,在利用平台完成文本处理的基础上,结合其他AI工具如地理信息系统GIS等进行跨维度分析,形成具有多学科特色的论文。写作周期为期20天。
为使参赛选手熟悉平台操作及大模型应用,主办方将在赛前组织两场专题培训,分别是大语言模型API应用培训和平台操作培训。前者内容涵盖基本原理、API调用方法、提示词设计技巧以及在历史写作中的典型应用案例,后者重点培训文献识别、翻译、语义检索、史料长编自动生成等核心功能。
竞赛对透明披露的要求体现在多个层面。在模型使用方面,比赛默认调用指定模型。如选手在创作过程中自行使用其他大语言模型进行辅助,须在提交作品时附上详细说明,包括所使用模型的名称、版本、使用方式及具体用途。在过程记录方面,数智文献处理平台将自动记录选手在比赛期间的操作轨迹,包括文献处理、检索、分析等流程。这些记录将作为评分的重要参考依据,使得AI参与历史写作的全过程变得可追溯、可复现。
“指定大模型是为了让工具的差异性可以忽略,只关注学生个体的能力素养。同时,我们也限定在数智文献平台上进行,主要是为了让学生们认识到,对历史文献的使用之于历史研究的重要性。”王涛说。
人机协同的评审与伦理
本次比赛的评审机制采用“人机协同”的模式,由AI评分与专家评分共同决定最终成绩。
AI打分时,首先制定多维评分标准,包括史料运用的准确性、逻辑结构的严谨性、分析深度、创新性等。由大语言模型对参赛作品进行多次独立打分,去掉最高分与最低分后,取剩余分数的平均值作为该模型的评分。随后选用多个不同的大语言模型分别执行上述操作,得到各模型的评分,再将这些模型的评分去掉最高分与最低分后取平均,得到最终的AI评分。
人类专家评审则邀请历史学领域的专家学者组成评审委员会,从学术价值、问题意识、论证过程等角度进行专业评审。综合成绩由AI评分与专家评分按一定权重加权计算得出。
在学术伦理方面,征稿启事中的责任声明指出:本竞赛鼓励充分使用AI,但要求全过程透明披露。参赛作者对论文内容承担全部学术责任,包括事实准确性、引用规范与观点表达。严禁伪造史料、捏造引文或虚构参考文献,一经发现取消资格。同时,组委会鼓励参赛者把“AI可能出错”作为研究对象之一,记录错误、解释原因、提出应对策略。
竞赛鼓励“充分使用”,但是否存在“上限”?假设一篇论文的80%由AI生成,学生仅做修改和整合,这样的作品是否符合竞赛精神?王涛表示,比赛中不做限制。“一方面实际操作中很难用百分比来设置上限,另一方面我们是希望让学生意识到,写作本来是自我表达的手段,如果他认为可以用一个人工智能完成的作品代替自己的思路,或者愿意提交一个不经过人工审核的作品代表自己的思考,那就是在放弃自己的主动性。这样的作品进入竞赛环节,也许评审无法识别出来,但作者就是在用这样的行为创造一种新的学术生态。他们将是未来学术生态的创立者,他们的态度将是未来学术伦理的内核,他们愿意在什么样的环境下思考问题、研究历史,这种不加限制的人工智能使用场景就是具体行为的开始。”
除一二三等奖外,比赛还特别设置“最具争议奖”颁发给人类评审与AI评审分差最大的作品。“评分的差异很难预测。但我们的目的是让人类专家也有机会见识‘学术论文’成果形态的多样性。”王涛说。他表示,这场人机协作的史学实验,试图在真实的写作过程中,重新审视并更新数字时代的学术伦理,让人工智能从“低调处理”的阴影中走出,在公开透明的框架下接受检验、讨论与评估,“让规范在真实写作中被检验、被修订,而不是停留在抽象禁令”。
![]()
3月30日由南京大学历史学院发布的比赛征稿启示
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.