历史书写的传统与新可能性（下）： “AI+ History”还是“AI for History”？|科学|翻译|考古学|方法论|历史学系

分享至

“历史书写的传统与新可能性”学术会议于10月24-26日在复旦大学召开，其中以“AI与历史研究的新可能性”为主题的论坛，引起了学者们的广泛兴趣。报告内容丰富，讨论热烈。分享者既有来自人工智能领域的资深研究者、工程师，也有热衷于嫁接AI与人文研究的文科本科生，背景多元，跨越了人文与科技的畛域，交融了不同代际学者的智慧。

会议现场

10月25日上午，复旦大学人工智能创新与产业研究院研究员朱思语《早期中华文明多模态大模型》围绕AI与历史学交叉研究作主旨演讲。讲座系统梳理了人工智能的发展脉络，从1956年达特茅斯会议首次提出“人工智能”概念，到2017年后生成式AI的迅速崛起。朱教授指出当前大模型的核心支撑在于海量数据与强大算力，并强调其虽具备广泛的知识记忆能力，但“考试能力”与“学科研究能力”存在本质区别。在探讨AI与学科研究的关系时，他进一步提出，AI在历史学中的应用不仅是技术工具的创新，更有潜力推动研究范式的整体转型。为此，复旦大学联合历史、考古、古文字等多学科专家，共同启动“早期中华文明多模态大模型”项目。该项目致力于整合考古发掘、历史文献、古文字材料、历史地理信息等多模态数据，构建跨学科专业数据库，并在此基础上训练适用于历史研究领域的专用模型，以辅助学者进行综合性分析与复杂推理。朱教授还展示了项目的初步成果，包括：结合历史地理信息与考古数据，分析长江与黄河流域文明发展的规律性趋势；利用大模型实现古文字的智能识别与出处溯源；构建多模态评测体系，系统评估模型在史料理解、时空推理等多方面的能力。

复旦大学人工智能创新与产业研究院研究员朱思语

美国加州大学圣地亚哥分校计算机科学与工程系博士候选人陈丹露《AI能做什么比人更好的推理？》指出，生成式AI在人文学科应用中缺乏专属预训练模型与测评题，核心在于恰当建模与置信度设置。她分享了两个成功案例：一是通过机器学习提取17世纪书籍印刷字符的缺损特征，考证出莎士比亚某著作的出版商；二是借助CT扫描与小模型迭代，从庞贝碳化卷轴中识别文字。她强调，AI应用需专家标注数据、拆解研究步骤，可解释性强的小模型往往更实用，且需人机交互验证结果可靠性，同时提及古代文字表征、异体字处理等现存难题。

复旦大学历史学系副教授孙遇洲《亚非团结跨国网络的视觉文化：基于多模态AI技术的研究》源于万隆会议召开70周年，聚焦“亚非团结跨国网络的视觉文化”，旨在通过CLIP等多模态AI技术，分析1950-80年代出版的有关非洲的中文书籍配图及亚非团结组织的外文刊物配图，探究中国对非洲的视觉表征及其历史演变，揭示这一时期去殖民化的发展与国际政治环境的变化。现有研究存在明显空白，国际学界多关注苏联主导的亚非作家协会及《莲花》杂志，忽视中国在亚非团结中的重要作用，且易将相关组织简化为中苏意识形态争夺工具。传统研究还面临视觉资源分散、解读效率低、跨文化语义理解难等难题。本研究借助计算机视觉技术实现视觉资料自动识别分类，结合时空建模构建传播动态网络，通过多模态模型解析图像情感符号与象征意义，填补非文本资料研究缺口。研究不仅丰富中非交往中的视觉文化研究，更助力深化对亚非团结历史遗产的理解，弘扬万隆精神。

复旦大学历史学系副教授孙遇洲

10月25日下午，复旦大学科技考古研究院副教授文少卿《未来已来：从分子考古到AI考古》系统分享了考古学研究的创新路径与实证成果。报告指出，分子考古作为考古学的第二次革命，突破传统形态学局限，通过同位素、古基因组、蛋白质等分子材料，直接揭示人群血缘、迁徙路径、饮食结构与疾病状况，实现了从“透物见人”到“直接识人”的跨越。分子考古已深度融合历史学、语言学、医学等多学科，文老师结合多个实证案例展开说明：新疆石墩子遗址通过同位素与DNA分析，发现汉代军事要塞的多元人群构成；河西走廊的基因研究厘清了不同时期人群迁徙与文化交流的关系；长安城人口遗传史研究则印证了历史事件对人群基因结构的影响。报告还强调AI已全面渗透考古学的发掘保护、研究、展示传播全流程。通过遥感卫星数据与AI结合，高效发现无人区考古遗址并实现实时监测；AI技术可助力文物修复、陶瓷器与动植物遗存自动化鉴定，还在考古报告结构化、多模态数据对齐与因果逻辑挖掘中发挥重要作用。

复旦大学科技考古研究院副教授文少卿

浙江工商大学东亚研究院副研究员王侃良《融合提示工程与RAG的东亚非汉文文献翻译研究：基于候文汉译的跨语言实践》聚焦冷门古代语言候文的“候文—中文”翻译问题，旨在提升LLM翻译质量并提供高质量合成训练数据，助力国内古代日本史文献解读。候文作为前近代日本关键文献文体，现有LLM翻译易丢失时代特有含义，且Agentic方法不适用。研究采用RAG方法，通过OCR提取5部专业词典四要素并构建图数据库，以“分析—检索注释—推理”的迭代流程优化翻译。同时，选取14-19世纪10份古文书构建评估数据集，测试Gemini系列模型在有无RAG情况下的翻译效果。结果显示，RAG方法使两款模型BLEU分数均有提升，其中Gemini2.5Flash（withRAG）达21.94，用词准确性改善，但无法修正句法错误。研究发现，RAG效果依赖基底模型知识储备，语料稀缺是后续突破的核心困境。

浙江工商大学东亚研究院副研究员王侃良

复旦大学历史学系博士生肖馥莲以《走向多模态历史推理：HistBench与HistAgent》为题作报告。她梳理了AI进入史学的历史脉络，从20世纪的数字史学、计量史学到21世纪的数字化转折，指出人工智能时代为史学研究带来了方法论的变革与主体性争论。报告提到两项复旦历史学系与普林斯顿大学联合完成的项目成果：其一是历史推理测评集HistBench，依难度分为三层级、六维度评估，并经三重审查流程以确保学术可靠性；其二是智能体系统HistAgent，通过多智能体协作，模拟史家在资料检索、图像分析、文本翻译和史料解释中的思维路径。肖馥莲同时提醒，AI尚难取代史料批判与解释分析，模型幻觉、数据封闭与多模态识读的限制仍在，历史研究的自动化应在学科规范与人工复核下谨慎推进。

复旦大学历史学系博士生肖馥莲

复旦大学PPE专业本科生陈翌嘉《从记忆至推理：AI的史学能力边界探案》系统性探讨了历史学基准测试集HistBench的突破与局限。首先，强调了HistBench致力于构建多元化的学术语境，这一特色使其在系统性与专业性上超越相关基准，能够更好地评估AI完成历史学术任务的能力。接下来，展现了该基准在语言、地域、模态及领域等多个维度的广泛覆盖，并引入HistAgent与主流模型的测试结果，揭示其对现有AI的挑战。之后，通过分析题目示例，体现出该基准在系统性分级和研究语境建构方面的能力。最后，围绕历史学基准的设计理念与人工智能的能力边界展开了深入反思：动态评分标准的难以确立限制了基准测试在人文学科中的应用深度，它虽可拆解研究中的确定性任务并以题目的形式呈现，却无法有效评估任务衔接机制与不可量化的学术判断。

复旦大学PPE专业本科生陈翌嘉

10月25日下午，与会学者就“AI与历史研究的新可能性”为主题进行了讨论。此次圆桌会议汇聚了来自历史学、数字人文与计算机科学领域的多位学者、教师与学生，围绕若干关键议题展开了深入交流。讨论内容涵盖“AI+History”与“AI for History”的概念辨析、模型训练与史料的可靠性、量化方法与思想史研究之间的张力、全球南方与口述传统在数据体系中的定位，以及教学实践与学术伦理等重要方向。

作为圆桌主持人之一，朱思语在开场中提出了“AI+ History”与“AI for History”之间的根本区分，引发听众思考。他强调不能仅将AI视为一种时髦口号，而必须回归具体学科语境，深入思考“谁来主导”、“使用什么数据”以及“解决哪些历史学问题”这三个关键问题。他进一步提出“AI+X”与“AI for X”的概念分野，前者往往是技术向学科的简单叠加，后者则要求以学科问题为核心，反向塑造技术路径。朱思语提醒，若缺乏历史学者的深度参与，“AI for History”很容易沦为技术方自说自话。

另一位主持人高晞结合自身参与AI项目的经历指出，历史学者“不要先问AI会不会取代历史学家，而是要先敢于走进去”。她坦言自己最初对AI几乎一无所知，是在困惑与不解中被推向前行。然而，正是在与工程师合作的过程中，她逐渐认识到AI无法脱离史学的专业判断，也意识到主动参与技术构建恰恰是降低被替代风险的关键。高晞认为，目前AI更多是作为一种高效工具存在尚未带来史学范式的根本性质变，但通过设计难题、构建评测体系与语料库AI反过来促使历史学者提出新问题。

主持人高晞教授

姜鹏在点评中从“历史学是什么”这一根本问题出发，对当前“AI for History”的研究实践提出追问。他认为目前许多相关尝试尚未触及历史学的核心要义，因为历史研究不仅是对客观事实与资料的技术性整理，更重要的是历史学者必须带着自身的立场与语言，参与到对历史的理解与阐释之中。而一旦进入解释与叙述的层面，历史便不可避免地牵涉意识形态、价值判断与主体介入，正如同一历史事件在不同政治语境下会被赋予截然不同的意义。姜鹏进一步提到，若将历史真相预设为某种单一、可被技术找出的客观实体，实则落入了一种“科学主义历史观”的窠臼。事实上，任何所谓的“真相”一旦被语言表达出来，便已不再是完整的实在。因此，无论AI作为工具还是潜在的认知主体，都无法替代人类在叙述选择、意义建构与解释责任承担中的不可替代角色。基于这一思考，他强调，AI的兴起应当促使历史学界重新审视后现代史学理论与语言哲学的启示——意识到所谓“真相”只能在语言内部被不断讨论与逼近，而不能简单地交由算法来定论。

法国学者杜杰庸从历史哲学与修养论的视角指出，人的“身体经验”、“时间感”以及在长期阅读与写作中积淀的工夫，构成了人文知识不可化约的基础。无论AI能力如何提升，都难以复现这种研究者与历史对象之间鲜活的情感与道德联结。他提醒道，若一味追求效率与便捷，可能会削弱史学训练应有的思想深度与德性涵养。德国学者闵道安借助章学诚所提出的“才、学、识、心术”框架，系统阐述了AI与历史学者的合理分工：AI可在“学”（资料整合）与“识”（初步分析）层面提供辅助，但“才”（表达创造）与“心术”（价值立场与史学伦理）仍必须由人来承担。

在AI工具的应用层面，孙遇洲从全球史与非洲史的角度指出，大模型对高难度冷门题反而表现更好，可能是因为此类领域依赖较干净的专家语料。但她也指出，这同时暴露出当前训练数据明显偏向西方中心与文字传统，而非洲等地区丰富的口述传统、表演艺术与活态记忆，至今仍未系统进入AI的训练体系。赵冬梅则指出，大模型在文献检索、自动分类与基础解读方面具备效率优势，然而一旦超出其训练语料的范围，模型便可能虚构学者与论文。这表明它仅能放大既有的公开知识，而无法替代基于一手史料的历史考证工作。戎恒颖也从实际使用体验出发，指出大模型在语境记忆、细节追溯与逻辑一致性方面仍存在显著缺陷，其输出往往带有形似即可的敷衍倾向，她认为真正重要的是经验、共情与价值判断，而这些恰恰是AI最弱的部分。

聚焦历史教学实践，张越坦言面对学生使用AI完成作业的现象，教师群体普遍感到压力与困惑，但也促使他们反思自身对技术的隔阂与凭印象反应的局限。在参与技术和方法论讨论后，他主张历史教师应先理解再评判，通过重新设计课堂与作业形式，引导学生将AI作为讨论与批判的对象，而非一味禁止使用。姜鹏则分享了同事的教学设计，即先让学生先借助AI生成文本，再逐条纠正其中的错误并重写。这一过程通过对比模型输出与史实、逻辑间的差距，有效提升学生对史料辨析与论证严谨性的敏感度，从而将AI从潜在的作弊工具转化为训练批判思维的反面教材。

关于“AI for History”的概念内涵与实践路径，肖馥莲从数字人文与史学方法论的视角回应，她认为传统数字史学框架下，技术是工具，历史解释权仍在学者。然而，随着大语言模型逐渐嵌入史料检索、文本标注与信息归纳等研究流程，新的问题正在浮现：AI是否在事实筛选与叙事构建中获得了某种“准主体性”？陈翌嘉从工程与制度视角补充“AI for History”的实践条件，指出若要避免技术说了算的问题，历史学者需在模型训练、RAG检索、索引与重排序、任务拆解等关键环节中发声。听众李思玥进一步从工程实践角度细化了具体路径，包括高质量语料库的建设、合理的文本分块与索引策略、检索增强生成的技术集成、查询重写与重排序机制，以及基于真实研究任务设计工具与评测体系。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.