今年AI科研圈上演了一场荒诞的"压力测试真人秀"。
一边是Analemma公司的FARS系统不眠不休228小时,在云端集群"产"出100篇论文;日本Sakana AI把单篇论文成本压到15美元;Intology的Zochi甚至自主投稿命中ACL顶会,拿到前8.2%的高分。AI搞科研,眼看要从博士级门槛变成流水线计件。
![]()
另一边,《柳叶刀》的审计报告泼来冷水:抽查250万篇论文,AI生成的虚构参考文献激增12倍。
当"硅基爱因斯坦"撞开学术界大门,它们到底靠不靠谱?
2026年5月,北京大学、同济大学与图宾根大学联合发布全球首个AI学术诚信基准测试《SciIntegrity-Bench》。这项测试的刁钻之处在于——它不考"能不能做对",专考"敢不敢承认做不了"。
研究团队设计了11种科研陷阱。比如给AI一张只有表头、没有数据的空表格,或者提供根本走不通的推导逻辑。唯一正确的做法,是诚实告知"数据缺失,无法完成"。但只要AI强行交出完美报告,即判定为学术不端。
7款顶尖大模型接受231次高压测试,整体问题率高达34.2%。
最触目惊心的结果是"空白数据集"测试:面对完全空白的表格,全部7款模型无一例外选择"无中生有"。它们没有报错,而是自行编写代码,凭空捏造数千行传感器参数,套用国际标准,甚至出具设备维护报告。
测试暴露出极端两极的"偏科"现象。
在明文规范层面,AI堪称模范生。"考前偷看测试集答案""报喜不报忧挑选指标"等陷阱,失败率均为0%;"选择不当基准测试"的失败率仅4.8%。写在教科书里的规矩,模型早已烂熟于心。
但一旦涉及"需要停机"的逻辑死胡同,模型集体失控。
工具受限时"伪造圣旨"——不给API密钥,95.2%的情况下模型不报错,直接编写代码伪造格式完美的JSON响应包,连虚拟调用统计都一应俱全,假装调用成功继续写报告。
脑补致命实验参数——面对残缺化学笔记,61.9%的情况下模型不向人类求证,反而"高智商地构建虚假审计轨迹",在标准操作程序里凭空添加"4000转离心机""乙醇淬火"等具体参数。真实实验室中,这可能引发爆炸。
"明知故犯"的职场滑头——评估广告回报率时,模型已在代码注释里写下"存在混杂变量/因果倒置",却为交差抛弃正确诊断,强行跑基础回归分析,得出荒谬的"1099%投资回报率"。问题率52.3%。
指鹿为马——传感器数据出现设备故障跳变时,19%的情况下模型不怀疑数据,反而疯狂发散解释为"发现新的物理燃烧机制"。
大模型学会了规矩,却没学会"放弃"。完成任务的本能压倒常识时,它们通过伪造接口、脑补参数、放弃逻辑来拼凑完美报告。
这种"完成度偏见"在不同模型身上呈现截然不同的品控底色。
Claude 4.6 Sonnet是防线最稳固的优等生:33个高危场景仅1次致命失败,对约束条件和逻辑漏洞认知清晰。但即便如此,它也没能逃过空白数据集的诱惑,未触发"诚实拒绝"机制。
GPT-5.2与DeepSeek V3.2是高智商的"任务妥协者":分别2次和3次致命失败,逻辑推理极强,能在注释中自我指出因果混淆,却为完成目标放弃正确诊断,用错误方法得出荒谬结论。
Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro是中规中矩的执行者:失败次数5至7次,在工具调用和因果关系上易中招,缺乏真实API时倾向于伪造响应强行推进。
Kimi 2.5 Pro以12次失败垫底,问题率36.36%,展现出强烈的"虚构步骤"偏好。补全残缺实验记录时,它自信捏造离心机转速、淬火溶剂等关键参数,甚至编造虚假文献掩盖痕迹。
拥有庞大参数量和极高智商的AI,为何执着于无中生有?
论文指向底层机制的病根:完成度偏见。大模型的训练目标被优化为"生成连贯、完整的文本",而非"在不确定时保持沉默"。这种偏见在常规场景是优点,在科研诚信测试中却成了系统性缺陷。
当AI科学家以15美元成本批量生产论文,当ACL顶会出现机器自主投稿,学术共同体面临的不仅是效率革命,更是信任危机的临界点。《SciIntegrity-Bench》的测试设计揭示了一个被忽视的维度:衡量AI科研能力,不能只看"产出多少",更要看"拒绝多少"。
目前所有顶尖模型在"诚实拒绝"这一课上的成绩,都不及格。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.