AI写的论文27/28条能通过代码验证，这方法绝了|翻译

AI写的论文27/28条能通过代码验证，这方法绝了

2026-04-20 01:27:36　来源: 薛定谔的BUG

北京举报

分享至

一份36KB的"第二大脑"构建指南，定理、证明、引用链一应俱全——像极了正经学术产出。作者没信，把每条可证伪的声明丢进属性测试（property-based testing）框架跑了遍。28条里27条扛住了随机输入，1条被最小反例击溃后改写为统计声明才过关。

这不是挑刺，是找了一种让AI输出"可落地"的新姿势。

为什么用测试框架审论文

AI生成内容有个特征：表面属性拉满。引用链完整、术语精准、逻辑局部自洽。但"读起来对"和"跑得通"是两件事。

人类写作也一样—— prose描述，实现检验。作者好奇的是：既然属性测试能揪出分布式系统的共识bug，能不能往上提一层，直接测试规格说明（specification）本身？

工具链很轻，血统很深。

Hegel（hegel.dev）是跨语言的属性测试框架，Rust绑定版hegeltest通过协议对接Hypothesis的后端——David R. MacIver的Python框架，再往上是John Hughes给Haskell写的QuickCheck。你写属性，Hegel生成随机输入，找到失败案例后自动"收缩"（shrink）到最小反例。

这派工具在软件工程最硬的领域蹲了二十年：Hypothesis验证Python标准库，AstraZeneca、Stripe、Mozilla生产在用；QuickCheck家族审过编译器、数据库、分布式系统；Jepsen用同一套随机对抗测试，从Postgres、Redis、MongoDB里挖出共识bug；TigerBeetle的确定性模拟测试也建在同一块地基上。

实验怎么做的：从声明到属性的翻译

作者拿的是一份AI合成的"第二大脑"论文，步骤很机械：

1. 逐句扫描，标记所有可证伪的声明
2. 每条声明编码为一个属性（property）
3. Hegel生成随机输入，批量验证
4. 失败的案例收缩到最小反例，定位问题

28条编码声明里，27条直接通过。唯一翻车的是一条全称量词表述："重放总能提升回忆效果"（replay always improves recall）。

Hegel扔回一个最小收缩反例——某个特定输入序列下，重放反而干扰了提取。作者把声明降级为统计版本（"在X条件下，重放以Y概率提升回忆"），重新编码后通过。

更有趣的是副产品：6个"结构要素"浮出水面。这些东西合成文本里没命名，不是因为AI错了，而是 prose天生不会把"实现一个能跑的版本需要哪些隐含条件"全摊开说。

比如"重放"这个操作，论文里当黑箱用。写成属性测试时，必须显式定义：重放的触发条件、间隔分布、与编码操作的互斥关系——这些才是代码能跑起来的真实依赖。

这方法到底在抓什么

属性测试的核心不是"找bug"，是"定义正确性边界"。传统单元测试你手写输入输出，属性测试你写"对于所有满足P的输入，Q必须成立"——机器负责生成刁钻的P来打你脸。

用到AI输出上，它成了"语义压缩检测器"：AI擅长生成在平均情况下合理的文本，但极端 case、边界条件、隐含前提——这些 prose的压缩盲区——会被随机生成器精准爆破。

作者强调这是"一次实验，一个产物"，不打算推广成方法论。但线索很明显：

• 当AI输出涉及可执行规格（算法、架构、协议）时，属性测试能把"置信度"从"读起来顺"提升到"跑得过随机"
• 翻译过程本身暴露实现缺口——写属性比读 prose更能发现"这里其实没定义清楚"
• 收缩后的最小反例是极佳的反馈，比"这段好像有问题"精准得多

局限和未解的

实验没碰的领域：非形式化声明（"用户体验更好"怎么编码？）、需要外部知识的引用验证（属性测试只能查内部一致性，不能爬数据库确认论文是否存在）、创造性/审美判断。

工具门槛也在：需要能把声明翻译成可执行属性的能力，这对非技术写作者是硬壁垒。

但方向有意思——当AI生成越来越像"对的东西"，我们需要的新技能不是"更会读"，而是"更会把它变成能跑的东西来验"。

给你的行动清单

如果你也在用AI辅助技术写作、方案设计或研究综述，可以抄这套最小可行流程：

1. 区分声明类型：把"X导致Y"这类因果/全称声明标出来，它们是测试靶子
2. 选一门有QuickCheck风格库的语言（Python用Hypothesis，Rust用proptest，JS用fast-check）
3. 从最小声明开始翻译：别一上来啃整篇，先挑一条"对于所有输入，输出满足P"试试
4. 关注收缩后的反例：它比原始失败案例更能告诉你"边界在哪里"
5. 记录"结构要素"：测试过程中被迫显式化的前提条件，往往是 prose遗漏的关键设计决策

作者把实验产物和代码留在了可访问的位置——不是论文，是"一个可能对别人有用的方法"。这种姿态本身也值得记：在AI生成内容泛滥的当下，"可验证"正在成为一种新的质量信号，而掌握验证工具的人，会比只会阅读的人多一层过滤能力。

下次收到一份AI生成的架构方案，别只问"这读起来合理吗"——问问"哪条声明能写成属性测试，哪条会在随机输入下露馅"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.