网易首页 > 网易号 > 正文 申请入驻

AI写的论文27/28条能通过代码验证,这方法绝了

0
分享至

一份36KB的"第二大脑"构建指南,定理、证明、引用链一应俱全——像极了正经学术产出。作者没信,把每条可证伪的声明丢进属性测试(property-based testing)框架跑了遍。28条里27条扛住了随机输入,1条被最小反例击溃后改写为统计声明才过关。

这不是挑刺,是找了一种让AI输出"可落地"的新姿势。


为什么用测试框架审论文

AI生成内容有个特征:表面属性拉满。引用链完整、术语精准、逻辑局部自洽。但"读起来对"和"跑得通"是两件事。

人类写作也一样—— prose描述,实现检验。作者好奇的是:既然属性测试能揪出分布式系统的共识bug,能不能往上提一层,直接测试规格说明(specification)本身?

工具链很轻,血统很深。

Hegel(hegel.dev)是跨语言的属性测试框架,Rust绑定版hegeltest通过协议对接Hypothesis的后端——David R. MacIver的Python框架,再往上是John Hughes给Haskell写的QuickCheck。你写属性,Hegel生成随机输入,找到失败案例后自动"收缩"(shrink)到最小反例。

这派工具在软件工程最硬的领域蹲了二十年:Hypothesis验证Python标准库,AstraZeneca、Stripe、Mozilla生产在用;QuickCheck家族审过编译器、数据库、分布式系统;Jepsen用同一套随机对抗测试,从Postgres、Redis、MongoDB里挖出共识bug;TigerBeetle的确定性模拟测试也建在同一块地基上。

实验怎么做的:从声明到属性的翻译

作者拿的是一份AI合成的"第二大脑"论文,步骤很机械:

1. 逐句扫描,标记所有可证伪的声明
2. 每条声明编码为一个属性(property)
3. Hegel生成随机输入,批量验证
4. 失败的案例收缩到最小反例,定位问题

28条编码声明里,27条直接通过。唯一翻车的是一条全称量词表述:"重放总能提升回忆效果"(replay always improves recall)。

Hegel扔回一个最小收缩反例——某个特定输入序列下,重放反而干扰了提取。作者把声明降级为统计版本("在X条件下,重放以Y概率提升回忆"),重新编码后通过。

更有趣的是副产品:6个"结构要素"浮出水面。这些东西合成文本里没命名,不是因为AI错了,而是 prose天生不会把"实现一个能跑的版本需要哪些隐含条件"全摊开说。

比如"重放"这个操作,论文里当黑箱用。写成属性测试时,必须显式定义:重放的触发条件、间隔分布、与编码操作的互斥关系——这些才是代码能跑起来的真实依赖。


这方法到底在抓什么

属性测试的核心不是"找bug",是"定义正确性边界"。传统单元测试你手写输入输出,属性测试你写"对于所有满足P的输入,Q必须成立"——机器负责生成刁钻的P来打你脸。

用到AI输出上,它成了"语义压缩检测器":AI擅长生成在平均情况下合理的文本,但极端 case、边界条件、隐含前提——这些 prose的压缩盲区——会被随机生成器精准爆破。

作者强调这是"一次实验,一个产物",不打算推广成方法论。但线索很明显:

• 当AI输出涉及可执行规格(算法、架构、协议)时,属性测试能把"置信度"从"读起来顺"提升到"跑得过随机"
• 翻译过程本身暴露实现缺口——写属性比读 prose更能发现"这里其实没定义清楚"
• 收缩后的最小反例是极佳的反馈,比"这段好像有问题"精准得多

局限和未解的

实验没碰的领域:非形式化声明("用户体验更好"怎么编码?)、需要外部知识的引用验证(属性测试只能查内部一致性,不能爬数据库确认论文是否存在)、创造性/审美判断。

工具门槛也在:需要能把声明翻译成可执行属性的能力,这对非技术写作者是硬壁垒。

但方向有意思——当AI生成越来越像"对的东西",我们需要的新技能不是"更会读",而是"更会把它变成能跑的东西来验"。

给你的行动清单

如果你也在用AI辅助技术写作、方案设计或研究综述,可以抄这套最小可行流程:

1. 区分声明类型:把"X导致Y"这类因果/全称声明标出来,它们是测试靶子
2. 选一门有QuickCheck风格库的语言(Python用Hypothesis,Rust用proptest,JS用fast-check)
3. 从最小声明开始翻译:别一上来啃整篇,先挑一条"对于所有输入,输出满足P"试试
4. 关注收缩后的反例:它比原始失败案例更能告诉你"边界在哪里"
5. 记录"结构要素":测试过程中被迫显式化的前提条件,往往是 prose遗漏的关键设计决策

作者把实验产物和代码留在了可访问的位置——不是论文,是"一个可能对别人有用的方法"。这种姿态本身也值得记:在AI生成内容泛滥的当下,"可验证"正在成为一种新的质量信号,而掌握验证工具的人,会比只会阅读的人多一层过滤能力。

下次收到一份AI生成的架构方案,别只问"这读起来合理吗"——问问"哪条声明能写成属性测试,哪条会在随机输入下露馅"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
森林狼本不愿和尼克斯进行唐斯兰德尔互换 直到迪文琴佐加入进来

森林狼本不愿和尼克斯进行唐斯兰德尔互换 直到迪文琴佐加入进来

仰卧撑FTUer
2026-04-24 10:02:06
闹大了!霍汶希发声力挺张敬轩,遭内地网友抵制,谢霆锋恐被连累

闹大了!霍汶希发声力挺张敬轩,遭内地网友抵制,谢霆锋恐被连累

娱乐团长
2026-04-21 21:05:57
奋楫问天路,逐梦探苍穹

奋楫问天路,逐梦探苍穹

新华社
2026-04-23 21:33:31
当不成总统了?美国四大前总统已联手,打响扳倒特朗普的第一枪

当不成总统了?美国四大前总统已联手,打响扳倒特朗普的第一枪

生活魔术专家
2026-04-23 18:20:58
欧盟再添“刺头”,62岁亲俄前总统大胜,巴尔干再添一个“欧尔班”

欧盟再添“刺头”,62岁亲俄前总统大胜,巴尔干再添一个“欧尔班”

兰妮搞笑分享
2026-04-23 20:21:54
女歌手因抢不到“五一”高铁票取消演唱会:全额退款!主办方:她怕飞行过多

女歌手因抢不到“五一”高铁票取消演唱会:全额退款!主办方:她怕飞行过多

上观新闻
2026-04-24 10:48:08
“养肥了再杀”,公共充电桩集体涨价,每度电上涨0.2元

“养肥了再杀”,公共充电桩集体涨价,每度电上涨0.2元

音乐时光的娱乐
2026-04-23 17:21:56
美方希望中国不要见死不救:中方应该承诺大量购买美国大豆

美方希望中国不要见死不救:中方应该承诺大量购买美国大豆

离离言几许
2026-04-23 20:10:33
恩情还不完!员工病重想辞职 G胖当场拒批:带薪养病

恩情还不完!员工病重想辞职 G胖当场拒批:带薪养病

游民星空
2026-04-21 11:51:12
个人微信建600多个工作群 员工离职后拒绝交接 法院:立即停止使用涉案微信账号 公司向员工支付话费760元

个人微信建600多个工作群 员工离职后拒绝交接 法院:立即停止使用涉案微信账号 公司向员工支付话费760元

闪电新闻
2026-04-23 21:52:49
施压中方让步?日代表团强求访华,中国“4箭齐发”,抗议也无效

施压中方让步?日代表团强求访华,中国“4箭齐发”,抗议也无效

爱看剧的阿峰
2026-04-23 18:24:07
何润东亮相苏超后爆火!没收一分钱出场费,格局不是一般明星能比

何润东亮相苏超后爆火!没收一分钱出场费,格局不是一般明星能比

洲洲影视娱评
2026-04-22 16:13:43
李道豫逝世

李道豫逝世

澎湃新闻
2026-04-23 15:56:04
中国走得太及时!8500亿美债无人接盘,美国借新还旧玩砸了!

中国走得太及时!8500亿美债无人接盘,美国借新还旧玩砸了!

古史青云啊
2026-04-23 10:00:54
国际乒联发布百年乒乓纪录片,官方认证马龙为世界乒坛GOAT,王楚钦孙颖莎领衔亮相

国际乒联发布百年乒乓纪录片,官方认证马龙为世界乒坛GOAT,王楚钦孙颖莎领衔亮相

上观新闻
2026-04-24 06:53:39
太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

沙雕小琳琳
2026-04-23 02:29:16
西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

混沌录
2026-04-22 19:19:05
7轮战罢,山东泰山迎来一个超级大喜讯,今年中超争冠依旧有希望

7轮战罢,山东泰山迎来一个超级大喜讯,今年中超争冠依旧有希望

零度眼看球
2026-04-24 09:00:24
《妻子的浪漫旅行2026》花式考验老公团:马頔是“情商天花板”,孙杨就是“硬核单挑王”!

《妻子的浪漫旅行2026》花式考验老公团:马頔是“情商天花板”,孙杨就是“硬核单挑王”!

毒舌八卦
2026-04-23 22:34:07
曼联稳居第三!卡里克拒绝与索尔斯克亚类比,淡然看待转正前景

曼联稳居第三!卡里克拒绝与索尔斯克亚类比,淡然看待转正前景

夜白侃球
2026-04-24 11:09:26
2026-04-24 11:44:49
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
1713文章数 37关注度
往期回顾 全部

科技要闻

刚刚,DeepSeek-V4 预览版发布 百万上下文

头条要闻

美特种兵下重注赌"马杜罗将下台" 狂赚40万美元后被捕

头条要闻

美特种兵下重注赌"马杜罗将下台" 狂赚40万美元后被捕

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

王思聪被绿!恋爱期间女友被金主包养

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

全景iDrive 续航近800km 新款宝马7系/i7亮相

态度原创

时尚
亲子
艺术
教育
本地

今年最好看的3个颜色,太适合夏天了!

亲子要闻

书林一小丨培养孩子读书兴趣 文化自信扎根心中

艺术要闻

16幅 佐恩高清油画 | 瑞典著名画家

教育要闻

高校明确:将毕业生就业质量与中层单位绩效考核等挂钩

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

无障碍浏览 进入关怀版