网易首页 > 网易号 > 正文 申请入驻

他花3个月治大模型幻觉,发现提示工程是条死路

0
分享至


2023年,SingularityNET团队在Minecraft里放了个叫AIRIS的认知代理。不是玩方块——是它学东西的方式:每一步操作都看得见、追得回。一个开发者读完论文,脑子里蹦出个问题:文字世界能不能复制这套?让AI跟用户一来一往地学,每句话都有据可查?

他试了。失败了。好几次。

第一次尝试堪称洁癖晚期。零外部库、零隐式行为、零随机性,所有组件必须完全确定、完全透明。听起来很原则,实际是条死胡同。任何内部不透明的库都不能用,意味着基础设施得从零手搓。项目变得又慢又脆,维护成本爆炸。概念 purity 正在杀死产品本身。

他退了一步,换了个问法:问题不是外部代码,而是什么样的外部代码。

依赖重新放开,但只准用确定性的、无隐式智能的、行为可预测的。这是第一个真正的转折点。

但项目仍在错误的方向膨胀。组件太多、职责不清、代码碎片化,每次提交都让系统更难理解。某天他猛然意识到:自己在造错的东西。Kremis(他给系统起的名)不该负责生成答案——LLM 已经够擅长这个了。真正的问题是验证。

架构就此翻转。Kremis 变成 sidecar(边车架构):不生产响应,只验证响应。它坐在 LLM 旁边,检查模型说的话是否锚定在真实数据里。两边严格分离——一边是概率推理,一边是确定性逻辑。

从"造答案"到"验答案":一个产品经理的顿悟

这个重构让一切豁然开朗。

Kremis 是用 Rust 写的图存储。喂给它结构化数据——实体、属性、值的三元组——它构建确定性图。查询时返回图里有的东西,不发明、不推断。


核心引擎没有随机数、没有浮点运算、没有预加载知识。相同输入,相同输出,每次如此。这个约束让后续一切变得可信。

假设 Kremis 在本地运行。你灌入一些事实:

curl -X POST http://localhost:8080/signals \ -H "Content-Type: application/json" \ -d '{ "signals": [ {"entity_id": 1, "attribute": "name", "value": "Alice"}, {"entity_id": 1, "attribute": "role", "value": "engineer"}, {"entity_id": 1, "attribute": "works_on", "value": "Kremis"} ] }'

图里现在有三条边。你问"Alice 做什么的?",Kremis 返回"engineer"。不问"Alice 喜欢什么?"——图里没这条边,它不会编。

这听起来像数据库?差远了。传统数据库查的是存储,Kremis 做的是验证:LLM 生成一句话,Kremis 检查这句话能否从图里推导出来。能,放行;不能,打回。

为什么确定性比"更聪明的模型"更重要

开发者圈子里有个幻觉:下一代模型会更强,幻觉会自己消失。这位作者不买账。他的理由很产品经理:用户要的不是"通常对",是"这次对"。

概率系统的本质是赌。GPT-4 在简单事实问答上的准确率约 70-90%,听起来不错?错了。10-30% 的错误率放在生产环境是灾难。医疗、法律、金融场景里,一次胡说八道就够赔光信任。

Kremis 的解法是把知识层从概率层剥离。LLM 负责语言流畅、意图理解、对话管理——这些它确实擅长。但任何声称的事实,必须过 Kremis 的图验证。验证通过,才呈现给用户;不通过,要么拒绝回答,要么明确标注"这部分我不确定"。

这种架构有个副作用:可审计。每次回答都能追溯到图里的具体边。用户问"为什么你说 Alice 是工程师?",系统可以展示:entity_id 1 → attribute "role" → value "engineer",来源是某次 POST 请求。不是黑箱解释,是白箱举证。


作者打了个比方:LLM 像创意总监,点子多、口才好,但偶尔瞎编;Kremis 像法务,每个声明都要过审,没证据的不让往外说。两人搭档,比让创意总监同时干法务靠谱得多。

Rust 不是炫技,是工程约束的必然选择

用 Rust 写图引擎,在 Python 主导的 AI 圈显得格格不入。作者解释过选型逻辑:确定性需要严格的内存安全和无副作用保证,Rust 的所有权模型正好对上。垃圾回收语言有不可预测的停顿,C/C++ 的内存问题会引入难以复现的 bug——这些在验证层都是不可接受的。

更实际的是性能。图查询需要遍历大量边,Rust 的零成本抽象让核心引擎保持紧凑。作者提到早期原型用 Python,验证延迟在百毫秒级;Rust 版本降到个位数毫秒,足够塞进实时对话流。

但技术选型只是表象。深层问题是:当 AI 从 demo 走向产品,什么品质最值得投资?作者的答案是可预测性。用户能接受"我不知道",不能接受"我瞎编的但说得很有把握"。Kremis 的确定性架构,本质是把"我不知道"的权利还给系统。

这和他早期的洁癖尝试不同。那次是排斥一切外部依赖,这次是精心选择依赖——只选那些行为可证明、版本可锁定的。比如用 serde 做序列化,用 tokio 做异步运行时,都是社区成熟、接口稳定的库。随机性被驱逐到系统边缘,核心保持铁律。

项目开源后,有个反馈让作者意外。有用户把 Kremis 接进客服系统,发现最值钱的不是"拦截幻觉",是"暴露知识缺口"。图查询返回空,说明组织内部某块知识没数字化——这比 LLM 胡说八道更早暴露问题。

另一个场景是合规。金融客户需要证明"这个投资建议基于哪些数据",传统 LLM 的注意力权重无法解释,Kremis 的图遍历可以出具审计日志。监管问话时,这是生与死的区别。

作者没宣称解决幻觉。他的原话更克制:Kremis 把幻觉从"系统 bug"变成"可检测事件"。LLM 仍然可能生成图里没有的信息,但系统现在有能力识别、标记、拦截。这是防御性架构,不是根治方案。

至于根治方案是否存在,他持怀疑态度。概率推理和符号验证的杂交,可能是未来几年的主流路线。纯符号 AI 已死,纯概率 AI 不可信,中间地带正在长出新产品形态。

Kremis 的 GitHub 仓库现在有 1.2k star,不算爆款,但评论区活跃着一群奇怪的人:做医疗 AI 的、搞法律科技的、区块链预言机项目的。他们共享同一个痛点——需要 LLM 的灵活性,又承受不起它的任性。

作者最近一条更新是:正在把图查询语言从自定义 DSL 换成 SPARQL 子集,方便对接现有知识图谱。没有宏大叙事,只有具体迭代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对阵喀麦隆,6名参加U23亚洲杯的U23国脚代表国足首发

对阵喀麦隆,6名参加U23亚洲杯的U23国脚代表国足首发

懂球帝
2026-03-31 13:23:46
深圳一主干道突发路面下沉,当晚引发大堵车,最新进展

深圳一主干道突发路面下沉,当晚引发大堵车,最新进展

南方都市报
2026-03-30 20:08:05
断崖式下跌!专家:将持续降价!

断崖式下跌!专家:将持续降价!

珠海发布
2026-03-30 22:12:10
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
德转列国足vs喀麦隆数据:喀麦隆身价1.974亿欧,为国足16倍

德转列国足vs喀麦隆数据:喀麦隆身价1.974亿欧,为国足16倍

懂球帝
2026-03-31 09:41:13
武汉警方通报一起持刀伤人案:嫌疑人已被控制,4名伤者已全部送医救治

武汉警方通报一起持刀伤人案:嫌疑人已被控制,4名伤者已全部送医救治

环球网资讯
2026-03-31 11:58:09
香港演员郑雷去世,曾饰演陈真对手佐藤霸川·金庸剧裘千仞木高峰

香港演员郑雷去世,曾饰演陈真对手佐藤霸川·金庸剧裘千仞木高峰

情感大头说说
2026-03-30 11:46:34
这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

阿废冷眼观察所
2026-03-30 11:58:46
稳了,西部第十,勇士来了

稳了,西部第十,勇士来了

体育新角度
2026-03-31 14:30:56
初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

初中生靠迷你小屏看完百万字小说,妈妈又气又笑:这用学习上多好

捣蛋窝
2026-03-30 21:09:36
退休党员注意!党费就按这个标准,别乱交、别多交

退休党员注意!党费就按这个标准,别乱交、别多交

娱乐的硬糖吖
2026-03-29 18:01:00
动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

魔法污A
2026-03-30 11:35:33
上海28岁天才股神直言:炒股多年来只做两种股票,挣得怀疑人生!

上海28岁天才股神直言:炒股多年来只做两种股票,挣得怀疑人生!

股经纵横谈
2026-03-29 22:00:50
向李荣浩道歉不到24小时,单依纯再迎3大噩耗,个个戳她心窝

向李荣浩道歉不到24小时,单依纯再迎3大噩耗,个个戳她心窝

叨唠
2026-03-31 01:14:13
爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

爱泼斯坦与朋友打趣,若霍金与未成年女孩发生性关系,他应获诺奖

流史岁月
2026-02-28 10:00:49
对心脏最好的肉,不是牛肉也不是猪肉,常吃血管干净,心跳稳

对心脏最好的肉,不是牛肉也不是猪肉,常吃血管干净,心跳稳

王晓爱体彩
2026-03-31 13:58:08
CCTV5直播国足vs喀麦隆:身价1248万PK1.97亿 邵佳一练反击战

CCTV5直播国足vs喀麦隆:身价1248万PK1.97亿 邵佳一练反击战

智道足球
2026-03-31 07:42:22
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
存款搬家并未发生,中国银行高管:大部分到期定期存款仍然留存,重定价利好息差水平

存款搬家并未发生,中国银行高管:大部分到期定期存款仍然留存,重定价利好息差水平

财联社
2026-03-30 19:20:05
等不到日本道歉,中方推第3波制裁,日大使喊对话,毛宁斩钉截铁

等不到日本道歉,中方推第3波制裁,日大使喊对话,毛宁斩钉截铁

古史青云啊
2026-03-31 12:10:03
2026-03-31 15:16:49
硅屿手记
硅屿手记
有态度网友ytd
1071文章数 2关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

手机
时尚
本地
房产
公开课

手机要闻

四曲面屏重出江湖!iPhone 20将搭载1.1毫米极窄边框

妈妈们的人生,不该只有一个选项

本地新闻

用Color Walk的方式解锁城市春日

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版