网易首页 > 网易号 > 正文 申请入驻

AI实现边推理边自查,突破CoT瓶颈,准确率提高10%

0
分享至



最近刷到合肥工业大学的一项新研究,看完我直接坐直了他们居然让AI学会了"自己揪自己的错"。

你可能会说,AI纠错不是早就有了?但这次不一样,以前是咱们告诉AI哪错了,现在是AI自己在脑子里过一遍,就能知道"这步推理我心里没底"。



这就好比学生做题时突然停笔,"等等,这步好像算岔了",这种自我觉察能力,对AI来说可是个大突破。

咱们平时用ChatGPT解数学题、写代码,是不是偶尔会碰到这种情况,前面步骤都对,最后一步突然跑偏。



或者明明是简单的逻辑题,AI却给出个离谱答案?这其实是大语言模型的老毛病了推理稳定性太差。

就拿大家熟悉的"思维链"技术来说,本来是让AI像人一样一步步思考,结果有时候越想越歪,算个三位数加法都能把进位搞错。



有数据说,在数学推理题里,AI的错误率能飙到一半以上,而且最气人的是,它还特自信,错了也不知道回头。

为啥会这样?以前咱们总以为是AI"脑子不好使",合工大的研究团队却发现了盲点,这些模型有时候不是不知道答案,而是"嘴上说错了,心里门儿清"。



他们通过分析模型的内部数据,发现中间层有几个"注意力头"特别机灵,就像老师改作业时用的红笔,能悄悄给推理步骤打分。

可惜这些打分结果藏得太深,没被用到最终决策里。

如此看来,AI缺的不是解题能力,而是"自我检查"的意识。



那怎么让AI把"内心想法"用起来?合工大团队的思路挺巧妙,简单说就是给AI装了个"裁判系统"。

第一步是找到那些机灵的"注意力头",就像在一群学生里挑出最细心的几个当小组长。



测试了GPT-3.5、LLaMA这些主流模型,发现中间第12到16层的几个注意力头,对"2+2=4"和"2+2=5"的反应完全不一样,区分对错的准确率能到八成以上。

有意思的是,不管模型大小,这几个"裁判"都存在,看来AI的"大脑结构"里天生就带着纠错基因。

找到裁判还不够,得让们说话。



团队把这些注意力头的信号拼成一个特征向量,塞进一个小神经网络里训练,就有了"置信度预测器"。

本来想让这个预测器复杂点,后来发现没必要,三层简单网络就够用,计算量只多了2%,手机都能跑。

这个预测器最牛的地方是"不瞎吹",说自己有八成把握,实际正确率就差不离,误差能控制在3%以内。



对比以前AI"啥都敢说"的德性,现在终于知道"这题我可能不会"了。

有了裁判和预测器,最后一步就是让它们指挥推理。

团队设计了个双因素评分公式,既看AI生成答案的概率,也看内部置信度,权重大概四六开。



碰到置信度低于50%的步骤,直接咔嚓剪掉,就像导航绕开死胡同。

测试下来,推理效率快了四成,数学题的正确率平均提了5个点,多模态推理任务甚至创了新纪录。

更实在的是,金融机构已经拿这套技术去测试风险评估模型,据说错误率降了六成多,合规测试一次就过了。



这项研究最让我感慨的不是技术多复杂,而是它戳破了一个误区,咱们总想着让AI更聪明,却忘了先教它"承认错误"。

现在的AI就像刚进实验室的研究生,知识储备够了,但缺了点科研人该有的严谨。

合工大这套"自我纠错"机制,相当于给AI上了堂科研诚信课知道就是知道,不知道别硬撑。



而且AI学会纠错后,会不会变得"畏首畏尾",简单题也不敢下手?这些都是下一步要解决的问题。

但不管怎么说,让AI从"闭着眼狂奔"到"睁着眼走路",这步迈得挺关键。



说不定再过两年,咱们用AI写代码、做分析时,它会主动标红,"这里可能有逻辑漏洞,建议检查",到时候程序员们怕是要少掉不少头发了。

说到底,AI的进步从来不只是算法的胜利,更是对"智能本质"的重新理解。



以前我们总把推理当成"一路向前"的过程,合工大的研究却告诉我们,会回头看、会自我怀疑,可能比一直往前冲更重要。

这道理不光适用于AI,咱们做人做事,不也一样吗?



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4 种最佳抗衰老的运动,平均寿命延长5-10年

4 种最佳抗衰老的运动,平均寿命延长5-10年

增肌减脂
2026-04-07 21:15:04
中美GDP差距再次拉大!中国GDP跌到美国60%,到底是哪出问题了?

中美GDP差距再次拉大!中国GDP跌到美国60%,到底是哪出问题了?

混沌录
2026-04-05 16:44:05
伊朗民众组成人链保护发电厂和桥梁

伊朗民众组成人链保护发电厂和桥梁

界面新闻
2026-04-07 22:42:24
交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

复转这些年
2026-04-07 12:26:59
岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

天天热点见闻
2026-04-07 12:29:59
太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

小熊侃史
2026-04-07 07:20:08
伊朗称部署双联装导弹发射装置 “打击规模将翻倍”

伊朗称部署双联装导弹发射装置 “打击规模将翻倍”

财联社
2026-04-07 21:48:12
特朗普称若谈判出现进展,将考虑改变对伊朗打击行动

特朗普称若谈判出现进展,将考虑改变对伊朗打击行动

界面新闻
2026-04-07 23:26:45
一个也不该抛弃---不仅救自己大兵,也救中国渔民

一个也不该抛弃---不仅救自己大兵,也救中国渔民

通往远方的路
2026-04-07 15:54:35
因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

互联网大观
2026-04-07 15:43:15
俄已经有三支主要的反俄武装了  最大的一支有数万人

俄已经有三支主要的反俄武装了 最大的一支有数万人

律法刑道
2026-04-07 11:00:43
特朗普威胁伊朗:“整个文明将消亡”

特朗普威胁伊朗:“整个文明将消亡”

界面新闻
2026-04-07 20:22:23
突发!美以袭击 哈尔克岛 伊朗:克制已结束

突发!美以袭击 哈尔克岛 伊朗:克制已结束

每日经济新闻
2026-04-07 20:26:13
971万对1616万!幼儿园新生暴跌40%,2027年小学招生只剩50%——

971万对1616万!幼儿园新生暴跌40%,2027年小学招生只剩50%——

叶初七
2026-04-07 11:02:01
反诈老陈连续4年晒纳税证明:2025年收入42.3万元,较2022年133.6万元的总收入,其收入下降了超90万元

反诈老陈连续4年晒纳税证明:2025年收入42.3万元,较2022年133.6万元的总收入,其收入下降了超90万元

台州交通广播
2026-04-07 18:46:55
美国驻巴林使馆建议在巴美国人就地避难

美国驻巴林使馆建议在巴美国人就地避难

界面新闻
2026-04-07 23:22:45
郑丽文已到达南京,国民党一人口出狂言,不装了,赖清德正式发声

郑丽文已到达南京,国民党一人口出狂言,不装了,赖清德正式发声

DS北风
2026-04-07 18:38:24
39岁男子考研落榜后举报复试第一,考生候考时,该考生曾被工作人员叫离座位,返回后手中持有文件夹并翻阅,华东师大回应:调查小组正在调查

39岁男子考研落榜后举报复试第一,考生候考时,该考生曾被工作人员叫离座位,返回后手中持有文件夹并翻阅,华东师大回应:调查小组正在调查

观威海
2026-04-07 16:39:02
宋志勇,明确为正部长级

宋志勇,明确为正部长级

界面新闻
2026-04-07 20:19:05
明天早上8点!全世界都盯着,谁先眨眼谁输,美伊都被逼到墙角

明天早上8点!全世界都盯着,谁先眨眼谁输,美伊都被逼到墙角

谛听骨语本尊
2026-04-07 15:24:24
2026-04-07 23:35:00
甜美蜜桃派
甜美蜜桃派
甜美蜜桃派
504文章数 36关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

头条要闻

特朗普恐吓4小时摧毁伊朗 伊朗称"打穿"海法未见拦截

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

本地
手机
旅游
艺术
亲子

本地新闻

跟着歌声游安徽,听古村回响

手机要闻

苹果折叠iPhone遭遇工程挫折?

旅游要闻

春日限定持续上新,乘开往春天的列车赏春日胜景

艺术要闻

美丽风光看不尽

亲子要闻

科普|科学备孕,需要做好哪些孕前检查?

无障碍浏览 进入关怀版