网易首页 > 网易号 > 正文 申请入驻

AI实现边推理边自查,突破CoT瓶颈,准确率提高10%

0
分享至



最近刷到合肥工业大学的一项新研究,看完我直接坐直了他们居然让AI学会了"自己揪自己的错"。

你可能会说,AI纠错不是早就有了?但这次不一样,以前是咱们告诉AI哪错了,现在是AI自己在脑子里过一遍,就能知道"这步推理我心里没底"。



这就好比学生做题时突然停笔,"等等,这步好像算岔了",这种自我觉察能力,对AI来说可是个大突破。

咱们平时用ChatGPT解数学题、写代码,是不是偶尔会碰到这种情况,前面步骤都对,最后一步突然跑偏。



或者明明是简单的逻辑题,AI却给出个离谱答案?这其实是大语言模型的老毛病了推理稳定性太差。

就拿大家熟悉的"思维链"技术来说,本来是让AI像人一样一步步思考,结果有时候越想越歪,算个三位数加法都能把进位搞错。



有数据说,在数学推理题里,AI的错误率能飙到一半以上,而且最气人的是,它还特自信,错了也不知道回头。

为啥会这样?以前咱们总以为是AI"脑子不好使",合工大的研究团队却发现了盲点,这些模型有时候不是不知道答案,而是"嘴上说错了,心里门儿清"。



他们通过分析模型的内部数据,发现中间层有几个"注意力头"特别机灵,就像老师改作业时用的红笔,能悄悄给推理步骤打分。

可惜这些打分结果藏得太深,没被用到最终决策里。

如此看来,AI缺的不是解题能力,而是"自我检查"的意识。



那怎么让AI把"内心想法"用起来?合工大团队的思路挺巧妙,简单说就是给AI装了个"裁判系统"。

第一步是找到那些机灵的"注意力头",就像在一群学生里挑出最细心的几个当小组长。



测试了GPT-3.5、LLaMA这些主流模型,发现中间第12到16层的几个注意力头,对"2+2=4"和"2+2=5"的反应完全不一样,区分对错的准确率能到八成以上。

有意思的是,不管模型大小,这几个"裁判"都存在,看来AI的"大脑结构"里天生就带着纠错基因。

找到裁判还不够,得让们说话。



团队把这些注意力头的信号拼成一个特征向量,塞进一个小神经网络里训练,就有了"置信度预测器"。

本来想让这个预测器复杂点,后来发现没必要,三层简单网络就够用,计算量只多了2%,手机都能跑。

这个预测器最牛的地方是"不瞎吹",说自己有八成把握,实际正确率就差不离,误差能控制在3%以内。



对比以前AI"啥都敢说"的德性,现在终于知道"这题我可能不会"了。

有了裁判和预测器,最后一步就是让它们指挥推理。

团队设计了个双因素评分公式,既看AI生成答案的概率,也看内部置信度,权重大概四六开。



碰到置信度低于50%的步骤,直接咔嚓剪掉,就像导航绕开死胡同。

测试下来,推理效率快了四成,数学题的正确率平均提了5个点,多模态推理任务甚至创了新纪录。

更实在的是,金融机构已经拿这套技术去测试风险评估模型,据说错误率降了六成多,合规测试一次就过了。



这项研究最让我感慨的不是技术多复杂,而是它戳破了一个误区,咱们总想着让AI更聪明,却忘了先教它"承认错误"。

现在的AI就像刚进实验室的研究生,知识储备够了,但缺了点科研人该有的严谨。

合工大这套"自我纠错"机制,相当于给AI上了堂科研诚信课知道就是知道,不知道别硬撑。



而且AI学会纠错后,会不会变得"畏首畏尾",简单题也不敢下手?这些都是下一步要解决的问题。

但不管怎么说,让AI从"闭着眼狂奔"到"睁着眼走路",这步迈得挺关键。



说不定再过两年,咱们用AI写代码、做分析时,它会主动标红,"这里可能有逻辑漏洞,建议检查",到时候程序员们怕是要少掉不少头发了。

说到底,AI的进步从来不只是算法的胜利,更是对"智能本质"的重新理解。



以前我们总把推理当成"一路向前"的过程,合工大的研究却告诉我们,会回头看、会自我怀疑,可能比一直往前冲更重要。

这道理不光适用于AI,咱们做人做事,不也一样吗?



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
颜值飙升,徐杰女友上任,亮相新岗位,年薪6位数,徐杰支持

颜值飙升,徐杰女友上任,亮相新岗位,年薪6位数,徐杰支持

乐聊球
2026-01-13 09:33:15
湖南灿灿复制呆呆杀猪饭,直播小号被封,网友:满眼都是嘉年华

湖南灿灿复制呆呆杀猪饭,直播小号被封,网友:满眼都是嘉年华

鋭娱之乐
2026-01-14 09:25:24
合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

好贤观史记
2026-01-14 09:54:48
郑州市人民政府关于毛新辉等21人职务任免的通知

郑州市人民政府关于毛新辉等21人职务任免的通知

大象新闻
2026-01-13 19:41:04
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
上海警方破获特大案件,跨省抓获77人!有人每月从被害人处牟利上万元

上海警方破获特大案件,跨省抓获77人!有人每月从被害人处牟利上万元

新民晚报
2026-01-13 20:54:10
史上第一富!4.7万亿!马斯克个人财富打破人类纪录

史上第一富!4.7万亿!马斯克个人财富打破人类纪录

牛牛叨史
2025-12-22 22:53:16
隆戈丨菲尔克鲁格脚趾并非骨折而是骨裂

隆戈丨菲尔克鲁格脚趾并非骨折而是骨裂

米兰圈
2026-01-14 08:39:17
奥运冠军张家齐宣布退役后直播带货,被批“忘本”“急着捞金”,本人回应:接受大家批评,但我也要生活

奥运冠军张家齐宣布退役后直播带货,被批“忘本”“急着捞金”,本人回应:接受大家批评,但我也要生活

都市快报橙柿互动
2026-01-12 13:51:02
王石田朴珺婚变风波发酵,女方整容前旧照被挖,曾为王石跪姿服务

王石田朴珺婚变风波发酵,女方整容前旧照被挖,曾为王石跪姿服务

可乐谈情感
2026-01-14 10:03:47
柬埔寨街头“狗笼运活人”视频疯传,警方:与人口贩运无关

柬埔寨街头“狗笼运活人”视频疯传,警方:与人口贩运无关

红星新闻
2026-01-13 13:34:29
1980年陈云发现25年前李克农的报告,下定决心:立即复查潘汉年案

1980年陈云发现25年前李克农的报告,下定决心:立即复查潘汉年案

浩舞默画
2026-01-14 09:47:42
新鹏城?董路:邝兆镭在西班牙拿不到参赛证,将加盟中超球队一年

新鹏城?董路:邝兆镭在西班牙拿不到参赛证,将加盟中超球队一年

兰亭墨未干
2026-01-14 09:52:03
阿隆索下课原因曝光:拒绝老佛爷用人决定+超级杯丢冠

阿隆索下课原因曝光:拒绝老佛爷用人决定+超级杯丢冠

爱奇艺体育
2026-01-13 11:16:33
戴旭发言不寒而栗!

戴旭发言不寒而栗!

安安说
2026-01-10 10:51:32
“失踪”8年!孔令辉未参加国乒教练竞聘,张继科透露孔令辉人品

“失踪”8年!孔令辉未参加国乒教练竞聘,张继科透露孔令辉人品

观察者海风
2026-01-13 23:54:54
成为曼联主帅,带曼联重新崛起已经成为足坛最有挑战性的工作

成为曼联主帅,带曼联重新崛起已经成为足坛最有挑战性的工作

红魔鹏哥
2026-01-14 09:26:57
“死了么”用户数翻800倍,估值近1亿,已接触60多个投资方 创始人回应抄袭质疑:创意来源网友,不属于任何人

“死了么”用户数翻800倍,估值近1亿,已接触60多个投资方 创始人回应抄袭质疑:创意来源网友,不属于任何人

大风新闻
2026-01-14 09:55:24
2020年,央视成蕾像往常一样接受采访,因说错一句话曝光间谍身份

2020年,央视成蕾像往常一样接受采访,因说错一句话曝光间谍身份

猫眼观史
2024-08-31 15:28:17
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

小莜读史
2025-12-08 20:29:11
2026-01-14 10:48:49
甜美蜜桃派
甜美蜜桃派
甜美蜜桃派
193文章数 16关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

艺术
本地
亲子
房产
公开课

艺术要闻

八大山人『山水花鸟册』

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

亲子要闻

农村的孩子早当家,5岁宝宝给全家做饭,看他做得怎么样

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版