网易首页 > 网易号 > 正文 申请入驻

腾讯AI实验室:AI智能体学会"反思",推理能力比人类更胜一筹

0
分享至


如果让AI完成一项复杂的研究任务,比如找到某个学者在2019年发表的最早论文,它会怎么做?大多数时候,AI会像一个急躁的学生,匆匆忙忙搜索一番,找到一些看起来相关的信息就匆忙下结论,结果往往是错的。但现在,腾讯AI实验室联合香港中文大学、新加坡管理大学和中国人民大学的研究团队,开发出了一套全新的AI系统——DeepVerifier。这项研究于2026年1月发表在arXiv预印本平台,编号为arXiv:2601.15808v1。

这个系统最神奇的地方在于,它教会了AI一项人类引以为傲的能力——反思和自我纠错。就像一个细心的学者,AI现在会在给出答案后停下来想一想:"我刚才的推理过程对吗?信息来源可靠吗?有没有遗漏什么重要线索?"如果发现问题,它会重新思考,修正错误,直到得出正确答案。

更有趣的是,研究团队发现了一个关键现象:检查答案往往比生成答案要容易得多。这就像考试时,你可能不会做一道题,但如果有人给你几个答案选项,你往往能判断出哪个是对的。AI也是如此——与其让它从头开始解决复杂问题,不如让它专门负责检查和验证答案的正确性。

研究团队首先分析了近3000个AI执行任务的完整过程,发现AI犯错的原因主要集中在五大类问题上。最常见的是"找错了信息源"——就像写论文时引用了不靠谱的网站,或者搜索时用了太宽泛的关键词。其次是"推理出现偏差"——即使找到了正确信息,AI也可能过早下结论或者误解数据含义。第三类是"任务理解错误"——AI没有完全理解题目要求,方向跑偏了。第四类是"操作失误"——比如点击了错误的链接或者用错了工具。最后一类是"超时放弃"——任务太复杂,AI在规定步骤内完成不了就放弃了。

基于这些发现,DeepVerifier采用了一种巧妙的三步走策略。首先,它会把AI执行任务的整个过程简化成一份"执行报告"——因为AI的完整执行过程往往包含数百万个字符,远超任何模型能处理的范围。这份报告就像电影的剧情梗概,保留所有关键信息,去掉冗余细节。

接下来,系统会像一个经验丰富的审计师,仔细检查这份报告,寻找可能存在问题的地方。它会问一些尖锐的问题:"这个信息来源真的支持你的结论吗?你是不是过于依赖二手资料了?你的搜索关键词是否太宽泛?"然后,它会针对这些疑点设计几个简单的验证问题。

最后,系统会派出另一个AI助手专门去回答这些验证问题。这个助手的任务很简单,只需要回答类似"网站X是否确实提到了Y这个信息?"这样的是非题。通过这种方式,复杂的验证任务被拆解成了许多简单的小任务,每个都很容易完成且不容易出错。

这种方法的效果令人印象深刻。在GAIA基准测试中(这是一个专门测试AI研究能力的权威评测),使用了DeepVerifier的AI系统准确率提升了8%到11%。更重要的是,这种提升是通过"反复思考"实现的——系统会尝试多轮验证和修正,每一轮都让答案变得更加准确。

研究团队还发现了一个有趣的现象:AI的思考轮次越多,准确率提升越明显,但这种提升通常在第4轮左右达到峰值。这就像人类思考问题一样——适度的反思能提高决策质量,但过度纠结反而可能降低效率。

为了让更多研究者受益,团队还创建了一个包含4646个高质量训练样本的数据集DeepVerifier-4K。用这个数据集训练的开源AI模型在反思能力上有了显著提升,证明了这种"教AI学会反思"的方法确实有效。

这项研究的意义远不止于提高AI的准确率。它代表了AI发展的一个重要方向转变——从单纯追求更大的模型和更多的数据,转向让AI拥有更像人类的思维品质。当AI学会了质疑、验证和反思,它就不再是一个只会按程序执行的机器,而是一个能够自我改进的智能系统。

这种能力在现实应用中意义重大。当AI协助医生诊断疾病时,它会反复检查症状和检查结果是否匹配;当AI帮助律师分析案例时,它会仔细核实每一个法条引用是否准确;当AI为科学家整理文献时,它会确保每一个引用都追溯到了可靠来源。

说到底,这项研究让我们看到了AI向真正智能迈进的关键一步。它不再是一个会犯错但不自知的系统,而是一个能够自我监督、自我纠错的智能助手。当然,这个"反思"过程目前还需要额外的计算资源和时间,但随着技术的进步,我们有理由期待更智能、更可靠的AI助手走进我们的日常生活。对于想要深入了解技术细节的读者,可以通过编号arXiv:2601.15808v1在arXiv平台查询完整论文。

Q&A

Q1:DeepVerifier是什么,它与普通AI有什么区别?

A:DeepVerifier是腾讯AI实验室开发的一套AI验证系统,最大区别是它教会了AI"反思"能力。普通AI完成任务后就直接给出答案,而使用DeepVerifier的AI会像人类一样停下来检查自己的推理过程,发现错误就重新思考和修正,直到得出正确答案。

Q2:为什么说检查答案比生成答案更容易?

A:这就像考试时的选择题和问答题的区别。让你从头写出一个复杂问题的答案很难,但给你几个选项让你判断哪个对错就相对简单。AI也是如此,与其让它直接解决复杂任务,不如让它专门负责验证现有答案的正确性,成功率会高很多。

Q3:DeepVerifier在实际应用中效果如何?

A:在权威的GAIA基准测试中,使用DeepVerifier的AI系统准确率提升了8%到11%。更重要的是,通过多轮反思验证,AI的表现会持续改善,通常在第4轮思考时达到最佳效果。这证明了"让AI学会反思"这个方法确实有效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
雷军真把Model 3拉下神坛了!小米SU7销量首超特斯拉Model 3

雷军真把Model 3拉下神坛了!小米SU7销量首超特斯拉Model 3

智能车参考
2026-01-27 17:20:41
结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

琨玉秋霜
2026-01-27 14:10:08
医生发现:天冷坚持戴帽子的人,用不了多久,身体或迎来5大变化

医生发现:天冷坚持戴帽子的人,用不了多久,身体或迎来5大变化

健康之光
2026-01-27 12:00:07
正式揭牌!长沙新增一家研究院!

正式揭牌!长沙新增一家研究院!

悦长沙
2026-01-27 16:38:01
李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

复转这些年
2026-01-21 23:19:37
24岁女子因胸太大而苦恼,坚持缩胸手术,网友:可惜了

24岁女子因胸太大而苦恼,坚持缩胸手术,网友:可惜了

白宸侃片
2026-01-26 12:42:45
古代上京的考生盘缠丰厚,为何土匪不抢?土匪:你不看腰上绑的啥

古代上京的考生盘缠丰厚,为何土匪不抢?土匪:你不看腰上绑的啥

小豫讲故事
2025-12-08 06:00:07
李赛凤趁丈夫出差,和体格壮硕的干儿子发生了亲密接触

李赛凤趁丈夫出差,和体格壮硕的干儿子发生了亲密接触

西楼知趣杂谈
2026-01-20 17:11:19
马上就要来中国,斯塔默前所未有的强硬,要特朗普立马向英国道歉

马上就要来中国,斯塔默前所未有的强硬,要特朗普立马向英国道歉

阿七说史
2026-01-26 14:09:49
有气质的女人,一定是知道怎么通过穿衣打扮来展现出自己的魅力

有气质的女人,一定是知道怎么通过穿衣打扮来展现出自己的魅力

美女穿搭分享
2026-01-27 12:49:35
利益链?陈小群?朋友圈最新回应

利益链?陈小群?朋友圈最新回应

金石随笔
2026-01-28 00:11:48
不管你信不信,男性过了61岁后,基本都有这7个现状,要坦然接受

不管你信不信,男性过了61岁后,基本都有这7个现状,要坦然接受

健康之光
2026-01-11 12:40:02
为培养儿子踢进国足,他贱卖上海8套房,如今兄弟俩都给他长脸

为培养儿子踢进国足,他贱卖上海8套房,如今兄弟俩都给他长脸

一娱三分地
2026-01-24 16:14:55
日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

球盲百小易
2026-01-27 02:41:11
法足协主席:再次重申,法国绝不会因反对特朗普而抵制世界杯

法足协主席:再次重申,法国绝不会因反对特朗普而抵制世界杯

懂球帝
2026-01-27 11:55:13
呆呆妹又要闯祸了!开直播亲自写10000份春联,被网友提醒别贪心

呆呆妹又要闯祸了!开直播亲自写10000份春联,被网友提醒别贪心

有范又有料
2026-01-27 17:57:53
沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

娱乐圈的笔娱君
2026-01-27 10:12:25
公募抱团有色金属,重点增持紫金矿业、云铝股份、中矿资源

公募抱团有色金属,重点增持紫金矿业、云铝股份、中矿资源

财富情报局
2026-01-27 17:52:02
2026-01-28 01:00:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1413文章数 157关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

手机
数码
游戏
公开课
军事航空

手机要闻

小米17 Max再次曝光:2亿主摄+联名影像,排期Q2季度!

数码要闻

这事你怎么看 索尼与TCL签署意向备忘录 网友:Sony变Tony了

被女队友踢出战队,只因为男队员太想赢了?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版