网易首页 > 网易号 > 正文 申请入驻

AI产品经理做研究:每个大模型的幻觉将会被解决,准确率99%

0
分享至

就在今天,在科研圈Meta公布了一个全新的算法,通过几十行代码就实现了

在文献里,Meta团队提出的这个算法名字叫做 Deep Think with Confidence 简称为DeppConf

我们提出“置信深度思考”(DeepConf)——一种简洁而有效的测试时方法,它把并行思考与基于局部置信度的过滤相结合。DeepConf 同时支持离线模式和在线模式:既可以在生成过程中、也可以在生成完成后,识别并丢弃低置信度的推理轨迹。该方法在不降低、甚至提升最终答案准确率的同时,显著减少了不必要的 token 消耗。

当然现在这个算法的限制还是在参数娇小的模型里成功了,研究团队在8B~到120B的参数模型里,完成了99%的模型识别准确率。

在实验结果里,DEEPConf的准确率超过了其他的算法模型,并且也减少了相当多的资源浪费。

在可访问全部推理轨迹的离线模式下,DeepConf@512 在使用 GPT-OSS-120B(无工具)时,在 AIME 2025 上达到 99.9% 的准确率,彻底刷爆该基准;相比之下,cons@512(多数投票)为 97.0%,pass@1 仅为 91.8%。在具备实时生成控制的在线模式下,DeepConf 相比标准并行思考最多可减少 84.7% 的 token 消耗,同时保持或超越原有准确率。图 1 展示了我们的主要结果

并且这个算法支持在线与离线两种模式,离线模式需要更多的算力资源,而在线模式的效果就不如离线好。

从现在来看,要实现模型的识别率提升到99%,没有幻觉,就加上这以上几行代码就可用了

附录里给了 vLLM 修改不到 50 行的伪代码,简单直接,甚至直接pull mr即插即用。如下是附录代码内容

总的来说,将其性能可以提升,如果针对自己要节约训练时间的,可以用think confen算法来提升。

这种没有监督的自我监督学习方法,虽然就增加了算力要求,但是确实将幻觉降低到了1%。

今天的分享就到这里

文献地址:https://arxiv.org/pdf/2508.15260

“分享产品经理改变世界的点滴”

产品顾问| 产品咨询|培训合作

请添加微信 PMxiaowanzi

最近我的原创

每日案例拆解库,AI等产品打卡群

我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品

在这里你可以随时查询到你想找的各类竞品行业APP,无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。

平均1天1块钱,扫码购买即可加入

连续体验48款应用,通过后原路退回

报名后添加星球助理

PMTalk123

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰为何停止北约训练新兵?俄军“割头”验证身份是真是假?

乌克兰为何停止北约训练新兵?俄军“割头”验证身份是真是假?

史政先锋
2026-03-24 20:02:57
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
3月24日下午国乒消息:陈梦、樊振东、王楚钦最新动向曝光

3月24日下午国乒消息:陈梦、樊振东、王楚钦最新动向曝光

民哥台球解说
2026-03-25 11:08:24
台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

蜉蝣说
2026-03-25 10:51:45
伊朗最狠的一刀,不是捅向美国,而是捅向了自己最硬的那根骨头

伊朗最狠的一刀,不是捅向美国,而是捅向了自己最硬的那根骨头

忠于法纪
2026-01-29 09:21:39
央视《冬去春来》首波演员评分出炉:白宇6.8分垫底,章若楠排第3

央视《冬去春来》首波演员评分出炉:白宇6.8分垫底,章若楠排第3

不似少年游
2026-03-25 12:13:24
日企被踢出局,48小时过后,高市开始报复,东京要降级对华关系?

日企被踢出局,48小时过后,高市开始报复,东京要降级对华关系?

傲傲讲历史
2026-03-25 14:46:13
中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

有范又有料
2026-03-05 09:22:10
广东宣布:个人隐藏转移财产超2万致判决无法执行,一律入刑

广东宣布:个人隐藏转移财产超2万致判决无法执行,一律入刑

新浪财经
2026-03-25 12:39:51
内存涨疯了,中国DIY市场显卡暴跌59%!连电脑都配不起了?

内存涨疯了,中国DIY市场显卡暴跌59%!连电脑都配不起了?

科技专家
2026-03-25 13:08:45
陈赓踢开房门,怒扇张云逸耳光!张:你嚣张至极,是哪路鬼神啊!

陈赓踢开房门,怒扇张云逸耳光!张:你嚣张至极,是哪路鬼神啊!

浩渺青史
2026-03-25 12:43:07
张雪峰用死驳斥了张雪峰

张雪峰用死驳斥了张雪峰

数字力场
2026-03-25 10:01:20
国民党内上演围剿战,架空逼宫党主席,郑丽文访陆可能要黄

国民党内上演围剿战,架空逼宫党主席,郑丽文访陆可能要黄

涵豆说娱
2026-03-25 11:00:23
真实承诺4,80轮了!伊朗导弹夜袭以色列,以色列快递又要到了?

真实承诺4,80轮了!伊朗导弹夜袭以色列,以色列快递又要到了?

荷兰豆爱健康
2026-03-25 15:41:06
尾盘猛拉!601606,直线涨停!军工股大爆发

尾盘猛拉!601606,直线涨停!军工股大爆发

证券时报e公司
2026-03-25 16:55:50
中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

蜉蝣说
2026-03-24 10:00:57
南通队的天塌了!谁让你那么不冷静?

南通队的天塌了!谁让你那么不冷静?

生活新鲜市
2026-03-25 11:32:39
网友咖啡店偶遇甜馨嗯哼!青梅竹马同框太养眼,氛围感拉满

网友咖啡店偶遇甜馨嗯哼!青梅竹马同框太养眼,氛围感拉满

大鱼娱乐观
2026-03-24 23:40:09
网传互联网疯狂裁员,计算机死了…

网传互联网疯狂裁员,计算机死了…

慧翔百科
2026-03-24 12:18:17
步滨电影目前在日本的状况是这样!

步滨电影目前在日本的状况是这样!

孤独的独角兽影视
2026-03-25 09:25:11
2026-03-25 17:19:00
Kevin改变世界的点滴 incentive-icons
Kevin改变世界的点滴
每周一次,产品案例与经验分享
274文章数 20关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

女子为病重父亲找到失联34年挚友:两人加起来132岁

头条要闻

女子为病重父亲找到失联34年挚友:两人加起来132岁

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

数码
家居
艺术
公开课
军事航空

数码要闻

太太太贵了!AYANEO NEXT 2不卖了:唯二的AMD锐龙AI Max+ 395掌机

家居要闻

轻奢堇天府 小资情调

艺术要闻

《百花谱》,这个春天画花不用愁!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版