网易首页 > 网易号 > 正文 申请入驻

AI产品经理做研究:每个大模型的幻觉将会被解决,准确率99%

0
分享至

就在今天,在科研圈Meta公布了一个全新的算法,通过几十行代码就实现了

在文献里,Meta团队提出的这个算法名字叫做 Deep Think with Confidence 简称为DeppConf

我们提出“置信深度思考”(DeepConf)——一种简洁而有效的测试时方法,它把并行思考与基于局部置信度的过滤相结合。DeepConf 同时支持离线模式和在线模式:既可以在生成过程中、也可以在生成完成后,识别并丢弃低置信度的推理轨迹。该方法在不降低、甚至提升最终答案准确率的同时,显著减少了不必要的 token 消耗。

当然现在这个算法的限制还是在参数娇小的模型里成功了,研究团队在8B~到120B的参数模型里,完成了99%的模型识别准确率。

在实验结果里,DEEPConf的准确率超过了其他的算法模型,并且也减少了相当多的资源浪费。

在可访问全部推理轨迹的离线模式下,DeepConf@512 在使用 GPT-OSS-120B(无工具)时,在 AIME 2025 上达到 99.9% 的准确率,彻底刷爆该基准;相比之下,cons@512(多数投票)为 97.0%,pass@1 仅为 91.8%。在具备实时生成控制的在线模式下,DeepConf 相比标准并行思考最多可减少 84.7% 的 token 消耗,同时保持或超越原有准确率。图 1 展示了我们的主要结果

并且这个算法支持在线与离线两种模式,离线模式需要更多的算力资源,而在线模式的效果就不如离线好。




从现在来看,要实现模型的识别率提升到99%,没有幻觉,就加上这以上几行代码就可用了

附录里给了 vLLM 修改不到 50 行的伪代码,简单直接,甚至直接pull mr即插即用。如下是附录代码内容



总的来说,将其性能可以提升,如果针对自己要节约训练时间的,可以用think confen算法来提升。

这种没有监督的自我监督学习方法,虽然就增加了算力要求,但是确实将幻觉降低到了1%。

今天的分享就到这里

文献地址:https://arxiv.org/pdf/2508.15260

“分享产品经理改变世界的点滴”

产品顾问| 产品咨询|培训合作

请添加微信 PMxiaowanzi

最近我的原创

每日案例拆解库,AI等产品打卡群

我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品

在这里你可以随时查询到你想找的各类竞品行业APP,无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。

平均1天1块钱,扫码购买即可加入

连续体验48款应用,通过后原路退回


报名后添加星球助理

PMTalk123

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
家家有本难念的经,戚薇自曝生二胎后真实处境,给所有父母提个醒

家家有本难念的经,戚薇自曝生二胎后真实处境,给所有父母提个醒

一娱三分地
2025-09-16 18:34:24
“凌晨,全青岛的人都被惊雷吓醒,没开玩笑”,今天,大雨到暴雨+局部大暴雨+雷电+短时强降水+9级阵风

“凌晨,全青岛的人都被惊雷吓醒,没开玩笑”,今天,大雨到暴雨+局部大暴雨+雷电+短时强降水+9级阵风

鲁中晨报
2025-09-16 11:39:07
以军被曝在加沙开展杀人游戏 疑似视频曝光!

以军被曝在加沙开展杀人游戏 疑似视频曝光!

看看新闻Knews
2025-09-14 18:08:09
被指封建迷信,易烊千玺方发声

被指封建迷信,易烊千玺方发声

南方都市报
2025-09-16 15:04:06
随着申花1-2被逆转,武里南联2-1,首尔1-1,亚冠最新积分榜出炉

随着申花1-2被逆转,武里南联2-1,首尔1-1,亚冠最新积分榜出炉

球场没跑道
2025-09-16 22:18:57
腾讯拟发债300亿美元 大股东Prosus持股降至23%

腾讯拟发债300亿美元 大股东Prosus持股降至23%

雷递
2025-09-16 17:49:39
特朗普翻红?佛州支持率超过一半,靠的不是石油、减税,而是环保

特朗普翻红?佛州支持率超过一半,靠的不是石油、减税,而是环保

日落于西西
2025-09-16 22:08:22
零跑汽车前总裁独立造车!

零跑汽车前总裁独立造车!

电动知家
2025-09-16 20:18:15
愿掏1.4亿,一个愿打一个愿挨!休赛期最大闹剧,库里成牺牲品

愿掏1.4亿,一个愿打一个愿挨!休赛期最大闹剧,库里成牺牲品

老梁体育漫谈
2025-09-16 22:41:16
四川、湖北、福建三地省委书记,在央视出镜

四川、湖北、福建三地省委书记,在央视出镜

政知新媒体
2025-09-16 21:30:28
中方外长亲自出马,波兰终于松口:可以放行中欧班列,但有个条件

中方外长亲自出马,波兰终于松口:可以放行中欧班列,但有个条件

墨羽怪谈
2025-09-16 11:25:34
请baby代言,却发李菲儿推广内容,品牌方紧急删博并道歉

请baby代言,却发李菲儿推广内容,品牌方紧急删博并道歉

娱慧
2025-09-16 16:57:30
中国女篮热身赛名单:韩旭、张子宇领衔,李梦、王思雨等不在列

中国女篮热身赛名单:韩旭、张子宇领衔,李梦、王思雨等不在列

懂球帝
2025-09-16 10:21:08
43岁贾玲最新状态再创新巅峰,网友:这样一看,言承旭高攀了

43岁贾玲最新状态再创新巅峰,网友:这样一看,言承旭高攀了

娱乐故事
2025-09-14 23:56:02
西贝的史诗级灾难公关,带偏预制菜上市龙头

西贝的史诗级灾难公关,带偏预制菜上市龙头

诗与星空
2025-09-15 08:00:15
活在小县城的悲哀

活在小县城的悲哀

起喜电影
2025-09-11 11:04:13
程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

叨唠
2025-09-16 01:37:15
战火再次升级!48小时内,1050枚导弹飞向以境内,中国果断发声

战火再次升级!48小时内,1050枚导弹飞向以境内,中国果断发声

健身狂人
2025-09-16 12:41:53
中国新闻周刊炮轰杨景媛论文!武汉大学的沉默,比任何声音都刺耳

中国新闻周刊炮轰杨景媛论文!武汉大学的沉默,比任何声音都刺耳

热点菌本君
2025-09-13 14:48:29
让中国妥协没能成功,36万亿美债填不上,美决定“弄死”大债主!

让中国妥协没能成功,36万亿美债填不上,美决定“弄死”大债主!

瓜汁橘长Dr
2025-08-05 11:45:18
2025-09-16 23:35:00
Kevin改变世界的点滴 incentive-icons
Kevin改变世界的点滴
每周一次,产品案例与经验分享
109文章数 2关注度
往期回顾 全部

科技要闻

2025款Apple Watch全系怎么选?

头条要闻

网红面包店被指闭店后大量丢弃面包 市监局突击检查

头条要闻

网红面包店被指闭店后大量丢弃面包 市监局突击检查

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

健康
亲子
本地
数码
公开课

内分泌科专家破解身高八大谣言

亲子要闻

商务部等九部门:支持有条件的幼儿园招收2—3岁幼儿

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

数码要闻

AMD 推出锐龙 7 9700F 处理器,9700X 无核显版

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版