网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI产品经理做研究：每个大模型的幻觉将会被解决，准确率99%

2025-08-30 23:09:05　来源: Kevin改变世界的点滴

广东举报

0

分享至

就在今天，在科研圈Meta公布了一个全新的算法，通过几十行代码就实现了

在文献里，Meta团队提出的这个算法名字叫做 Deep Think with Confidence 简称为DeppConf

我们提出“置信深度思考”（DeepConf）——一种简洁而有效的测试时方法，它把并行思考与基于局部置信度的过滤相结合。DeepConf 同时支持离线模式和在线模式：既可以在生成过程中、也可以在生成完成后，识别并丢弃低置信度的推理轨迹。该方法在不降低、甚至提升最终答案准确率的同时，显著减少了不必要的 token 消耗。

当然现在这个算法的限制还是在参数娇小的模型里成功了，研究团队在8B~到120B的参数模型里，完成了99%的模型识别准确率。

在实验结果里，DEEPConf的准确率超过了其他的算法模型，并且也减少了相当多的资源浪费。

在可访问全部推理轨迹的离线模式下，DeepConf@512 在使用 GPT-OSS-120B（无工具）时，在 AIME 2025 上达到 99.9% 的准确率，彻底刷爆该基准；相比之下，cons@512（多数投票）为 97.0%，pass@1 仅为 91.8%。在具备实时生成控制的在线模式下，DeepConf 相比标准并行思考最多可减少 84.7% 的 token 消耗，同时保持或超越原有准确率。图 1 展示了我们的主要结果

并且这个算法支持在线与离线两种模式，离线模式需要更多的算力资源，而在线模式的效果就不如离线好。

从现在来看，要实现模型的识别率提升到99%，没有幻觉，就加上这以上几行代码就可用了

附录里给了 vLLM 修改不到 50 行的伪代码，简单直接，甚至直接pull mr即插即用。如下是附录代码内容

总的来说，将其性能可以提升，如果针对自己要节约训练时间的，可以用think confen算法来提升。

这种没有监督的自我监督学习方法，虽然就增加了算力要求，但是确实将幻觉降低到了1%。

今天的分享就到这里

文献地址：https://arxiv.org/pdf/2508.15260

“分享产品经理改变世界的点滴”

产品顾问｜产品咨询｜培训合作

请添加微信 PMxiaowanzi

最近我的原创

每日案例拆解库，AI等产品打卡群

我创建的产品设计打卡社群，加入后365天，每天体验一款APP。提升产品设计能力，同时有1300份体验报告帮助你找到竞品

在这里你可以随时查询到你想找的各类竞品行业APP，无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度，体验一款应用。

平均1天1块钱，扫码购买即可加入

连续体验48款应用，通过后原路退回

报名后添加星球助理

PMTalk123

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

爱范儿 2025-09-16 09:58:34
1 跟贴 1
7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途

新智元 2025-09-16 13:05:54
8 跟贴 8

慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

机器之心Pro 2025-09-16 10:10:30
0 跟贴 0

AI不会让你成为10倍工程师

量子位 2025-08-11 10:02:45
4 跟贴 4
红旗反导弹打底世界前三，依旧是过渡产品？LY-1实现终极拦截

陈虎点兵 2025-09-15 16:01:36
1 跟贴 1

卡塔尔被炸才发现，美国安全保障靠不住，我们要不要提供安全产品

陈虎点兵 2025-09-14 00:25:18
14 跟贴 14

阿里Qoder开卖！每月140元，性价比是Cursor的1.48倍

智东西 2025-09-16 15:10:23
12 跟贴 12
大厂疯抢AI人才！报告：字节跳动、小红书、阿里巴巴岗位最多搜索算法“5岗争2人”

每日经济新闻 2025-09-16 20:20:07
0 跟贴 0

TikTok，起死回生！

出海老斯基 2025-09-16 13:46:42
2 跟贴 2
TikTok：有国家撑腰真好

东针 2025-09-16 21:28:35
0 跟贴 0
14.98万元起的2026款海豹07 DM-i，为何让竞品感觉压力山大？

My车轱辘 2025-09-15 21:20:56
32 跟贴 32
Vibe Coding爆火，YouWare突围(1)

机器之心Pro 2025-07-24 14:36:10
0 跟贴 0
常山北明：鸿蒙开发团队成员全员通过了HarmonyOS应用开发者高级认证

每日经济新闻 2025-09-16 19:37:05
0 跟贴 0
中国车市真黑

后视镜里de未来 2025-09-15 14:31:44
0 跟贴 0
同样搭载激光雷达，欧拉首款A级SUV强在哪儿？

辣椒车讯 2025-09-16 15:46:32
0 跟贴 0
机器人亮相开学典礼，一瞬间燃番全场，多少代码才成的角！

盒子时尚 2025-09-15 09:19:27
0 跟贴 0
真正的智能体软件工程师：OpenAI研发A-SWE能写代码、测试质量、修复Bug

量子位 2025-04-14 19:04:43
0 跟贴 0
程序员手麻敲不动代码？肌骨超声揪出真凶

人民资讯 2025-09-16 17:31:59
0 跟贴 0
“秦始皇遣使采药昆仑石刻”最新进展：国家文物局认定为秦代石刻

封面新闻 2025-09-15 12:32:15
21245 跟贴 21245
Meta MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

机器之心Pro 2025-09-15 15:35:40
19 跟贴 19
反转！LeCun刚转发「全球最快开源推理模型」，ETH苏黎世就直接打假

新智元 2025-09-15 18:00:35
8 跟贴 8
大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
1 跟贴 1
美国人疯狂下载这款中国App

财联社 2025-04-15 17:48:13
0 跟贴 0
嫌疑人以为民警不懂，偷删代码想减刑，结果下秒尴尬了！

搞笑受气猫 2025-09-14 11:49:21
4 跟贴 4
广东一餐厅被曝收8个月婴儿茶位费，最新回应来了

大象新闻 2025-09-16 09:07:07
6982 跟贴 6982
在小红书炫富的清华学霸，被调查！美国4000多万豪宅被扒

财通社 2025-09-16 21:08:12
0 跟贴 0
华为：再次突破！

电动知家 2025-09-16 19:46:24
3 跟贴 3
我朋友也想下载一个这样的APP

大海会剪辑 2025-09-14 13:41:23
2 跟贴 2
老板娘哭晕了，产品小了0.001丝，被日本客启全部退货！

康德看生活 2025-09-13 17:31:32
0 跟贴 0
高中三年，可别栽在这几件小事上

教育思享 2025-09-15 21:37:51
7 跟贴 7
哈佛辍学三兄弟，三年干出百亿独角兽！OpenAI、英伟达都是它客户

智东西 2025-09-16 21:30:11
0 跟贴 0
2026款海豹07DM-i价格不降反升？看产品升级幅度就知道值不值

每日侃车 2025-09-16 10:18:05
0 跟贴 0
行将就木的 “设计思维” ？

慎思行 2025-09-16 08:06:24
0 跟贴 0
纯国产智能体产品MasterAgent 一句话生成智能体集群

量子位 2025-07-29 18:00:26
0 跟贴 0
9个维度看腾势N9！哪些方面是它最强项？

爱车兵团 2025-09-15 11:25:47
41 跟贴 41
儿童简单折纸玩具，教你折纸无人机模型，四个扇叶还会动，很好玩

落纸生花创意手工 2025-09-14 14:01:42
6 跟贴 6
零跑D系列接连曝光！年销百万靠它能成？

电动星球News 2025-09-16 19:37:53
0 跟贴 0
当豪华品牌在中国学会“平权”：奥迪E5 Sportback进入22万级价格区间

观察者网 2025-09-16 22:35:13
0 跟贴 0
全车电动座椅+水晶按键！捷途X70L豪华配置单，价格看呆竞品

汽车有文化 2025-09-15 21:55:04
3 跟贴 3
网友在湘西发现“黄金虫”引200万人围观！这是什么虫？

鲁中晨报 2025-09-16 09:35:10
562 跟贴 562

家家有本难念的经，戚薇自曝生二胎后真实处境，给所有父母提个醒

家家有本难念的经，戚薇自曝生二胎后真实处境，给所有父母提个醒

一娱三分地

2025-09-16 18:34:24

“凌晨，全青岛的人都被惊雷吓醒，没开玩笑”，今天，大雨到暴雨+局部大暴雨+雷电+短时强降水+9级阵风

“凌晨，全青岛的人都被惊雷吓醒，没开玩笑”，今天，大雨到暴雨+局部大暴雨+雷电+短时强降水+9级阵风

鲁中晨报

2025-09-16 11:39:07

以军被曝在加沙开展杀人游戏疑似视频曝光！

以军被曝在加沙开展杀人游戏疑似视频曝光！

看看新闻Knews

2025-09-14 18:08:09

被指封建迷信，易烊千玺方发声

南方都市报

2025-09-16 15:04:06

随着申花1-2被逆转，武里南联2-1，首尔1-1，亚冠最新积分榜出炉

随着申花1-2被逆转，武里南联2-1，首尔1-1，亚冠最新积分榜出炉

球场没跑道

2025-09-16 22:18:57

腾讯拟发债300亿美元大股东Prosus持股降至23%

腾讯拟发债300亿美元大股东Prosus持股降至23%

雷递

2025-09-16 17:49:39

特朗普翻红？佛州支持率超过一半，靠的不是石油、减税，而是环保

特朗普翻红？佛州支持率超过一半，靠的不是石油、减税，而是环保

日落于西西

2025-09-16 22:08:22

零跑汽车前总裁独立造车！

电动知家

2025-09-16 20:18:15

愿掏1.4亿，一个愿打一个愿挨！休赛期最大闹剧，库里成牺牲品

愿掏1.4亿，一个愿打一个愿挨！休赛期最大闹剧，库里成牺牲品

老梁体育漫谈

2025-09-16 22:41:16

四川、湖北、福建三地省委书记，在央视出镜

四川、湖北、福建三地省委书记，在央视出镜

政知新媒体

2025-09-16 21:30:28

中方外长亲自出马，波兰终于松口：可以放行中欧班列，但有个条件

中方外长亲自出马，波兰终于松口：可以放行中欧班列，但有个条件

墨羽怪谈

2025-09-16 11:25:34

请baby代言，却发李菲儿推广内容，品牌方紧急删博并道歉

请baby代言，却发李菲儿推广内容，品牌方紧急删博并道歉

娱慧

2025-09-16 16:57:30

中国女篮热身赛名单：韩旭、张子宇领衔，李梦、王思雨等不在列

中国女篮热身赛名单：韩旭、张子宇领衔，李梦、王思雨等不在列

懂球帝

2025-09-16 10:21:08

43岁贾玲最新状态再创新巅峰，网友：这样一看，言承旭高攀了

43岁贾玲最新状态再创新巅峰，网友：这样一看，言承旭高攀了

娱乐故事

2025-09-14 23:56:02

西贝的史诗级灾难公关，带偏预制菜上市龙头

西贝的史诗级灾难公关，带偏预制菜上市龙头

诗与星空

2025-09-15 08:00:15

活在小县城的悲哀

起喜电影

2025-09-11 11:04:13

程青松朋友圈曝光！刘晓庆力挺他，田海蓉资助他，黄晓明为他庆生

程青松朋友圈曝光！刘晓庆力挺他，田海蓉资助他，黄晓明为他庆生

叨唠

2025-09-16 01:37:15

战火再次升级！48小时内，1050枚导弹飞向以境内，中国果断发声

战火再次升级！48小时内，1050枚导弹飞向以境内，中国果断发声

健身狂人

2025-09-16 12:41:53

中国新闻周刊炮轰杨景媛论文！武汉大学的沉默，比任何声音都刺耳

中国新闻周刊炮轰杨景媛论文！武汉大学的沉默，比任何声音都刺耳

热点菌本君

2025-09-13 14:48:29

让中国妥协没能成功，36万亿美债填不上，美决定“弄死”大债主！

让中国妥协没能成功，36万亿美债填不上，美决定“弄死”大债主！

瓜汁橘长Dr

2025-08-05 11:45:18

Kevin改变世界的点滴

每周一次，产品案例与经验分享

109文章数 2关注度

往期回顾全部

科技要闻

2025款Apple Watch全系怎么选？

头条要闻

网红面包店被指闭店后大量丢弃面包市监局突击检查

头条要闻

网红面包店被指闭店后大量丢弃面包市监局突击检查

体育要闻

2022：勇士归来，库里的第四个冠军

娱乐要闻

李小璐母亲：女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

智能体豪华旅行车享界S9T30.98万元起售

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

亲子

本地

数码

公开课

内分泌科专家破解身高八大谣言

亲子要闻

商务部等九部门：支持有条件的幼儿园招收2—3岁幼儿

本地新闻

云游忻州 | 慢时光！老街逛吃，烟火气超上头~

数码要闻

AMD 推出锐龙 7 9700F 处理器，9700X 无核显版

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版