就在今天,在科研圈Meta公布了一个全新的算法,通过几十行代码就实现了
在文献里,Meta团队提出的这个算法名字叫做 Deep Think with Confidence 简称为DeppConf
我们提出“置信深度思考”(DeepConf)——一种简洁而有效的测试时方法,它把并行思考与基于局部置信度的过滤相结合。DeepConf 同时支持离线模式和在线模式:既可以在生成过程中、也可以在生成完成后,识别并丢弃低置信度的推理轨迹。该方法在不降低、甚至提升最终答案准确率的同时,显著减少了不必要的 token 消耗。
当然现在这个算法的限制还是在参数娇小的模型里成功了,研究团队在8B~到120B的参数模型里,完成了99%的模型识别准确率。
在实验结果里,DEEPConf的准确率超过了其他的算法模型,并且也减少了相当多的资源浪费。
在可访问全部推理轨迹的离线模式下,DeepConf@512 在使用 GPT-OSS-120B(无工具)时,在 AIME 2025 上达到 99.9% 的准确率,彻底刷爆该基准;相比之下,cons@512(多数投票)为 97.0%,pass@1 仅为 91.8%。在具备实时生成控制的在线模式下,DeepConf 相比标准并行思考最多可减少 84.7% 的 token 消耗,同时保持或超越原有准确率。图 1 展示了我们的主要结果
并且这个算法支持在线与离线两种模式,离线模式需要更多的算力资源,而在线模式的效果就不如离线好。
从现在来看,要实现模型的识别率提升到99%,没有幻觉,就加上这以上几行代码就可用了
附录里给了 vLLM 修改不到 50 行的伪代码,简单直接,甚至直接pull mr即插即用。如下是附录代码内容
总的来说,将其性能可以提升,如果针对自己要节约训练时间的,可以用think confen算法来提升。
这种没有监督的自我监督学习方法,虽然就增加了算力要求,但是确实将幻觉降低到了1%。
今天的分享就到这里
文献地址:https://arxiv.org/pdf/2508.15260
“分享产品经理改变世界的点滴”
产品顾问| 产品咨询|培训合作
请添加微信 PMxiaowanzi
最近我的原创
每日案例拆解库,AI等产品打卡群
我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品
在这里你可以随时查询到你想找的各类竞品行业APP,无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。
从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。
平均1天1块钱,扫码购买即可加入
连续体验48款应用,通过后原路退回
报名后添加星球助理
PMTalk123
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.