网易首页 > 网易号 > 正文 申请入驻

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

0
分享至



大语言模型(LLM)的「炼丹师」们,或许都曾面临一个共同的困扰:为不同任务、不同模型手动调整解码超参数(如 temperature 和 top-p)。这个过程不仅耗时耗力,而且一旦模型或任务发生变化,历史经验便瞬间失效,一切又得从头再来。

这种繁琐的试错过程,在许多研发团队的日常沟通中屡见不鲜,正如下图所展示的那样:



图 1:研发人员手动调整解码参数的日常。

一个灵魂拷问随之而来:为何不能让模型自己学会如何解码,从而实现真正的「端到端」?

事实上,各大模型厂商的 API 文档也印证了这一难题。以 DeepSeek 为例,其官方文档明确建议针对不同场景设置截然不同的 temperature 值,这使得单一的静态参数设置显得捉襟见肘。



图 2:不同任务需要不同的解码参数,这使得静态设置难以应对复杂多变的现实需求。

近日,由腾讯 AI Lab 的王琰研究员及其团队领衔,联合香港中文大学(深圳)唐晓莹教授及其博士生王志超给出了一个优雅的答案。他们推出了名为 AutoDeco 的全新架构,旨在彻底终结手动解码的「手工作坊」时代。这项研究《The End of Manual Decoding: Towards Truly End-to-End Language Models》,通过让模型动态预测并控制自身的解码参数,向着真正端到端的语言生成迈出了关键一步。



  • 论文链接: https://huggingface.co/papers/2510.26697
  • 代码链接: https://github.com/Zacks917/AutoDeco
  • 模型链接: https://huggingface.co/collections/Jadeislaw/autodeco



图 3:AutoDeco 位居 Hugging Face Daily Papers 榜首

当前,尽管 LLM 本身已高度集成,但其生成过程的「最后一公里」—— 解码,仍然是一个独立于模型之外的、不可微的僵硬环节。研究团队形象地将其比作「手动挡变速箱」:无论引擎(LLM)多么强大,换挡(调参)依然依赖人工操作。

AutoDeco 的核心思想,就是为 LLM 装上「自动挡」。它通过在标准 Transformer 架构中引入两个超轻量的预测头,让模型在生成每一个 token 时,都能根据当前的上下文信息,动态地预测出最适合下一步生成的 temperature 和 top-p 值。其架构如下图所示:



图 4:AutoDeco(上)与传统手动解码(下)的对比。AutoDeco 将解码参数的预测无缝集成到模型的前向传播中,实现了动态自调节。

核心挑战与技术突破:如何训练一个没有「标准答案」的任务?

设想很美好,然而,一个关键的挑战摆在研究团队面前:如何训练这些预测头?在训练数据中,并不存在每一时刻「正确」的温度和 top-p 标签,这使得监督学习无从谈起。

为此,团队提出了一种创新的、完全端到端的训练策略。他们设计了一种新颖的可微分「软性 top-p」(soft top-p)机制,巧妙地替代了传统 top-p 采样中不可微的「硬截断」操作。该方法分为三步:





图 5:可微分的 soft top-p(橙色线)与传统的 hard top-p (绿色线)对比。Soft top-p 的平滑特性打通了从最终损失到解码参数预测头的梯度路径。

这一设计的巧妙之处在于,它使得从最终的「下一个词预测」损失到解码参数预测头的梯度能够顺畅回传。如此一来,模型便可以在标准的 Next Token Prediction 任务中,通过优化最终生成结果来「倒逼」自己学会如何动态调整解码策略,整个过程无需任何额外的标注数据。

AutoDeco 的惊人表现:三大亮点

通过在 Llama、Qwen、Deepseek 等多个主流模型家族上的广泛实验,AutoDeco 展现了其强大的能力:

  • 卓越的性能与泛化能力

实验结果表明,AutoDeco 不仅稳定超越了传统的 Greedy Search 和 Default Sampling 等基线方法,其性能甚至能媲美、乃至超越了利用测试集进行精细调优的「神谕」基线(oracle-tuned baseline)。





图 6:AutoDeco 在多个数学和通用任务 benchmark 上均取得了 SOTA 性能,展现了其强大的泛化能力。

  • 极致的效率与易用性

AutoDeco 的预测头设计极为轻量,其带来的额外推理延迟通常仅为 1.7%,内存开销也几乎可以忽略不计。对于开发者而言,接入 AutoDeco 模型仅需修改几行代码,即可享受「免费」的性能提升。

  • 「言出法随」:开创性的自然语言控制能力

研究中最令人兴奋的发现之一,是 AutoDeco 涌现出的一种「通过自然语言控制解码」的能力。用户可以直接在 prompt 中通过自然语言下达指令,如「我希望答案更有创意」,模型便能「听懂」并自主地调高其预测的 temperature 和 top-p 值,整个过程清晰可见。



图 7:在不同指令下,AutoDeco 预测的 T/P 值变化。从左至右分别为:基线、高创造力指令(T/P 值自发升高)、高确定性指令(T/P 值自发降低)。

当然,作者坦言这种能力还不够完善,还做不到非常精准的控制。他们猜测实现细粒度、高精度的自然语言控制解码无法仅仅能通过微调 AutoDeco 模块做到,而是需要全参微调模型,这也被他们列为了 Future work 的重点。因此,作者没有放出带有自然语言控制能力的 AutoDeco heads 权重。

AutoDeco 在发布后迅速吸引全球 AI 社区的关注,在 Twitter 等社交平台上引发了顶尖学者、开发者和企业家的广泛热议和高度评价。



图 8:大模型社区对 AutoDeco 的广泛热议和高度评价。

目前,该团队已将论文、代码以及在多个主流模型上训练好的 AutoDeco heads 全面开源,包含适配于 Deepseek V3.1、Qwen3-235B、GPT-OSS-120B 等生产级大模型的版本。正如研究人员在分享中所说,这项工作旨在将研究者和开发者从繁琐的调参工作中解放出来,共同迈向一个更智能、更自动化的 AGI 新时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电影《731》延长上映至12月17日

电影《731》延长上映至12月17日

界面新闻
2025-11-13 10:50:02
一百多年过去了,现在再来看戊戌变法的内容,还是不由得叹息一声

一百多年过去了,现在再来看戊戌变法的内容,还是不由得叹息一声

近史谈
2025-11-12 20:03:04
广东夺冠采访!杜锋展兴奋,亲承压力一直在,阿旺曝其床头很多药

广东夺冠采访!杜锋展兴奋,亲承压力一直在,阿旺曝其床头很多药

篮球资讯达人
2025-11-13 00:50:49
国乒主力2-4爆冷出局!全运会乒乓球八强对阵诞生,13日赛程如下

国乒主力2-4爆冷出局!全运会乒乓球八强对阵诞生,13日赛程如下

侃球熊弟
2025-11-12 22:48:04
离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

涛哥讲堂
2025-11-11 16:00:58
奇瑞汽车就天门山挑战测试意外致歉:将承担赔偿责任,做好善后工作

奇瑞汽车就天门山挑战测试意外致歉:将承担赔偿责任,做好善后工作

界面新闻
2025-11-13 07:24:42
斥资5.6亿,张艺谋携《惊蛰无声》大战春节档,王炸阵容让人惊喜

斥资5.6亿,张艺谋携《惊蛰无声》大战春节档,王炸阵容让人惊喜

喵喵娱乐团
2025-11-13 16:14:20
苏丹爆发大屠杀!伏尸百万堆积如山,血洗法希尔为何无人敢拦

苏丹爆发大屠杀!伏尸百万堆积如山,血洗法希尔为何无人敢拦

史纪文谭
2025-11-12 11:32:23
乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

史纪文谭
2025-11-11 14:16:47
狂轰26分7板4助!打爆开拓者主力中锋,杨瀚森的手下败将彻底蜕变

狂轰26分7板4助!打爆开拓者主力中锋,杨瀚森的手下败将彻底蜕变

球场没跑道
2025-11-13 11:57:52
美西方失望了!中国扛住了空间碎片撞击,神舟二十号准备执行返回

美西方失望了!中国扛住了空间碎片撞击,神舟二十号准备执行返回

普陀动物世界
2025-11-13 13:49:22
“阴花不能进阳宅”,家里若有这5种花,请赶紧“搬出去”!

“阴花不能进阳宅”,家里若有这5种花,请赶紧“搬出去”!

阿离家居
2025-11-13 09:26:14
邀请60万!川普宣布让中国留学生人数翻倍:没有他们,美国大学要完!

邀请60万!川普宣布让中国留学生人数翻倍:没有他们,美国大学要完!

华人生活网
2025-11-13 06:08:46
爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

话体坛
2025-11-12 22:13:16
鲁媒:陈泽仕和依木兰今天抵达成都,参加U22国足的训练备战

鲁媒:陈泽仕和依木兰今天抵达成都,参加U22国足的训练备战

懂球帝
2025-11-13 17:31:31
刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

纸鸢奇谭
2024-05-15 12:21:33
三星杯八强战杨鼎新憾负朴廷桓 半决赛中韩之争2对2

三星杯八强战杨鼎新憾负朴廷桓 半决赛中韩之争2对2

劲爆体坛
2025-11-13 16:34:12
西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

南宫一二
2025-11-13 17:12:06
近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

沈言论
2025-11-10 18:40:03
陈梦:能进半决赛已经很棒了,现在年轻人速度很快我差点跟不上

陈梦:能进半决赛已经很棒了,现在年轻人速度很快我差点跟不上

懂球帝
2025-11-13 14:32:16
2025-11-13 19:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11712文章数 142504关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

亲子
艺术
游戏
数码
公开课

亲子要闻

何穗产后首晒照,网友:这是刚生完的人吗?

艺术要闻

黄君璧:仿古山水册

索尼《地平线》MMO新游引不满:这能不上PS5?

数码要闻

国产 NAS 系统飞牛 fnOS 苹果 Apple TV 端更新支持网盘直链播放

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版