网易首页 > 网易号 > 正文 申请入驻

天下苦「调参」久矣!MIT师生推出全新RandOpt算法

0
分享至

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。

MIT新论文向大家都在头疼的“调参”开炮了!

为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。

然而现在,一对来自MIT的师生用一篇新论文告诉大家:

不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多



在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。

甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。

但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like:

专家模型像灌木一样密密麻麻长在周围。(即论文提到的“Neural Thickets(神经丛林)”现象)



△注:以上为AI生成,非论文内容

就是说,只要在预训练权重附近稍微扰动一下参数,就可能“碰到”一个新的任务专家。

基于此,作者进一步提出了一种非常简单的方法RandOpt

  • 只需向大语言模型添加高斯噪声(单步操作——无需迭代、无需学习率、无需梯度),然后将它们集成起来,就能在数学推理、编程、写作和化学任务上取得与标准GRPO/PPO相当甚至更优的性能。



而且作者发现,模型越大,效果越好

预训练模型周围藏着“神经丛林”

简单来说,论文给出了一个反直觉的结论——

预训练模型周围早就存在大量“专家模型”

在权重空间里,能解决不同任务的模型并不是零散分布的,而是密集地“长”在预训练权重附近。

所以理论上,并不一定需要复杂的训练过程,只要在这片区域里多试几次,就有机会找到表现不错的任务专家。

听到这里,估计很多人的反应是:啊这,难道这不就是靠猜、靠试吗?

没错,还真就是靠猜。

一直以来,随机猜测都被认为是不够靠谱的机器学习算法,比如随机猜出ChatGPT的参数向量,概率几乎为零。

但论文发现,到了预训练模型这里情况就变了——

模型权重周围,能提升任务表现的参数扰动变得很密集,所以随机猜测也能找到有效改进方案



在论文中,作者对预训练的Qwen2.5模型(0.5B~32B)施加了1000次随机权重扰动,并通过随机投影将其投影到二维平面。

结果发现,模型越大,周围“高精度区域”越密集;小模型扰动后大多性能下降(蓝色区域),而大模型周围随处可见性能提升的“专家”(红色区域)。

换言之,模型越大,这种扰动效果越明显、越起作用。



而且需要注意,这些随机扰动最后带来的不是“全能选手”,而是“偏科战神”

实验显示,没有任何一个随机改动能让模型在所有任务上都实现提升。例如,某一个改动能让模型数学算得更准,但写代码会变菜;另一个改动能让模型化学题做得好,但写故事不行。

并且同样的,模型越大,这种偏科越明显。



至于模型为啥会出现这种“周围偷偷藏一堆高手”的现象,论文也通过一个极简实验给出了初步解释。

他们选用了结构最简单、最容易看懂的1D信号自回归模型,让其学习预测一段时间序列信号的下一个数值。

结果出现了三种情况:

  • 无预训练:不论怎么添加扰动,模型周围都完全找不到可以提升性能的改动,随机猜测无意义;
  • 单一任务预训练:模型只能把经过预训练的任务做到极致,参数周围不会冒出其他优质改动;
  • 多任务混合预训练:模型参数周围瞬间布满能提升性能的扰动,随便加个小改动,就能解锁擅长某类信号预测的专项能力,成功复刻“神经丛林”的密集状态。



由此论文得出核心结论,“神经丛林”现象的诞生,关键就在于大模型的海量多任务预训练。

换言之,正因为底子够足,所以周围很容易找到可以随机扰动的“专家”。

启发了RandOpt算法

而上述研究,也启发论文作者提出了一种新的算法,RandOpt

RandOpt的运行机制可以分成简单两步:随机找高手+组队投票。

“随机找高手”就和前面提到的类似,给预训练模型的参数随机做N次扰动,然后就会得到N个“新版本模型”。

再用少量验证数据简单测一测这些模型,我们就能找出其中表现最好的K个。

拿到这K个模型后,接下来进入实战推理阶段——

让这K个“高手”各自回答问题,最后按“少数服从多数”的原则决定最终结果。

整个过程有两个值得注意的点:

一是在添加扰动sigmas(即噪声强度)时,RandOpt会尝试不同强度的噪声(比如小扰动、中扰动、大扰动),以确保能找到各种类型的专家。

二是这N个模型可以同时在多块GPU上运行,速度很快。



当然了,论文也试着用不同模型测试了这一新算法。

初步结果显示,对于纯语言大模型,在数学、编程、写故事、化学等任务上,RandOpt的准确率和现在主流的专业调参方法(PPO/GRPO/ES)差不多,有的甚至更高。



而对视觉-语言模型来说, RandOpt的提升作用则更加明显,准确率直接从56.6%涨到69.0%。



与此同时,除了语言和视觉-语言模型,论文也在图像扩散模型中观察到了类似的“神经丛林”现象——

参数空间的某些特定区域会倾向于生成具有特定色调或视觉风格的图像。



以及论文作者提醒,RandOp在以下情况下效果更佳:

  • 随机改的次数越多,挑的“高手”越厉害。
  • 模型越大,RandOpt效果越好。

论文作者介绍

最后介绍一下这项研究的两位作者。



Yulu Gan,北大工程硕士,目前是MIT计算机科学与人工智能实验室(CSAIL)的博士生。

此前曾在微软实习,研究方向主要为多模态大语言模型、推理、多智能体系统以及AI for science。



另一位作者Phillip Isola是他的导师,现任MIT电子工程与计算机科学系副教授。

Phillip Isola在加州大学伯克利分校做完博士后研究后,曾在2017年以技术人员的身份加入OpenAI。

不过干了不到一年,后面又去谷歌当了一年访问学者。

再然后就是回到读研时的母校MIT,任教至今。

Phillip Isola的主要研究方向为AI基础理论和计算机视觉,曾参与提出pix2pix、LPIPS感知损失等经典工作,谷歌学术论文被引量超10w+。



通过本次研究,师徒二人想重新告诉大家:

是时候重新认识预训练模型了,它不只是“一个能用的模型”,更是“一堆高手的集合”。

只要预训练做得足够好,后续想让模型干好具体任务,根本不用复杂调参,像RandOpt这样随机改改、组队投票就行,省时间省算力。



不过缺点也很明显,大致呢有下面这几个:

  • 依赖优质预训练,这是一个基本大前提。
  • 模型只能基于预训练数据找改进,无法让模型学会新技能。
  • K越大效果越好,但推理时要跑K个模型,虽然蒸馏能缓解,但蒸馏不适用于所有场景(比如生成式任务)。
  • 只适合有明确答案的任务,像写故事、设计分子这种结构化生成任务,还需要进一步改进集成方式。



目前相关论文和代码已公开,感兴趣可以继续关注。

论文:
https://arxiv.org/pdf/2603.12228
GitHub:
https://github.com/sunrainyg/RandOpt
项目主页:
https://thickets.mit.edu/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

科技狐
2026-03-25 22:34:58
网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

明星私服穿搭daily
2026-03-21 14:25:06
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
山西太原一学校职工举报自己吃空饷6年,多方回应

山西太原一学校职工举报自己吃空饷6年,多方回应

大风新闻
2026-03-26 15:41:15
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

阅识
2026-03-26 17:33:54
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

奶盖熊本熊
2026-03-26 04:28:59
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

2大势力联手、布局围剿郑丽文,恐遭灭顶之灾,“内鬼”已经露馅

忠于法纪
2026-03-26 13:28:20
白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

白宫不装了,承认伊朗拒绝谈判,特朗普准备“释放地狱”

书纪文谭
2026-03-26 16:28:13
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

哪一年退休的人员,享有退休金补发?赶紧看看你符合条件吗?

娱乐洞察点点
2026-03-26 16:11:56
吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

吃相难看!张雪峰去世不到24小时,恶心的事情发生,官方出手整治

阿凫爱吐槽
2026-03-25 18:57:39
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
2026-03-26 20:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
时尚
手机
家居

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

转头就晕的耳石症,能开车上班吗?

上新|| 她们说,找到了自己的人生裙子!

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版