网易首页 > 网易号 > 正文 申请入驻

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

0
分享至

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了!

所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。

由于提升显著,Reddit/一时间出现了大量讨论:

由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。

而且成本方面,和最接近这一性能的传统方法Sequential-Revision+相比,所使用的tokens数量仅为后者的几分之一。

响应更好,成本还降低了,还是无需微调的结果。

这令人熟悉的配方又直接“迷倒”了一大片网友:

与此同时,Mind Evolution还有一大优势也令人津津乐道:

它可以直接处理自然语言问题,而无需像传统一样需要将任务问题进一步形式化(即将实际问题转化为精确的、可被算法处理的数学或逻辑形式)。

也就是说,仅需一个最终检查解决方案是否正确的评估器,任务形式化也不需要了。

将问题形式化,需要大量领域专业知识和对问题的透彻理解,才能找出所有需用符号表示的关键元素及其关系,这大大限制了Inference-time scaling的适用范围。

总之按网友形容,这项研究就像给大语言模型升级大脑而不刷爆信用卡,酷酷酷!!

下面来看具体是如何做到的。

结合了进化搜索原理和LLMs的自然语言能力

首先,OpenAI的o1系列模型率先引入了推理时扩展(inference-time scaling)的概念,通过增加思维链(Chain-of-Thought)推理过程的长度,在数学、编程、科学推理等任务上取得了显著的性能提升。

换句话说,通过让模型思考更多、更深,其响应也会越来越好

而为了更多利用推理时扩展,先前研究还提出了自一致性(self-consistency)、基于反馈的顺序修正(如Sequential-Revision +),以及由辅助验证器或评估器引导的搜索(如Best-of-N)。

基于同样目的,DeepMind提出了Mind Evolution这一针对LLMs的新进化搜索策略。

结合了进化搜索原理与LLMs的自然语言能力,既允许对可能的解决方案进行广泛探索,也允许对有希望的候选方案进行深入细化。

具体而言,Mind Evolution依赖于两个关键组件:搜索算法和遗传算法

搜索算法比较常见,一般用来让LLMs找到最佳推理路径以获得最优解;而遗传算法结合大语言模型,在自然语言处理任务中,通过迭代优化候选解决方案,以更好地满足任务目标。

举个例子,假如面临上图中的任务:

请计划从西雅图到洛杉矶和南达科他州的5天旅行,预算为800美元。我们希望至少有一顿晚餐吃日本料理,并且偏好入住私人酒店客房。

Mind Evolution整体处理流程如下(类似遗传算法):

  • 样本解决方案生成(Sample solutions):使用LLMs生成多个初始旅行计划;
  • 评估(Evaluate):对生成的解决方案给出反馈,指出问题,如成本超出预算限制、用餐偏好未满足等;
  • 改进(Refine,包括选择、交叉、变异):根据评估反馈,对解决方案进行改进;
  • 终止条件(Terminate):当满足以下条件之一时终止,如找到有效或最佳解决方案,或达到最大计算预算(Gen N)。

这里尤其需要提到改进过程,其中选择是指依据评估反馈,选择更有可能改进的解决方案;交叉指将不同解决方案的部分内容进行组合,实现类似生物基因重组的效果,生成新的候选解决方案;变异是指对解决方案进行随机调整,增加种群多样性,以探索更多可能的解决方案。

最终,评估、选择和重组的循环将持续进行,直到算法达到最优解或耗尽预设的迭代次数。

另外值得一提的是,Mind Evolution具体是通过“The fitness function”(适应度函数)来消除任务形式化问题。

简单说,适应度函数适配自然语言规划任务,解决方案以自然语言呈现。

如此一来,在有程序性解决方案评估器时,系统可规避问题形式化,并且除给出数值评分外,还能提供文本反馈,帮助LLMs理解具体问题并开展针对性优化。

此外,Mind Evolution还采用“island”(岛屿)方法来确保多样化探索。

在每一个阶段,算法都会创建各自独立进化的解决方案组。然后,它将最优解从一组“迁移”到另一组,以结合并创造新的解决方案。

那么,Mind Evolution实际表现如何呢?

规划表现均优于其他基线方法

实验阶段,研究人员将它和其他基线进行了对比。

  • 1-pass:使用o1-preview,模型只生成一个答案;
  • Best-of-N,模型生成多个答案并选择最佳答案;
  • Sequential Revisions+:模型独立提出10个候选解决方案,然后分别对80次迭代进行修订。

可以看出,尽管缺少遗传算法组件,Sequential Revisions+在旅行规划上的成功率最为接近Mind Evolution。

不过随着从左至右任务复杂性的增加,Mind Evolution与其他方法之间的差距越来越大,优势愈发凸显。

整体来看,在所有测试中,Mind Evolution的表现都远远超过了基线,尤其是在任务变得更加困难时

在TravelPlanner(评估旅行规划)和Natural Plan(评估会议规划)这两项基准测试中,未采用Mind Evolution的Gemini 1.5 Flash任务成功率分别为5.6%和20.8%,而采用Mind Evolution之后,其任务成功率分别提升至95.6%和85.0%。

而且,如果继续将Gemini 1.5 Flash未解决的问题丢给1.5Pro,其成功率更是上升至100%和98.4%

另外成本方面,和最接近上述性能的传统方法Sequential-Revision+相比,所使用的tokens数量仅为后者的几分之一。

除此之外,研究人员引入了一项新测试任务——StegPoet

需要在创意写作中嵌入隐写信息,属于自然语言规划任务范畴。

简单说,它要求在创作富有创意的文本内容时,还要将特定的信息以隐写的方式巧妙融入其中,这既需要逻辑推理能力,也对LLMs在创造性表达方面的能力提出了更高要求。

而从相关实验来看,Mind Evolution也经受住了这一复杂任务的考验。

总体来说,这项研究通过将广泛搜索(随机探索)与深度搜索(利用LLM进行解决方案细化)相结合,进一步提升了模型在规划和推理上的响应。

更多细节欢迎查阅原论文。

论文:
https://arxiv.org/abs/2501.09891

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“秦始皇遣使采药昆仑石刻”最新进展:国家文物局认定为秦代石刻

“秦始皇遣使采药昆仑石刻”最新进展:国家文物局认定为秦代石刻

封面新闻
2025-09-15 12:32:15
罗永浩回应胖东来创始人于东来力挺西贝:于总是我尊敬的企业家,千万不要被损友误导搅这个浑水,连累您名声

罗永浩回应胖东来创始人于东来力挺西贝:于总是我尊敬的企业家,千万不要被损友误导搅这个浑水,连累您名声

和讯网
2025-09-15 13:54:36
壁虎通常不进屋,家中若是进了壁虎,通常是在提醒你这三件事

壁虎通常不进屋,家中若是进了壁虎,通常是在提醒你这三件事

诗意世界
2025-09-14 23:37:58
文件显示:特斯拉首席执行官马斯克买入超过250万股股票

文件显示:特斯拉首席执行官马斯克买入超过250万股股票

财联社
2025-09-15 18:25:24
成都一公园内疑有人留下遗言轻生,纸条上的字让网友破防!警方介入调查,当地多方回应

成都一公园内疑有人留下遗言轻生,纸条上的字让网友破防!警方介入调查,当地多方回应

潇湘晨报
2025-09-15 20:00:10
许家印突发消息

许家印突发消息

新行情
2025-09-15 14:57:25
易会满出事后,浙江这家企业被查出多项问题

易会满出事后,浙江这家企业被查出多项问题

温百君
2025-09-15 22:09:14
菲律宾离挨揍还有多远,我舰“抵近”菲7海里

菲律宾离挨揍还有多远,我舰“抵近”菲7海里

世家宝
2025-09-15 13:20:31
澳门赛惹争议!意外的不是孙颖莎冠军,而是王曼昱的心寒!

澳门赛惹争议!意外的不是孙颖莎冠军,而是王曼昱的心寒!

八斗小先生
2025-09-15 09:03:46
忍耐1天,解放军增兵南海,日本导弹覆盖北京,不准中国建保护区

忍耐1天,解放军增兵南海,日本导弹覆盖北京,不准中国建保护区

策略述
2025-09-15 15:39:42
这是一记响亮的耳光,更是一个危险的信号!

这是一记响亮的耳光,更是一个危险的信号!

胖胖说他不胖
2025-09-15 14:58:33
刚刚,罗永浩决定放弃,并否认受到威胁!多家西贝门店称已收到调整通知,罗永浩称华与华老板已道歉

刚刚,罗永浩决定放弃,并否认受到威胁!多家西贝门店称已收到调整通知,罗永浩称华与华老板已道歉

每日经济新闻
2025-09-15 20:24:45
中美密谈了6个小时,美财长眉头紧锁,美国网民感叹:特朗普变了

中美密谈了6个小时,美财长眉头紧锁,美国网民感叹:特朗普变了

博览历史
2025-09-15 20:23:35
亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

法老不说教
2025-09-15 23:16:03
姜萍从数学天才到黑丝网红,这是什么情况!?

姜萍从数学天才到黑丝网红,这是什么情况!?

霹雳炮
2025-09-15 22:34:29
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
A股:悲哀了!神仙打架,股民受伤,明天大盘,会有转机吗

A股:悲哀了!神仙打架,股民受伤,明天大盘,会有转机吗

虎哥闲聊
2025-09-15 15:52:10
陈震谈小米16改名:让人一看到iPhone 17就想到小米17

陈震谈小米16改名:让人一看到iPhone 17就想到小米17

手机中国
2025-09-15 13:45:01
轮到以色列被打了!突发:以最大城市被炸,数百万人逃入避难所

轮到以色列被打了!突发:以最大城市被炸,数百万人逃入避难所

起喜电影
2025-09-15 07:30:55
“完美女神”热巴生图被揭,鼻子大腋下黑,生图才是“人间真实”

“完美女神”热巴生图被揭,鼻子大腋下黑,生图才是“人间真实”

八卦南风
2025-09-15 12:34:21
2025-09-16 03:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11321文章数 176268关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

游戏
家居
亲子
手机
公开课

TES输得可惜!赛后官博沦陷,粉丝怒喷369:最大短板!越打越菜

家居要闻

典雅大气 舒适中带童趣

亲子要闻

龙宝刚睡醒就笑呵呵,学走路给姥姥热一头汗,这么大的小孩不好管

手机要闻

OPPO新机大揭秘:Reno15系列与Find X9 Pro,谁更吸引你?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版