网易首页 > 网易号 > 正文 申请入驻

首次!AI生成论文通过同行评审;研究发现:推理模型根本无需思考|今日热门论文

0
分享至

速览热门论文

1.首次!AI 生成论文通过同行评审

2.专家发文质疑:LLM 过度预训练是灾难性的

3.研究发现:推理模型根本「无需思考」

4.Liquid:语言模型是可扩展的、统一多模态生成器

1.首次!AI 生成论文通过同行评审

在这项工作中,Sakana AI 团队推出了 The AI Scientist-v2,这是一个端到端的 agent 系统,能够生成首篇完全由 AI 生成并通过同行评审的研讨会论文。

该系统可以迭代地提出科学假设、设计和执行实验、分析和可视化数据,并自主撰写科学手稿。与上一代相比,The AI Scientist-v2 消除了对人类编写的代码模板的依赖,在不同的机器学习领域有效地进行了泛化,并利用了由专门的实验管理器 agent 管理的渐进 agentic 树搜索方法。此外,他们还集成了视觉语言模型(VLM)反馈回路,用于迭代完善图表的内容和美感,从而增强了人工智能审阅器组件。

他们通过向同行评审的 ICLR 研讨会提交三份完全自主的稿件,对 AI Scientist-v2 进行了评估。值得注意的是,其中一篇稿件获得了足够高的分数,超过了人类接受稿件的平均门槛,这代表完全由人工智能生成的论文首次成功通过同行评审。

论文链接:https://arxiv.org/abs/2504.08066

2.专家发文质疑:LLM 过度预训练是灾难性的

大语言模型(LLM)是根据不断增长的 token 预算进行预训练的,其假设是更好的预训练性能可以转化为更好的下游模型。

在这项工作中,来自卡内基梅隆大学的研究团队及其合作者对这一假设提出了质疑,并证明扩展预训练会使模型更难微调,从而导致最终性能下降。他们将这种现象称为灾难性过度训练(catastrophic overtraining)。例如,根据 3T token 预训练的指令微调 OLMo-1B 模型在多个标准 LLM 基准上的性能比其 2.3T token 对应模型差 2% 以上。

通过对照实验和理论分析,他们发现,灾难性过度训练源于预训练参数对修改(包括但不限于微调)的广泛敏感性的系统性增加。这一研究结果要求对预训练设计进行严格的重新评估,以考虑模型的下游适应性。

论文链接:https://arxiv.org/abs/2503.19206

3.研究发现:推理模型根本「无需思考」

通过在生成过程中加入明确、冗长的“思考”过程,大语言模型(LLM)可以提高自身的推理能力。

在这项工作中,加州大学伯克利分校团队质疑了这种明确的思考是否有必要。通过使用 DeepSeek-R1-Distill-Qwen 算法,他们发现通过简单的提示(即 NoThinking)绕过思考过程,可以达到令人惊讶的效果。如果控制 token 数量,NoThinking 在 7 个具有挑战性的推理数据集(包括数学问题求解、形式化定理证明和编码)中的表现均优于 Thinking,尤其是在低预算环境下,例如,在 700 个 token 的 ACM 23 中,NoThinking 的表现为 51.3 vs. 28.9。值得注意的是,随着 k 的增加,NoThinking 的性能在 pass@k 上更具竞争力。

基于这一观察结果,他们证明了使用 NoThinking 独立生成 N 个输出并将其聚合的并行扩展方法非常有效。在聚合时,他们会使用特定任务验证器,或者采用简单的 best-of-N 策略,如基于置信度的选择。他们的方法优于一系列使用 Thinking 的基线方法,可与具有更长延迟(高达 9 倍)的 Thinking 相媲美。

论文链接:https://arxiv.org/abs/2504.09858

4.Liquid:语言模型是可扩展的、统一多模态生成器

在这项工作中,来自华中科技大学、字节跳动和香港大学的研究团队提出了一种自回归生成方法——Liquid,其通过将图像标 token 为离散代码,并在视觉和语言的共享特征空间内学习这些代码嵌入以及文本 token,从而将视觉理解和生成无缝整合在一起。与以往的多模态大语言模型(MLLM)不同,Liquid 利用单个大语言模型(LLM)实现了这一整合,从而消除了对外部预训练视觉嵌入(如 CLIP)的需求。

Liquid 首次发现了一个 scaling law,即随着模型规模的增大,视觉和语言任务的统一训练不可避免地会带来性能下降。此外,统一的 token 空间还能使视觉生成和理解任务相互促进,有效消除早期模型中的干扰。

研究表明,现有的 LLM 可以作为 Liquid 的基座,在多模态能力上好于 Chameleon 的同时,还能节省 100 倍的训练成本,并保持与主流 LLM(如 LLAMA2)相当的语言性能。Liquid 在视觉语言和纯文本任务中的表现也优于 SD v2.1 和 SD-XL(在 MJHQ-30K 上的 FID 为 5.47)。

论文链接:https://arxiv.org/abs/2412.04332

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
叔本华:性欲是一切欲望的焦点

叔本华:性欲是一切欲望的焦点

听哲学
2026-03-24 21:42:04
87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

谈古论今历史有道
2026-03-25 15:15:03
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

白宸侃片
2026-03-26 11:19:02
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

律法刑道
2026-03-26 10:55:03
中国资产,大涨!美联储,降息大消息!

中国资产,大涨!美联储,降息大消息!

中国基金报
2026-03-26 08:22:37
1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

铜臭的历史味
2026-03-16 13:05:54
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

罗米的曼联博客
2026-03-26 11:16:06
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

罗米的曼联博客
2026-03-26 12:11:02
美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

野史日记
2026-03-25 10:00:12
巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

趣味萌宠的日常
2026-03-26 14:04:01
2026-03-26 15:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
健康
亲子
房产
手机

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

转头就晕的耳石症,能开车上班吗?

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

无障碍浏览 进入关怀版