网易首页 > 网易号 > 正文 申请入驻

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

0
分享至

新智元报道

编辑:LRST

【新智元导读】港中文、清华等高校提出SICOG框架,通过预训练、推理优化和后训练协同,引入自生成数据闭环和结构化感知推理机制,实现模型自我进化,为大模型发展提供新思路。

当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。

然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。

在NeurIPS 2024会议上,OpenAI联合创始人Ilya Sutskever明确指出:「Pre-training as we know it will end」, 这一判断是对传统预范式极限的清晰警示。

为延续性能提升,主流研究方向开始转向推理优化与后训练微调(如强化学习)。

然而,最新研究表明:此类改进极其依赖模型在预训练中所奠定的能力基础:如果模型在早期未能系统性地习得相关能力,后续优化就如同在沙地上建高楼——进展有限,风险颇高。

不同模型在「自我进化」能力上的表现也存在巨大差异,其实质仍是「题海战术」的延伸:缺乏方法论支撑的训练,难以应对真实世界中的复杂和变化。

面对这一瓶颈,大模型的未来路在何方?

微软研究院科学家 Shital Shah 在社交媒体上指出:合成数据synthetic data)或许是打破当前能力天花板的关键。

近日,港中文联合清华等高校提出:未来大模型性能的持续提升,需依赖「预训练、推理阶段的计算扩展、后训练优化」三者的深度协同。这一观点打破了传统依赖单一预训练路径的范式,为下一代多模态基础大模型(Foundation MLLMs)的构建提供了全新思路。

论文链接:https://arxiv.org/html/2503.12303v5

在此基础上,研究团队提出了创新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的进化路径。SICOG引入了独创的「链式描述」技术,通过五步渐进式视觉解析引擎,实现模型从显著内容捕捉到细粒度关联推理的全面感知跃升。

该框架同时采用了「结构化思维链」机制,有效增强模型对多模态信息的融合处理与复杂推理能力。更具突破性的是,SICOG通过自生成数据闭环+语义一致性筛选机制,使模型在零人工标注的条件下实现认知能力的持续进化,真正迈向高效、自主的学习范式。

SICOG的提出,不仅打破了当前模型在数据、算力与微调优化三者割裂发展的瓶颈,也为未来通用人工智能(AGI)模型的构建提供了可扩展、可迁移的新路径。

SICOG:三位一体协同框架,让模型学会「自我进化」

传统多模态大模型(MLLMs)依赖海量标注数据与静态预训练范式,面临数据稀缺与能力增长受限的双重瓶颈。为突破这一困境,本文提出全新框架SICOG(Self-Improving Systematic Cognition),首次构建了涵盖「后训练增强—推理优化—再预训练强化」三位一体自进化机制,重新定义了预训练边界,为下一代MLLMs注入动态认知与持续学习能力

SICOG的三阶段协同机制包括:

  1. 后训练增强利用少量高质量标注数据,提升模型的系统性认知与基础推理能力;

  2. 推理优化在大规模无标签多模态数据上进行自主推理,通过「自我一致性投票机制」筛选出高置信度答案,自动生成伪标签;

  3. 再预训练强化将筛选后的高质量伪标注数据反馈用于预训练,实现模型能力的持续进化。

SICOG的关键创新在于实现了模型的「学中实践、实践中进化」:从少量种子数据出发,模型通过「看图总结+解题推理」主动构建多任务样本,实现数据生成与学习闭环。无需大规模人工标注,即可高效扩展预训练数据,根本性缓解当前高质量多模态数据稀缺的问题。

描述链(Chain-of-Description, CoD)

让模型「看图像像人一样」

CoD(描述链)是一种结构化分步感知方法,使模型像侦探一样逐层观察图像,从主体到细节、从关系到背景,构建出完整、逻辑严密的图像理解过程。

以「一位女孩弹吉他」的图像为例,传统模型可能仅生成「女生在弹吉他」的粗略描述,而CoD会分为五个有序阶段,逐步深化理解:

  1. 提取主体内容:首先识别图像的核心语义元素,如:「一位红发女性坐在床上,怀中抱着一把木吉他」,确保模型对主要对象有清晰把握,为后续分析打下基础。

  2. 分析细节信息:进一步观察细节属性,如「吉他为浅色指板的经典木制款式,光线柔和,渲染出温暖氛围」,捕捉纹理、颜色、光影等低层信息,增强描述的丰富性与精度。

  3. 考虑关系属性:描述图像中元素之间的交互关系,如:「她坐在床上,笔记本放在小桌上,灯串和挂饰点缀背景」,强化对空间布局与语义结构的建模。

  4. 检查边缘/背景内容:不忽略次要信息,如:「房间内有梳妆台、墙面装饰等背景元素」,补充场景语义,完善整体理解。

  5. 整合为连贯描述:将上述观察统一组织为一段完整、逻辑清晰的自然语言描述。

通过CoD,模型能够逐步「构建图像语义结构」,实现从感知到理解的飞跃,显著提升图文对齐的质量与逻辑性。

结构化解题思路(Structured Chain-of-Thought, CoT)

让模型「解题像学霸一样」

CoT(结构化思维链)是一种任务驱动的推理框架,支持模型在面对复杂问题时进行分步推理、信息整合与因果判断,广泛应用于数学计算、逻辑问答、跨模态推理等任务。

例如,在一道几何题中,传统模型可能直接尝试「猜测答案」,而CoT的解题过程如下:

  1. 明确任务目标:识别问题类型,例如「求三角形某边的长度」。

  2. 提取关键信息:从图像中提取直角三角形、垂线、边长等必要条件。

  3. 逻辑推理分析:判断相似三角形关系,列出比例公式并代入数值。

  4. 总结计算得解:通过计算得出答案,例如「选项C」。

CoT让模型具备类人的「解题能力」,不仅能处理复杂的数理任务,还能支持跨模态因果推断,奠定模型认知系统化的基础。

能力全面跃升:SICOG的三大关键优势

借助CoD和CoT,SICOG不仅构建了结构化的感知与推理流程,更在训练范式上实现了根本性突破,具备以下三大核心优势:

  1. 显著降低对高质量数据的依赖:仅需少量种子数据即可启动,通过自生成数据循环优化,实现大规模多模态数据的「零标注」扩展。

  2. 实现动态认知进化:打破传统「一训定终身」的预训练模式,支持模型在使用过程中持续学习、能力不断升级,具备「终身学习」特征。

  3. 感知与推理一体优化:不再局限于感知能力的提升,SICOG在预训练阶段即融合「感知+推理」,模拟人类认知流程,使模型对图文、图问等复杂任务具备更强泛化与应变能力。


实验验证:SICOG实现模型能力全面提升

为了验证SICOG框架的有效性,研究在12个主流多模态评测集上进行了系统性评估,涵盖图表理解、数学推理、抗幻觉能力等多个关键维度。实验结果表明,SICOG能显著提升模型的综合表现,具体成果如下:

综合性能稳步提升

  • 在整体评测中,模型平均表现提升2%–4%

  • 尤其在依赖多步推理的任务中表现突出,如ScienceQA,展现出更强的逻辑推理与跨模态理解能力。

幻觉控制能力增强

  • POPE等抗幻觉评测中,模型错误率下降了1%–2%

自生成数据推动持续进化

  • 随着自生成数据量从11.8万条提升至21.3万条,模型性能持续上升,呈现出良好的扩展性与学习能力;

  • 表明SICOG的「自我进化机制」不仅可行,而且具备高度可扩展性。

超越主流预训练方法

  • SICOG在多个任务中表现甚至超过了主流的strong-to-weak distillation和multi-agent collaboration方法

实验还表明,基础模型性能越强,其在自我进化过程中的能力提升也越显著。例如,LLaVA-Qwen2-7B-UHD相较于LLaVA-Llama3.1-8B-UHD,性能提升幅度高出约50%。这表明:强大的基础能力不仅决定模型的初始表现,更显著增强其后续自学习与优化能力

这一现象类似于人类学习中的「马太效应」——「学霸更会自学」。具备更优初始结构与知识表示的模型,能够更高效地利用数据、激发潜力,在持续进化中取得更大进步。

研究进一步表明,基于合成数据的预训练显著提升了模型的基础认知能力,从而强化了后续微调效果。这一结果再次验证了:预训练、推理阶段的计算扩展与后训练优化三者之间存在高度协同关系。只有打通这三环节,才能实现模型能力的持续跃升与高效进化。

此外,研究发现,SICOG生成的合成数据同样遵循规模法则(scaling law):模型能力随着数据量的增加持续提升。这进一步证明了自生成数据在模型进化过程中的有效性与可扩展性。

研究人员提出了一种变体方法:在第一阶段的后训练增强中,以偏好学习(Preference Learning)替代传统的监督微调(SFT),以进一步强化模型的基础能力。

实验结果表明,偏好学习在提升模型泛化能力方面优于SFT,尤其在处理复杂任务时表现更为稳健。这一结果从实证层面验证了长期以来的观点:强化学习范式在特定任务中相较于监督微调更具优势

细粒度图像感知能力显著增强,在细节识别与关系属性捕捉方面表现出更高的准确性与鲁棒性。

多模态理解与推理能力显著提升

展望:预训练的新边疆——从静态训练到动态进化

SICOG通过构建一个涵盖「数据生成→模型训练→能力进化」的闭环体系,突破了传统预训练对高质量人工标注数据的依赖,展现出类人认知发展的潜力。该框架不仅实现了模型的自我学习与持续优化,也为迈向真正自主学习型智能体奠定了坚实基础。

在当前研究中,SICOG通过引入Chain-of-Description(CoD)并配合Chain-of-Thought(CoT)的推理机制,显著增强了多模态模型的感知与推理能力。然而,这一进展仍只是通向完全自主学习的起点。

未来,若能进一步引入环境反馈机制(如具身智能场景)与持续优化机制,模型将有望具备终身学习的能力,实现从「被动学习」向「主动成长」的跃迁。在与环境的持续交互中,模型不仅可以利用自身生成的数据进行自我优化,更能够主动识别知识盲区、动态调整学习策略,从而在复杂任务与多变环境中不断进化、持续提升。

参考资料:

https://arxiv.org/html/2503.12303v5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

观威海
2026-03-18 14:47:02
外交部:美方应在台湾问题上谨言慎行,停止炒作“中国威胁论”

外交部:美方应在台湾问题上谨言慎行,停止炒作“中国威胁论”

澎湃新闻
2026-03-19 15:32:26
白酒出厂价“下调" 中产家庭开始喝得起茅台了?

白酒出厂价“下调" 中产家庭开始喝得起茅台了?

每日经济新闻
2026-03-19 22:54:33
10球13助却留不住?巴萨买断拉什福德反转,曼联目标弗里克爱将

10球13助却留不住?巴萨买断拉什福德反转,曼联目标弗里克爱将

体坛鉴春秋
2026-03-19 12:13:56
网传“80后已走1100万”引恐慌?

网传“80后已走1100万”引恐慌?

华新社财经
2026-03-19 10:47:18
5300亿资金撤离被严查!国家重拳整治1.5万富豪移民,这次动真格

5300亿资金撤离被严查!国家重拳整治1.5万富豪移民,这次动真格

老特有话说
2026-03-19 17:15:40
24GB+1TB+9000mAh!新机官宣:3月18日,正式发布!

24GB+1TB+9000mAh!新机官宣:3月18日,正式发布!

科技堡垒
2026-03-18 11:41:32
40岁C罗没有特权!无缘葡萄牙大名单 主帅:先在俱乐部踢上球再说

40岁C罗没有特权!无缘葡萄牙大名单 主帅:先在俱乐部踢上球再说

风过乡
2026-03-19 08:07:33
全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

古史青云啊
2026-03-19 14:22:19
没有银行流水,纪委监委是怎么查到行贿受贿的?中国的反腐手段你可能根本想象不到…...

没有银行流水,纪委监委是怎么查到行贿受贿的?中国的反腐手段你可能根本想象不到…...

深度知局
2026-03-19 21:30:26
宅基地确权“父改子”,今年办最划算!有儿子的家庭别错过!

宅基地确权“父改子”,今年办最划算!有儿子的家庭别错过!

另子维爱读史
2026-03-17 22:07:26
椰树集团发布公告,要买50台机器人剥椰子:要求机器人一小时能剥360个椰子,易损件寿命不低于5000小时

椰树集团发布公告,要买50台机器人剥椰子:要求机器人一小时能剥360个椰子,易损件寿命不低于5000小时

大象新闻
2026-03-19 12:52:03
1-3,温瑞博爆冷输球,无缘2026世乒赛!世界杯成最后直通机会

1-3,温瑞博爆冷输球,无缘2026世乒赛!世界杯成最后直通机会

梅亭谈
2026-03-19 23:09:44
何穗分享在家带娃日常,一顿5菜一汤,产后体质变差脱发也很严重

何穗分享在家带娃日常,一顿5菜一汤,产后体质变差脱发也很严重

八怪娱
2026-03-19 09:20:17
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
姚安娜穿“浮光锦”走红毯,网友:3000个蚕茧织一米,1米一万多

姚安娜穿“浮光锦”走红毯,网友:3000个蚕茧织一米,1米一万多

丫头舫
2026-03-19 13:17:50
如果高铁不降价,那就等着运椅子(续篇)

如果高铁不降价,那就等着运椅子(续篇)

坠入二次元的海洋
2026-03-19 18:09:16
2099元!苹果又发布新品了,3月20日开售

2099元!苹果又发布新品了,3月20日开售

全是技能
2026-03-19 09:53:27
首次命中!美国一架F-35战斗机疑遭伊朗火力击中紧急降落

首次命中!美国一架F-35战斗机疑遭伊朗火力击中紧急降落

Nee看
2026-03-19 23:49:42
网红日料创始人道歉!广州太古汇店监控画面公开

网红日料创始人道歉!广州太古汇店监控画面公开

南方都市报
2026-03-19 17:11:06
2026-03-20 01:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14759文章数 66699关注度
往期回顾 全部

科技要闻

小米新一代SU7上市,售价21.99万

头条要闻

特朗普见高市提偷袭珍珠港:还有谁比日本更懂出其不意

头条要闻

特朗普见高市提偷袭珍珠港:还有谁比日本更懂出其不意

体育要闻

他们专卖“老头鞋”,却能签下19岁NBA未来门面?

娱乐要闻

胡歌初恋回应曝光书信 否认用爆料赚钱

财经要闻

伊朗战争会是"美国金融危机"导火索吗?

汽车要闻

不到10万还有激光雷达 零跑A10体验超预期

态度原创

手机
艺术
教育
游戏
公开课

手机要闻

苹果iOS 18部分版本被曝高危漏洞,用户访问网页就被入侵!

艺术要闻

50亿!抖音集团上海滨江中心,实景图完美还原效果图!

教育要闻

名单公示!祝贺这17名同学

《GTA6》价格定调了!CEO暗示70到80美元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版