网易首页 > 网易号 > 正文 申请入驻

微软亚研院突破:过时大语言模型性能重生

0
分享至


来自微软亚洲研究院、中国科学技术大学、上海交通大学和厦门大学的研究团队在2025年10月发布了一项重要研究成果。这项研究发表在预印本平台上,论文编号为arXiv:2510.08008v1,由王瑞哲、丁语城、刘潇、王尧翔、程鹏、郭百宁、查正军和龚业逸等研究者共同完成。

在人工智能快速发展的今天,训练一个强大的大语言模型就像建造一座摩天大楼,需要消耗巨额成本和漫长时间。现在,人们普遍认为模型越大越好,训练数据越多越强,但这样的"军备竞赛"让许多研究机构和公司望而却步。更令人头疼的是,在这个过程中会产生大量"半成品"模型——它们可能只训练了一半,或者规模较小,通常会被直接丢弃,就像建筑工地上被浪费的材料一样。

研究团队敏锐地察觉到这个问题:为什么不能把这些"半成品"模型重新利用起来呢?他们提出了一个令人兴奋的想法——就像给一栋已建好的房子加盖楼层和扩建房间一样,为现有的模型"扩容升级",而不是推倒重建。这种方法不仅能节省大量计算资源,还能让那些被遗忘的模型重新焕发生机。

研究团队专门针对一种叫做"专家混合"架构的模型进行了深入研究。这种模型就像一个拥有多位专家的智囊团,每个专家都有自己的专长领域。当遇到不同类型的问题时,模型会智能地选择最合适的专家来处理。研究者发现了两个关键的"扩容"方向:一是增加模型的"深度",就像给大楼加盖更多楼层;二是增加"宽度",即添加更多专家,就像扩建更多房间。

在深度扩展方面,以往的研究通常采用"叠加"方法,就像简单地把几个相同的模块堆叠在一起。但研究团队发现,对于已经训练成熟的模型,这种方法并不理想。他们创新性地提出了"插入式"方法,这就像在建筑中精心设计每一层的位置和功能,而不是简单堆砌。通过分析多个成熟模型的内部结构,研究者发现这些模型的各层都有着独特的"个性"——前面的层比较"活跃",中间的层逐渐"成熟",最后的层稍显"内敛"。插入式方法能够更好地保持这种自然形成的层次结构特征。

在宽度扩展方面,研究团队发现了一个有趣现象:当向模型中添加新专家时,如果直接复制现有专家,新专家往往会变得"懒惰",不愿意学习新技能。为了解决这个问题,研究者采用了一个巧妙的策略——在复制专家时添加少量"噪音",就像给新员工分配稍微不同的工作内容,这样能够激励他们发展自己的专业特长。这种方法确保了新增的专家能够真正发挥作用,而不是成为冗余的"摆设"。

研究团队进行了大量实验来验证他们的想法。他们首先用一个30亿参数的模型进行了初步测试,将其扩展到60亿参数。结果显示,插入式深度扩展方法明显优于传统的叠加方法,在各种任务上都表现出更好的性能。随后,他们进行了更加雄心勃勃的大规模实验,将一个170亿参数的模型逐步扩展到700亿参数,使用了超过1万亿个训练样本。

这个大规模实验的过程就像给一座17层的大楼改造成70层的摩天大厦。研究团队首先将模型从28层扩展到54层,参数量从170亿增加到350亿。在这个中间阶段训练了一段时间后,他们又增加了专家数量,从96个专家扩展到192个,最终达到700亿参数的规模。整个过程循序渐进,每一步都经过精心设计和验证。

实验结果令人振奋。在相同的额外计算预算下,使用模型扩展方法训练出的700亿参数模型比从零开始训练的同规模模型表现提升了10.66%。这个数字背后的意义重大:意味着研究团队找到了一种更加高效的模型训练方式,能够在有限的计算资源下获得更强的性能。

研究团队还深入探讨了一个关键问题:什么时候进行模型扩展最合适?通过系统性实验,他们发现了一个重要规律——投入的"沉没成本"越多,最终的效果越好。这里的沉没成本指的是在原始小模型上已经花费的训练计算量。这个发现证实了一个直观的想法:基础越扎实,改造后的建筑越稳固。

在探索最佳扩展时机时,研究者发现即使是已经完全训练收敛的模型,仍然可以通过扩展获得显著提升。这就像一栋已经建好的房子,通过合理的改造扩建,仍然能够大幅提升其价值和功能。实验显示,从训练后期的检查点开始扩展,虽然分配给后续训练的资源较少,但仍能获得与从头训练相当甚至更好的效果。

研究团队的方法在实际应用中展现了强大的可扩展性。他们证明了这种技术不仅适用于小规模模型,也能够成功应用于大规模工业级模型。从30亿参数到700亿参数的跨越,证明了这种方法的广泛适用性和实用价值。

这项研究的意义不仅仅在于技术层面的突破,更在于为整个AI行业提供了一种新的发展思路。在当前大模型训练成本越来越高的背景下,如何更有效地利用已有的计算投入成为了一个迫切需要解决的问题。研究团队的工作为这个问题提供了一个优雅的解决方案。

从环境保护的角度来看,这种方法也具有重要意义。训练大语言模型需要消耗大量电力,产生相当的碳排放。通过重复利用已有的模型检查点,可以显著减少总体的计算需求,从而降低环境影响。这种"循环利用"的理念符合可持续发展的要求。

研究团队在论文中详细记录了实验的各个细节,包括模型架构设计、训练超参数设置、数据集构成等。他们使用了包括常识推理、阅读理解、科学问答等多个评测任务来全面评估模型性能。这种全面而严谨的评估方式确保了研究结果的可靠性和说服力。

值得注意的是,这种模型扩展方法对于不同类型的模型架构表现出了不同的适应性。研究者发现,对于使用预标准化结构的现代模型,扩展后的性能降低较小,而对于使用后标准化结构的传统模型,可能会出现较明显的性能波动。这个发现为未来的模型设计提供了重要参考。

在具体的技术实现上,研究团队采用了多种优化策略来确保扩展过程的稳定性。他们使用了梯度裁剪、学习率调度、混合精度训练等技术来维持训练的稳定性。同时,他们还采用了分布式训练技术来处理大规模模型的计算需求。

研究团队的工作还揭示了一个有趣的现象:模型的内部结构在训练过程中会形成特定的模式。通过分析不同层的权重分布,他们发现成熟模型的各层呈现出独特的"指纹"特征。这种发现不仅有助于理解模型的工作机制,也为未来的模型设计和优化提供了新的思路。

说到底,这项研究为AI领域带来了一个全新的视角:不再只是追求从零开始训练更大的模型,而是学会聪明地利用已有的成果。就像城市规划中的旧城改造一样,通过精心设计和巧妙改造,老建筑也能焕发新的生机。这种思路不仅经济高效,还能让整个AI发展更加可持续。

对于普通人来说,这项研究意味着未来的AI服务可能会变得更加便宜和普及。当训练成本降低时,更多的公司和研究机构就能够负担得起先进的AI技术,从而推动整个行业的创新和发展。归根结底,这项技术突破让我们看到了一条通往更强AI的高效道路,不需要无限制地烧钱,而是通过聪明的策略实现技术进步。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.08008v1查询完整的研究论文。

Q&A

Q1:模型扩展方法具体是怎么工作的?

A:模型扩展方法就像给建筑物进行改造升级。对于深度扩展,研究团队采用"插入式"方法,在现有模型的各层之间精确插入新层,而不是简单堆叠,这样能保持模型原有的层次结构特征。对于宽度扩展,他们向专家混合模型中添加新专家,并在复制时加入少量噪音,确保新专家能学会不同的专业技能。

Q2:这种方法能节省多少训练成本?

A:研究实验显示,在相同的额外计算预算下,使用模型扩展方法的效果比从零开始训练提升了10.66%。更重要的是,这种方法能够重复利用那些原本会被丢弃的"半成品"模型,将已投入的计算资源转化为最终模型的性能优势,从而显著降低总体训练成本。

Q3:什么时候使用模型扩展方法效果最好?

A:研究发现,投入的"沉没成本"越多,扩展后的效果越好。即使是已经完全训练收敛的模型,仍然可以通过扩展获得显著提升。不过最佳时机是在模型训练的稳定期进行扩展,避免在学习率剧烈变化的阶段操作,这样能确保扩展过程更加平稳有效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州取消灵隐寺门票背后:一场蓄谋已久的文旅经济变革

杭州取消灵隐寺门票背后:一场蓄谋已久的文旅经济变革

双色球的方向舵
2025-11-20 04:31:31
别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

别再争议广东模特冠军了,辟谣了是太太组冠军,实际冠军另有其人

乡野小珥
2025-11-20 05:32:37
8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

8-0,塞内加尔踢疯,33岁马内戴帽,24岁拜仁悍将雅克松梅开二度

凌空倒钩
2025-11-19 07:03:19
翁帆已把杨振宁居住的别墅归还!门口外布满落叶,略显冷清

翁帆已把杨振宁居住的别墅归还!门口外布满落叶,略显冷清

金牌娱乐
2025-11-19 10:46:58
内蒙古自治区乌海市人大常委会主任冯雪涛接受审查调查

内蒙古自治区乌海市人大常委会主任冯雪涛接受审查调查

界面新闻
2025-11-19 16:33:23
今日十月初一寒衣节,牢记:1不说,2不做,3不理,4不留,5要吃

今日十月初一寒衣节,牢记:1不说,2不做,3不理,4不留,5要吃

小茉莉美食记
2025-11-20 00:45:02
号外!号外!多国宣布放弃购买美国波音公司的E-7“楔尾”预警机

号外!号外!多国宣布放弃购买美国波音公司的E-7“楔尾”预警机

百态人间
2025-11-18 17:01:34
心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

可达鸭面面观
2025-10-11 15:09:06
蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

混沌录
2025-10-26 16:11:11
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
瑜伽裤玩出微喇新花样,舒适与时尚并存,小姐姐小麦色皮肤很耐看

瑜伽裤玩出微喇新花样,舒适与时尚并存,小姐姐小麦色皮肤很耐看

小乔古装汉服
2025-11-16 11:05:36
为什么古代中国不要温暖湿润的东南亚,反而死磕沙漠遍地的西域?

为什么古代中国不要温暖湿润的东南亚,反而死磕沙漠遍地的西域?

通文知史
2025-11-18 20:35:03
斯诺克战报!墨菲开门红,4-0过关会师奥沙利文,丁俊晖登场!

斯诺克战报!墨菲开门红,4-0过关会师奥沙利文,丁俊晖登场!

刘姚尧的文字城堡
2025-11-20 00:23:39
朱炳文已任山西省公安厅党委副书记、主持日常工作的副厅长

朱炳文已任山西省公安厅党委副书记、主持日常工作的副厅长

澎湃新闻
2025-11-19 14:48:27
当我们在讨论西安供暖时,我们是否忽略了锅炉内的“水”?

当我们在讨论西安供暖时,我们是否忽略了锅炉内的“水”?

水质检测仪器
2025-11-19 16:34:46
马特乌斯:我和马拉多纳就像梅西和C罗,但我们场外相处更多

马特乌斯:我和马拉多纳就像梅西和C罗,但我们场外相处更多

懂球帝
2025-11-20 06:29:03
香港失业率冲上3.9%,超15万人失业,未来前景堪忧

香港失业率冲上3.9%,超15万人失业,未来前景堪忧

麦小柒
2025-11-17 15:28:17
好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

蛙蛙和洼
2025-11-08 10:01:55
七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

霹雳炮
2025-11-18 22:37:15
王菲女儿与陈奕迅女儿、甄子丹女儿合影,网友:仨人长的都像妈妈

王菲女儿与陈奕迅女儿、甄子丹女儿合影,网友:仨人长的都像妈妈

小咪侃娱圈
2025-11-18 11:35:27
2025-11-20 06:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6279文章数 542关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

手机
艺术
旅游
家居
房产

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

艺术要闻

周恩来夫妇珍贵合影集,太难得一见!

旅游要闻

金槐染晋南!六百年移民史诗,洪洞大槐树藏着亿万人的根!

家居要闻

水岸美学 书香人文生活

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

无障碍浏览 进入关怀版