网易首页 > 网易号 > 正文 申请入驻

香港大学团队突破:高效训练法实现AI模型压缩与性能兼得

0
分享至


这项由香港大学和抖音联合开展的突破性研究发表于2026年2月的预印本论文中,论文编号为arXiv:2602.04289v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能的世界里,训练语言模型就像是在教一个孩子学会理解和使用语言。传统的做法有点像这样:要么给孩子吃"压缩饼干"(经过特殊处理的简化文本),训练起来很快但会丢失一些细节;要么给孩子吃"原生态食物"(完整的原始文本),保留了所有营养但消化起来特别慢。香港大学的研究团队发现了一个巧妙的解决方案,让AI模型既能享受压缩训练的高效,又能在实际使用时保持对原始信息的完美理解。

这个发现为什么如此重要呢?当前几乎所有的语言AI系统都依赖于一种叫做"分词器"的工具,它把原始文本切分成更小的单元进行处理。这就像是用特殊的刀具把食材切成标准块状,虽然便于烹饪,但一旦选定了切法,整个烹饪过程都被这种切法所束缚。如果刀具有问题或者不适合某些食材,做出来的菜品质量就会受影响。更麻烦的是,这套切菜工具会带来各种意想不到的问题,比如对某些语言不友好,容易被恶意攻击利用,或者在处理边界情况时出现奇怪的行为。

研究团队提出的"代理压缩"方法就像是训练一个全能厨师。在学习阶段,这个厨师既练习使用切好的标准食材(压缩格式),也练习处理完整的原生食材(原始字节)。通过这种混合训练,厨师学会了在两种形式之间建立内在联系。等到真正做菜的时候,即使只给他原生食材,他也能凭借之前的训练经验做出美味佳肴。关键是,虽然90%的训练时间都在使用标准切块食材,但厨师在处理原生食材时的表现却出乎意料地优秀。

研究团队设计了一套精巧的训练流程。他们把训练数据分成两个流:一个是经过各种压缩处理的"快车道",另一个是保持原始状态的"慢车道"。在训练过程中,AI模型主要在快车道上学习,偶尔切换到慢车道体验一下原始数据的感觉。这种设计让模型在大脑中建立起两种数据格式之间的对应关系,就像学会了两种语言之间的翻译能力。

更令人惊喜的是,这种能力随着模型规模的增大而显著增强。小型模型在这种训练方式下表现平平,但大型模型却展现出了惊人的跨格式理解能力。在一些测试中,主要接受压缩数据训练的大型模型,在处理原始数据时的表现甚至能够匹敌甚至超越传统的专门针对分词数据训练的模型。这就像是一个主要练习简化版乐谱的音乐家,最终却能完美演奏复杂的原版作品。

研究团队还深入探索了什么样的压缩方法最适合做"代理"。他们测试了三种不同的压缩方式:传统的分词压缩、基于神经网络的智能压缩,以及常见的文件压缩工具gzip。结果发现,前两种方法效果卓越,而gzip却表现糟糕。这是因为好的代理压缩需要具备一种特质:相似的输入应该产生相似的输出,而且输出要保持语义的稳定性。传统分词和神经压缩都具备这种特质,而gzip的输出对微小变化过于敏感,就像一个神经质的翻译官,稍有风吹草动就完全改变翻译结果。

在实际应用测试中,研究团队使用了编程任务作为验证场景。结果显示,采用代理压缩训练的模型在各种编程挑战中都表现出色。更重要的是,这些模型继承了处理原始数据模型的一个宝贵特质:抗干扰能力强。当输入中包含格式变化、空格调整或其他细微修改时,传统的分词模型可能会出现性能大幅下降,而代理压缩训练的模型却能保持稳定的表现。

这项研究还揭示了一个有趣的现象:模型能够在上下文中进行"即时翻译"。当同时给模型提供压缩版本和原始版本的相同内容时,模型能够学会在两者之间建立精确的对应关系。在某些设置下,这种翻译准确率甚至能达到95%以上,几乎做到了完美转换。

从计算效率的角度来看,代理压缩实现了一种理想的平衡。在相同的计算资源下,它的表现接近传统的高效分词模型;而在相同的数据量下,它保持了原始字节模型的数据利用效率,同时显著超越了分词模型。这意味着研究人员不再需要在训练效率和模型能力之间做艰难抉择。

研究的技术实现也充满巧思。对于神经压缩方法,团队开发了一套基于信息熵的分段策略,能够并行处理大规模数据,将处理速度提升了100多倍。对于传统分词,他们探索了多种编码方式,最终发现直接使用分词索引是最优选择。整个训练过程使用特殊的标记符号来区分不同格式的数据,让模型能够清楚地知道当前处理的是哪种类型的信息。

在更大规模的实验中,研究团队使用了包含数TB代码数据的超大型语料库进行验证。即使在这种规模下,代理压缩的优势依然明显。经过更长时间训练的大型模型不仅保持了跨格式的优秀转换能力,还在实际编程任务中展现出与最先进的专业模型相匹敌的性能。

这项研究的意义远不止于技术突破。它为AI系统的设计开辟了新的思路:我们不必被单一的数据表示方法所束缚,而可以在训练阶段灵活运用多种格式,在部署阶段回归最自然、最通用的表示方式。这种思路可能会影响未来AI系统的整体架构设计。

当然,这项研究也有一些限制。目前的验证主要集中在代码生成领域,在其他类型的文本处理任务中是否同样有效还需要进一步验证。另外,虽然代理压缩在大型模型上效果显著,但对于资源受限的小型模型,如何优化这种训练方式还有待探索。

归根结底,香港大学团队的这项发现为AI语言模型的训练提供了一个全新的视角。他们证明了通过巧妙的训练策略,我们可以让AI模型获得比传统方法更强的适应性和鲁棒性,同时不牺牲训练效率。这种"既要又要"的完美平衡,为未来更加智能、更加通用的AI系统奠定了重要基础。对于AI研究领域来说,这不仅是一个技术进步,更是一种思维方式的革新,它告诉我们:有时候最好的解决方案不是在两个极端中选择一个,而是找到一种巧妙的方式把两者的优势结合起来。

Q&A

Q1:什么是代理压缩训练方法?

A:代理压缩是一种AI模型训练新方法,同时使用压缩数据和原始数据进行训练。训练时90%使用压缩数据(提高效率),10%使用原始字节数据,让模型学会两种格式之间的对应关系。最终部署时只使用原始字节,但保持了压缩训练的效率优势。

Q2:为什么代理压缩比传统分词方法更好?

A:传统分词方法会产生各种问题,如对某些语言不友好、容易被攻击、边界处理异常等。代理压缩训练的模型在推理时直接处理原始字节,避免了这些问题,同时保持了抗干扰能力强的特点,在格式变化时性能更稳定。

Q3:代理压缩适用于什么规模的AI模型?

A:研究显示代理压缩的效果随模型规模增大而显著提升。小型模型效果一般,但大型模型(如14B参数)表现优秀,甚至能匹敌传统分词模型。这是因为大型模型有更强的能力学习跨格式对应关系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

海外网
2026-02-04 15:03:52
为什么说中国今后制裁日本会变得越来越难?

为什么说中国今后制裁日本会变得越来越难?

南权先生
2026-02-06 15:45:15
日吹急了眼:谁也没想到蜜雪冰城的一句话,炸出来一大堆日本间谍

日吹急了眼:谁也没想到蜜雪冰城的一句话,炸出来一大堆日本间谍

墨兰史书
2025-12-21 16:40:08
50000点,大涨!见证历史!

50000点,大涨!见证历史!

中国基金报
2026-02-07 07:53:28
“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

妍妍教育日记
2026-02-07 16:26:32
广东3消息!萨林杰正式被裁,杜锋官宣高升,胡明轩做重要决定

广东3消息!萨林杰正式被裁,杜锋官宣高升,胡明轩做重要决定

多特体育说
2026-02-06 22:08:34
卡里克:合理范围内踢得享受是很重要的,球员正在展现出自信

卡里克:合理范围内踢得享受是很重要的,球员正在展现出自信

懂球帝
2026-02-08 00:23:28
70岁费玉清晚年生活曝光,与江蕙相伴无名分,日子平淡却满是温情

70岁费玉清晚年生活曝光,与江蕙相伴无名分,日子平淡却满是温情

复转这些年
2026-02-05 23:46:06
皇马主帅批巴萨:没人理解为何西足球史上最大丑闻至今悬而未决

皇马主帅批巴萨:没人理解为何西足球史上最大丑闻至今悬而未决

星耀国际足坛
2026-02-07 22:46:41
去了深圳才明白:我们维持的 “体面”,在深圳人眼里根本不存在

去了深圳才明白:我们维持的 “体面”,在深圳人眼里根本不存在

瓜哥的动物日记
2026-02-07 17:09:20
安徽一女子终身未婚,突然接到一个电话,说她在国外已是儿孙满堂

安徽一女子终身未婚,突然接到一个电话,说她在国外已是儿孙满堂

民间精选故事汇
2024-09-26 10:50:19
杨兰兰保镖身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

杨兰兰保镖身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麦少
2025-08-10 17:04:40
谢振轩与女伴在澳洲现身,笑容灿烂,继承父母优秀基因!

谢振轩与女伴在澳洲现身,笑容灿烂,继承父母优秀基因!

小小一米月儿
2026-02-07 01:10:06
上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

叮当当科技
2026-02-07 08:20:26
本届冬奥会金牌,“史上最贵”!

本届冬奥会金牌,“史上最贵”!

都市快报橙柿互动
2026-02-08 00:18:00
重磅!加征25%关税!33家钢厂停产!下周钢价咋走?

重磅!加征25%关税!33家钢厂停产!下周钢价咋走?

钢贸圈
2026-02-07 14:27:26
A股:紧急提醒2.5亿股民!从下周起,或许牛市历史总是惊人的相似

A股:紧急提醒2.5亿股民!从下周起,或许牛市历史总是惊人的相似

另子维爱读史
2026-02-07 18:16:01
解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

混沌录
2026-02-05 21:17:04
普京真急了,派两员大将访华不放心,突然会晤中方,有大事发生?

普京真急了,派两员大将访华不放心,突然会晤中方,有大事发生?

吕坾极限手工
2026-02-06 20:02:43
浓眉不满被交易至奇才?本人发声辟谣:说不定明年我们是东部第一

浓眉不满被交易至奇才?本人发声辟谣:说不定明年我们是东部第一

罗说NBA
2026-02-07 10:17:16
2026-02-08 01:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7179文章数 549关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

手机
教育
艺术
游戏
数码

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

教育要闻

大学生寒假归来,家长崩溃:儿子变成闺女了

艺术要闻

这些女性在俄罗斯摄影师镜头下,魅力四射!

速看!《宣誓》PS版大小66G 2月17号凌晨2点解锁

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

无障碍浏览 进入关怀版