网易首页 > 网易号 > 正文 申请入驻

香港大学团队突破:高效训练法实现AI模型压缩与性能兼得

0
分享至

来源:市场资讯

(来源:科技行者)


这项由香港大学和抖音联合开展的突破性研究发表于2026年2月的预印本论文中,论文编号为arXiv:2602.04289v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能的世界里,训练语言模型就像是在教一个孩子学会理解和使用语言。传统的做法有点像这样:要么给孩子吃"压缩饼干"(经过特殊处理的简化文本),训练起来很快但会丢失一些细节;要么给孩子吃"原生态食物"(完整的原始文本),保留了所有营养但消化起来特别慢。香港大学的研究团队发现了一个巧妙的解决方案,让AI模型既能享受压缩训练的高效,又能在实际使用时保持对原始信息的完美理解。

这个发现为什么如此重要呢?当前几乎所有的语言AI系统都依赖于一种叫做"分词器"的工具,它把原始文本切分成更小的单元进行处理。这就像是用特殊的刀具把食材切成标准块状,虽然便于烹饪,但一旦选定了切法,整个烹饪过程都被这种切法所束缚。如果刀具有问题或者不适合某些食材,做出来的菜品质量就会受影响。更麻烦的是,这套切菜工具会带来各种意想不到的问题,比如对某些语言不友好,容易被恶意攻击利用,或者在处理边界情况时出现奇怪的行为。

研究团队提出的"代理压缩"方法就像是训练一个全能厨师。在学习阶段,这个厨师既练习使用切好的标准食材(压缩格式),也练习处理完整的原生食材(原始字节)。通过这种混合训练,厨师学会了在两种形式之间建立内在联系。等到真正做菜的时候,即使只给他原生食材,他也能凭借之前的训练经验做出美味佳肴。关键是,虽然90%的训练时间都在使用标准切块食材,但厨师在处理原生食材时的表现却出乎意料地优秀。

研究团队设计了一套精巧的训练流程。他们把训练数据分成两个流:一个是经过各种压缩处理的"快车道",另一个是保持原始状态的"慢车道"。在训练过程中,AI模型主要在快车道上学习,偶尔切换到慢车道体验一下原始数据的感觉。这种设计让模型在大脑中建立起两种数据格式之间的对应关系,就像学会了两种语言之间的翻译能力。

更令人惊喜的是,这种能力随着模型规模的增大而显著增强。小型模型在这种训练方式下表现平平,但大型模型却展现出了惊人的跨格式理解能力。在一些测试中,主要接受压缩数据训练的大型模型,在处理原始数据时的表现甚至能够匹敌甚至超越传统的专门针对分词数据训练的模型。这就像是一个主要练习简化版乐谱的音乐家,最终却能完美演奏复杂的原版作品。

研究团队还深入探索了什么样的压缩方法最适合做"代理"。他们测试了三种不同的压缩方式:传统的分词压缩、基于神经网络的智能压缩,以及常见的文件压缩工具gzip。结果发现,前两种方法效果卓越,而gzip却表现糟糕。这是因为好的代理压缩需要具备一种特质:相似的输入应该产生相似的输出,而且输出要保持语义的稳定性。传统分词和神经压缩都具备这种特质,而gzip的输出对微小变化过于敏感,就像一个神经质的翻译官,稍有风吹草动就完全改变翻译结果。

在实际应用测试中,研究团队使用了编程任务作为验证场景。结果显示,采用代理压缩训练的模型在各种编程挑战中都表现出色。更重要的是,这些模型继承了处理原始数据模型的一个宝贵特质:抗干扰能力强。当输入中包含格式变化、空格调整或其他细微修改时,传统的分词模型可能会出现性能大幅下降,而代理压缩训练的模型却能保持稳定的表现。

这项研究还揭示了一个有趣的现象:模型能够在上下文中进行"即时翻译"。当同时给模型提供压缩版本和原始版本的相同内容时,模型能够学会在两者之间建立精确的对应关系。在某些设置下,这种翻译准确率甚至能达到95%以上,几乎做到了完美转换。

从计算效率的角度来看,代理压缩实现了一种理想的平衡。在相同的计算资源下,它的表现接近传统的高效分词模型;而在相同的数据量下,它保持了原始字节模型的数据利用效率,同时显著超越了分词模型。这意味着研究人员不再需要在训练效率和模型能力之间做艰难抉择。

研究的技术实现也充满巧思。对于神经压缩方法,团队开发了一套基于信息熵的分段策略,能够并行处理大规模数据,将处理速度提升了100多倍。对于传统分词,他们探索了多种编码方式,最终发现直接使用分词索引是最优选择。整个训练过程使用特殊的标记符号来区分不同格式的数据,让模型能够清楚地知道当前处理的是哪种类型的信息。

在更大规模的实验中,研究团队使用了包含数TB代码数据的超大型语料库进行验证。即使在这种规模下,代理压缩的优势依然明显。经过更长时间训练的大型模型不仅保持了跨格式的优秀转换能力,还在实际编程任务中展现出与最先进的专业模型相匹敌的性能。

这项研究的意义远不止于技术突破。它为AI系统的设计开辟了新的思路:我们不必被单一的数据表示方法所束缚,而可以在训练阶段灵活运用多种格式,在部署阶段回归最自然、最通用的表示方式。这种思路可能会影响未来AI系统的整体架构设计。

当然,这项研究也有一些限制。目前的验证主要集中在代码生成领域,在其他类型的文本处理任务中是否同样有效还需要进一步验证。另外,虽然代理压缩在大型模型上效果显著,但对于资源受限的小型模型,如何优化这种训练方式还有待探索。

归根结底,香港大学团队的这项发现为AI语言模型的训练提供了一个全新的视角。他们证明了通过巧妙的训练策略,我们可以让AI模型获得比传统方法更强的适应性和鲁棒性,同时不牺牲训练效率。这种"既要又要"的完美平衡,为未来更加智能、更加通用的AI系统奠定了重要基础。对于AI研究领域来说,这不仅是一个技术进步,更是一种思维方式的革新,它告诉我们:有时候最好的解决方案不是在两个极端中选择一个,而是找到一种巧妙的方式把两者的优势结合起来。

Q&A

Q1:什么是代理压缩训练方法?

A:代理压缩是一种AI模型训练新方法,同时使用压缩数据和原始数据进行训练。训练时90%使用压缩数据(提高效率),10%使用原始字节数据,让模型学会两种格式之间的对应关系。最终部署时只使用原始字节,但保持了压缩训练的效率优势。

Q2:为什么代理压缩比传统分词方法更好?

A:传统分词方法会产生各种问题,如对某些语言不友好、容易被攻击、边界处理异常等。代理压缩训练的模型在推理时直接处理原始字节,避免了这些问题,同时保持了抗干扰能力强的特点,在格式变化时性能更稳定。

Q3:代理压缩适用于什么规模的AI模型?

A:研究显示代理压缩的效果随模型规模增大而显著提升。小型模型效果一般,但大型模型(如14B参数)表现优秀,甚至能匹敌传统分词模型。这是因为大型模型有更强的能力学习跨格式对应关系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一年巨亏150亿,彩电大王康佳把自己玩没了?

一年巨亏150亿,彩电大王康佳把自己玩没了?

蓝鲸新闻
2026-02-08 18:45:24
网友曝自己综合成绩第一考上央媒,岗位却被“空降关系户”顶替

网友曝自己综合成绩第一考上央媒,岗位却被“空降关系户”顶替

可达鸭面面观
2026-02-10 20:05:46
呼吁对中国搞个“广场协议” 法国又抽哪门子风?

呼吁对中国搞个“广场协议” 法国又抽哪门子风?

看看新闻Knews
2026-02-10 23:22:07
赖清德喊话大陆对话,提出两岸有三大共同敌人,国台办:有个前提

赖清德喊话大陆对话,提出两岸有三大共同敌人,国台办:有个前提

议纪史
2026-02-10 11:50:12
被大巴黎打傻,“瓜迪奥拉最钦佩的主教练”又下课了

被大巴黎打傻,“瓜迪奥拉最钦佩的主教练”又下课了

体坛周报
2026-02-11 10:21:13
国台办:赖清德媚日谄媚令人不齿

国台办:赖清德媚日谄媚令人不齿

环球网资讯
2026-02-11 10:38:05
垃圾不够烧?真相可能打脸了

垃圾不够烧?真相可能打脸了

大道微言
2026-02-10 19:40:32
1977年我国推行的二简字,为何半年不到就夭折,背后有何原因?

1977年我国推行的二简字,为何半年不到就夭折,背后有何原因?

长风文史
2026-02-09 21:21:53
人大代表怒批!智慧停车变“拦路抢劫”,商户快被拖垮了

人大代表怒批!智慧停车变“拦路抢劫”,商户快被拖垮了

老特有话说
2026-02-08 23:35:03
突发!中国国防部强硬表态!

突发!中国国防部强硬表态!

达文西看世界
2026-02-11 10:46:54
半年巨亏超1500亿,车圈“恒大”真的来了?

半年巨亏超1500亿,车圈“恒大”真的来了?

蒋东文
2026-02-10 22:01:48
西安一景区现“旋转真马”,6匹马被固定并反复转圈,遭质疑“虐待动物”;景区回应:速度很慢,已暂停该项目

西安一景区现“旋转真马”,6匹马被固定并反复转圈,遭质疑“虐待动物”;景区回应:速度很慢,已暂停该项目

极目新闻
2026-02-10 20:42:53
炸了!克洛普执教皇马死条件:赶走贝林厄姆,必签 4 人

炸了!克洛普执教皇马死条件:赶走贝林厄姆,必签 4 人

奶盖熊本熊
2026-02-11 02:10:50
香港房东彻底哑火了?李亚鹏和嫣然天使不仅能还上房租还要搬走了

香港房东彻底哑火了?李亚鹏和嫣然天使不仅能还上房租还要搬走了

安宁007
2026-02-10 23:05:12
谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

魔都姐姐杂谈
2026-02-10 14:37:35
李谷一确认缺席2026年央视春晚!本人回应:身体状态不大好,实在无法登台,真的很对不起

李谷一确认缺席2026年央视春晚!本人回应:身体状态不大好,实在无法登台,真的很对不起

每日经济新闻
2026-02-11 00:32:35
父死子继!

父死子继!

求实处
2026-02-10 22:27:25
我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

黯泉
2026-02-10 22:00:47
汪峰吃惊!46岁章子怡年前6天高调官宣喜讯

汪峰吃惊!46岁章子怡年前6天高调官宣喜讯

荒野老五
2026-02-11 09:14:24
江苏13市2025年成绩单:南京接近2万亿,扬州盐城突破8000亿

江苏13市2025年成绩单:南京接近2万亿,扬州盐城突破8000亿

生活新鲜市
2026-02-10 20:10:53
2026-02-11 12:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2176031文章数 5435关注度
往期回顾 全部

科技要闻

中芯国际去年营收673亿元 净利50亿增长36%

头条要闻

媒体:俄外长突然放下狠话 令人感觉到一阵阵寒意

头条要闻

媒体:俄外长突然放下狠话 令人感觉到一阵阵寒意

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

新款阿维塔12内饰官图:全面升级 兼顾智能与豪华

态度原创

艺术
数码
健康
公开课
军事航空

艺术要闻

楷书进步缓慢的原因是什么?

数码要闻

截胡Zen 6:开源固件openSIL提前登陆Zen 5主板

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版