网易首页 > 网易号 > 正文 申请入驻

独立研究员打造"神经压缩机":135M参数模型让文件压缩率突破极限

0
分享至


当我们在电脑上压缩文件时,通常会用到WinRAR、7-Zip这样的软件。这些工具已经非常成熟,但压缩效果似乎遇到了瓶颈。现在,一位独立研究员Roberto Tacconelli开发出了一种全新的压缩技术——Nacrith,它就像给传统压缩软件装上了"人工智能大脑",能够实现前所未有的压缩效果。这项研究于2026年2月发表在arXiv预印本服务器上,论文编号为arXiv:2602.19626v1。

要理解Nacrith的革命性意义,我们不妨把文件压缩想象成"猜词游戏"。传统压缩软件就像一个只会记忆简单规律的机械助手,它能发现文件中重复出现的字节序列,然后用更短的代码来代替这些重复内容。这种方法虽然有效,但面对复杂的文本内容时就显得力不从心了。

而Nacrith则完全不同,它更像一位博学的语言学家。这个系统使用了一个名为SmolLM2-135M的语言模型作为核心"大脑",这个模型虽然只有1.35亿个参数,体积约500MB,但它具备了对语言的深层理解能力。当Nacrith看到一段文本时,它不仅能识别表面的重复模式,更能理解语法结构、语义关系,甚至预测接下来可能出现的词汇。

Nacrith的工作原理可以比作一个经验丰富的小说家在续写故事。当这位小说家读到"昨天晚上月亮很"这几个字时,他很可能会预测下一个词是"圆"、"亮"或"美"。如果下一个词确实是"圆",那么这个信息就变得"不太惊讶",因此可以用更少的比特来编码。相反,如果下一个词是"方",那就很意外,需要更多比特来编码。这种基于预测的压缩方法是Nacrith的核心理念。

但仅仅依靠语言模型还不够,Nacrith还引入了多项技术创新来进一步提升压缩效果。首先是"高精度CDF编码"技术。在传统的算术编码中,由于精度限制,大量的编码空间被浪费在了"最小概率保障"上。就好比一个只有16个格子的抽屉,为了确保每件物品都有地方放,先得给每件物品预留一个格子,结果真正用来存放物品的空间所剩无几。Nacrith将这个"抽屉"扩大到1600万个格子,几乎消除了空间浪费,直接提升了压缩效率。

除了主要的语言模型,Nacrith还配备了一个轻量级的"助手"——N-gram模型。这个助手就像一个专门记忆局部模式的小帮手,它能快速识别文档中经常出现的词语组合。当遇到非常容易预测的内容时,系统会跳过复杂的语言模型计算,直接使用这个小助手的预测结果,既提高了速度又保持了准确性。

为了让不同的预测器协同工作,Nacrith采用了"自适应上下文混合"技术。这就像一个智能的投票系统,会根据每个预测器在当前文档上的表现动态调整它们的发言权重。如果语言模型在某个文档上表现出色,系统就会更多地采纳它的意见;如果N-gram模型在某些局部区域更准确,系统就会临时提高它的权重。

Nacrith还具备"学习能力"。通过一个名为"自适应对数空间偏置头"的组件,系统能够在压缩过程中不断学习和纠正自己的预测偏差。比如,如果系统发现在某个特定文档中总是低估某些词的出现概率,它就会逐步调整自己的判断,变得越来越准确。

在实际测试中,Nacrith的表现确实令人瞩目。在经典的alice29.txt测试文件上(这是一个152KB的《爱丽丝漫游仙境》文本片段),Nacrith将文件压缩到了17,458字节,压缩率达到88.5%,即0.918比特每字节。相比之下,传统的gzip工具只能达到35.6%的压缩率,连业界知名的CMIX压缩器也只能达到79.6%的压缩率。更令人印象深刻的是,在100MB的Wikipedia数据集上,Nacrith同样表现优异,压缩率达到88.26%。

值得注意的是,Nacrith的压缩效果甚至超越了基于字节级统计的理论极限。传统信息论认为,基于二元、三元字节统计的压缩极限分别是4.57、3.42和2.49比特每字节,而Nacrith的0.918比特每字节远低于这些数值。这并不违反信息论原理,而是说明了神经语言模型能够捕捉到远比简单字节统计更复杂的语言结构和规律。

为了验证这种优势不仅仅来自于"记忆"训练数据,研究者还在语言模型训练截止日期之后发布的政府报告上进行了测试。结果显示,Nacrith在这个"完全未见过"的文档上仍然取得了0.723比特每字节的出色表现,证明了其真正的泛化能力。

Nacrith的另一个突破是实现了对任意二进制文件的处理。以往的神经压缩系统只能处理纯文本,而Nacrith通过NC06混合格式,能够智能地将二进制文件分割成文本区域和非文本区域,对文本部分使用神经压缩,对二进制部分使用传统压缩算法,从而扩大了应用范围。

在工程实现上,Nacrith也做出了多项优化。通过使用llama.cpp作为推理引擎替代PyTorch,单个词元的解码速度提升了约7倍。通过原生KV缓存滑动窗口技术,上下文窗口更新的成本降低了37倍。系统还支持多GPU并行压缩,能够自动根据可用显存调整工作线程数量,在消费级GPU上也能获得良好的性能。

整个系统的硬件要求相当亲民。在一块GTX 1050 Ti显卡上(这款显卡发布于2016年,现在已经算是入门级别),Nacrith每个工作实例仅需约1.2GB显存,4GB显存的显卡可以运行3个并行实例,达到60-90词元每秒的处理速度。虽然这个速度比传统压缩软件慢很多,但考虑到压缩效果的巨大提升,这个权衡是值得的。

通过详细的消融实验,研究者发现各个组件的贡献程度不尽相同。高精度CDF编码贡献了最大的性能提升(约28%),其次是基于置信度的LLM跳过机制配合N-gram模型(约30%),而自适应偏置头则提供了小但稳定的改进(约1.1%)。

有趣的是,实验还揭示了系统内部的工作机制与最初设计有所不同。上下文混合器在经过短暂的预热期后,几乎完全依赖主要的语言模型,因为1.35亿参数的模型在复杂内容上始终优于简单的统计模型。而N-gram模型主要通过"跳过"机制发挥作用——在高度可预测的内容上完全绕过语言模型计算,实现了"简单问题简单处理,复杂问题精细处理"的智能分工。

从更广阔的视角来看,Nacrith代表了数据压缩领域的一个重要发展方向。它证明了神经网络的语言理解能力可以转化为实际的压缩优势,而且这种优势在相对较小的模型上就能体现出来。这为未来的压缩技术发展指明了方向:不是简单地追求更大的模型,而是要巧妙地结合不同技术的优势,在效果和效率之间找到最佳平衡点。

当然,Nacrith也有其局限性。压缩速度相比传统方法仍然较慢,主要适用于对压缩率要求极高的归档场景。模型文件需要在压缩和解压缩端都存在,增加了部署复杂度。而且由于使用了预训练的英语模型,对其他语言的压缩效果可能不如英语理想。

尽管如此,Nacrith的出现标志着数据压缩技术迈入了一个新的阶段。它不仅在技术上取得了突破,更重要的是为这个看似已经成熟的领域注入了新的活力。正如Shannon在1948年建立的信息论基础一样,神经网络与数据压缩的结合可能会开启下一个数据处理技术的黄金时代。

Q&A

Q1:Nacrith压缩软件的压缩效果到底有多好?

A:在经典测试文件alice29.txt上,Nacrith能将152KB文件压缩到17KB,压缩率达到88.5%,远超传统gzip的35.6%和知名CMIX的79.6%。在100MB维基百科数据上也达到了88.26%的压缩率,表现非常出色。

Q2:普通用户能使用Nacrith压缩软件吗?

A:可以,但有一定门槛。Nacrith已开源,普通用户可以免费使用,但需要具备独立显卡(如GTX 1050 Ti以上)和一定的技术基础。压缩速度较慢,主要适合对压缩率要求很高的归档场景。

Q3:Nacrith为什么比传统压缩软件效果好这么多?

A:传统压缩软件只能识别简单的重复模式,而Nacrith使用了1.35亿参数的语言模型,能理解语法、语义,准确预测下一个词汇的概率。还采用了高精度编码技术和多模型协作机制,大幅提升了压缩效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,开盘大跌!

刚刚,开盘大跌!

新浪财经
2026-03-02 09:22:36
巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

安珈使者啊
2026-03-02 16:58:54
突发!薛之谦被实名举报了

突发!薛之谦被实名举报了

李东阳朋友圈
2026-03-02 22:47:02
内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

财联社
2026-03-01 03:39:04
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
都被史记骗了!春秋战国打仗有50万大军,明清凑15万兵力都费劲?

都被史记骗了!春秋战国打仗有50万大军,明清凑15万兵力都费劲?

老达子
2026-03-02 06:40:03
老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

史海孤雁
2026-01-30 16:20:15
春节过后,超市里卖不完的礼品都去哪儿了?超市员工说出真相

春节过后,超市里卖不完的礼品都去哪儿了?超市员工说出真相

妙招酷
2026-03-03 00:08:15
五角大楼终于说了大实话!不到24小时,赖清德喊话大陆,太罕见了

五角大楼终于说了大实话!不到24小时,赖清德喊话大陆,太罕见了

议纪史
2026-03-01 22:05:03
郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

乡野小珥
2026-03-01 12:47:37
人每隔七年,就会变成另外一个人

人每隔七年,就会变成另外一个人

尚曦读史
2026-02-16 09:52:35
俄乌战争惊现三大逆转!2026年决战时刻已到,中国必须警惕!

俄乌战争惊现三大逆转!2026年决战时刻已到,中国必须警惕!

汉唐智库
2026-03-03 00:07:39
15.18万起!丰田官宣:新车首次降价

15.18万起!丰田官宣:新车首次降价

高科技爱好者
2026-03-02 23:12:48
弗里茨称德约阿卡有赛程特权遭西班牙记者回怼,美国名将愤怒回应

弗里茨称德约阿卡有赛程特权遭西班牙记者回怼,美国名将愤怒回应

网球之家
2026-03-01 23:27:09
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
以色列TA-35股指上涨超过3%

以色列TA-35股指上涨超过3%

每日经济新闻
2026-03-02 16:28:04
汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

萱小蕾o
2026-03-02 13:31:09
伊朗前总统内贾德的死亡消息被其家属否认

伊朗前总统内贾德的死亡消息被其家属否认

财联社
2026-03-02 13:25:39
英法德:准备“从源头摧毁”伊朗军事能力

英法德:准备“从源头摧毁”伊朗军事能力

参考消息
2026-03-02 13:10:34
内存价格创下历史记录 手机涨价潮最快一周内“杀到”

内存价格创下历史记录 手机涨价潮最快一周内“杀到”

第一财经资讯
2026-03-02 10:50:48
2026-03-03 00:47:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7408文章数 553关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

时尚
艺术
房产
本地
公开课

今年春天一定要拥有的4件衣服,太好看了!

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版