用量子技术给大模型瘦身！让模型规模缩小一半仍保持强大性能|工作流

用量子技术给大模型瘦身！让模型规模缩小一半仍保持强大性能

2026-02-26 13:38:01　来源: DeepTech深科技

北京举报

分享至

大型语言模型（LLM）的“大”既是智慧的象征，也是落地的枷锁。模型规模越来越大，计算资源、内存占用、能耗和部署成本急剧上升，这让许多企业和开发者难以实际应用其前沿能力。

2 月 24 日，一家西班牙初创公司 Multiverse Computing 在 Hugging Face 平台免费开放其最新压缩模型 HyperNova 60B 2602 的完整访问权限。

这是这家公司过去发布多款开源压缩模型的延续，今年 1 月份，他们开放了基于 OpenAI 开源模型 gpt-oss-120B 的 50% 压缩版本，HyperNova 60B。这次又在工具调用和代理式工作流上实现显著迭代。他们试图用量子计算技术打破这一僵局，以“身量减半、性能不减”的姿态，向全球开发者展示了模型轻量化的新路径：无需巨额基础设施，即可调用接近前沿水平的 AI。

量子技术启发模型压缩：身量减半、性能不减

Multiverse Computing 成立于 2019 年，创始理念源于创始人恩里克·利萨索（Enrique Lizaso）与量子物理学家罗曼·奥鲁斯（Román Orús）的一次 WhatsApp 聊天，他们讨论了将量子技术应用于金融复杂问题的可能性，并迅速邀请营销专家阿方索·鲁比奥（Alfonso Rubio）和计算物理学家塞缪尔·穆格尔（Samuel Mugel）加入，还获得了西班牙巴斯克地区政府的支持孵化。

公司最初深耕于金融领域的量子计算软件开发，这种通过量子方法解决复杂优化问题的思路，之后也被逐步扩展到 AI 模型的“瘦身”领域。

现在，Multiverse Computing 已将自身定义为“量子启发 AI 模型压缩领域的领导者”。其专有技术 CompactifAI 正是这一路线的结晶。

（来源：Multiverse）

在传统压缩方法中，剪枝、蒸馏和低秩近似专注于减少网络中的有效神经元数量，量化的重点则放在了降低单个权重的数值精度，以在保持神经元数量不变的情况下减小模型尺寸。

CompactifAI 另辟蹊径，将量子计算中的张量网络（Tensor Networks）数学思路应用于神经网络分析与重组，关注模型的关联空间，仅保留信息最丰富的核心组件，从而实现更可控、更精细和更可解释的模型压缩。

Multiverse 的研究团队在 2024 年发表论文《CompactifAI：基于量子启发式张量网络的大型语言模型极致压缩》（CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks，arXiv:2401.14109），首次详细阐述了 CompactifAI 的工作原理和具体技术路径：

对模型的自注意力（Self-Attention, SA）层和多层感知机（MLP）层进行“张量化”（tensorizing），使用特定张量网络（Tensor Network）结构；通过控制键维度（bond dimension）精确截断模型中的相关性（correlations），从而大幅减少参数数量和内存占用；压缩后，通过多 GPU 分布式再训练（称为“healing”过程）恢复精度，确保模型在更小规模下仍保留高级推理能力。

测试显示，CompactifAI 最高可将模型体积减少 95%，精度损失仅控制在 2%~3% 以内。相比之下，行业标准的压缩技术在进行 50%~60% 的压缩时，精度却出现了 20%~30% 的大幅下降。

这一方法不仅显著降低训练和推理时间（训练时间可缩短 50%、推理时间缩短 25%），还极大减少了 GPU-CPU 数据传输开销，使其特别适合分布式训练场景。CompactifAI 可独立使用，也可与其他压缩技术结合，进一步放大效果。

HyperNova 60B 2602 是基于 OpenAI 开源模型 gpt-oss-120B 的 50% 压缩版本。原始模型大小约 61GB，新模型仅为 32GB，参数规模降至约 60B，同时大幅降低了内存占用和推理延迟。

相比 1 月份的初版 HyperNova 60B，本次更新聚焦于工具调用（tool calling）和代理式编码（agentic coding），这些正是推理成本较高的核心场景。

公司表示，更新版在真实开发者反馈基础上进行了针对性优化，相对于前版，其具体基准均有显著提升：代理工具使用能力（Tau2-Bench）提升 5 倍、代理编码与终端使用性能（Terminal Bench Hard）提升 2 倍，函数调用（BFCL v4）能力也是原来的 1.5 倍。

（来源：Multiverse）

整体而言，HyperNova 60B 2602 在工具调用能力上已经接近原始 120B 开源模型的水平，大小却只有原来的一半。这一成果验证了压缩技术在生产级 AI 部署中的可行性：开发者可在资源受限环境下实现前沿级代理工作流，同时无需承担巨额基础设施开销。

Hugging Face 模型页面进一步提供了完整基准、技术文档和集成指南，支持 8-bit 精度和 mxfp4 量化，适用于 vLLM 等高效推理框架。

欧洲主权 AI 的曙光

目前，Multiverse Computing 已在美国、加拿大及欧洲多地设立办公室，服务包括西班牙能源巨头伊维尔德罗拉电力公司（Iberdrola）、德国工业巨头博世（Bosch）以及加拿大银行等在内的 100 余家全球企业客户。

Multiverse 强调，HyperNova 系列专为真实世界部署设计，覆盖企业系统、研究机构、公共部门，以及边缘设备和终端级应用。通过开源策略，组织可在承诺大规模实施前轻松评估性能、安全性和运营适配性，只需最小化集成工作即可获得更高控制权和独立性。

2025 年，公司完成约 1.89 亿欧元（约合人民币）的 B 轮融资，西班牙技术转型局（SETT）等机构参与投资。据相关消息，公司正在今年 2 月推进新一轮约 5 亿欧元（约合人民币）的融资谈判，估值可能超过 15 亿欧元。考虑到 Multiverse 曾宣称可“在 AI 全栈提供主权解决方案”，这一增长势头或与欧洲对“非美科技替代方案”的迫切需求密切相关。

近期，公司还与西班牙东北部阿拉贡地区政府达成合作，进一步强化其在欧洲主权 AI 生态中的位置。

未来，这一压缩技术将大幅降低模型使用的准入门槛，开发者不再受海量 LLM 基础设施的制约，可自由测试、迭代和部署高级 AI；此外，还有望引发一场成本与能耗革命：用更低的算力、内存和功耗保留“智能”，实现更绿色、更经济的 AI。

最后，在 AI 竞争中已经不占优势地位的欧洲地区，压缩技术有望支持私有云、on-premise 或边缘部署，帮助欧洲及全球企业减少对外部巨头的依赖，保障数据安全与技术自主。

正如公司 CEO Enrique Lizaso Olmos 所言，“HyperNova 60B 2602 的推出展示了压缩作为迭代改进过程而非一次性优化的本质。每代压缩模型都推动高效 AI 的边界。”公司计划在 2026 年持续发布更多不同尺寸的开源压缩模型，进一步拓展从企业级到设备级的应用场景。

开发者现可访问以下链接免费试用：

HyperNova 60B 2602 模型页：https://huggingface.co/MultiverseComputingCAI/Hypernova-60B-2602

公司 Hugging Face 空间（含全部发布、基准与指南）：https://huggingface.co/MultiverseComputingCAI

参考资料：

https://techcrunch.com/2026/02/24/spanish-soonicorn-multiverse-computing-releases-free-compressed-ai-model/

https://multiversecomputing.com/resources/multiverse-computing-opens-full-access-to-hypernova-60b-2602-on-hugging-face

https://arxiv.org/abs/2401.14109

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.