手机230毫秒压缩1200万像素，图像编码进入"感知优先"时代|速度|视觉

手机230毫秒压缩1200万像素，图像编码进入"感知优先"时代

2026-05-25 00:40:00　来源: 固件更新中

北京举报

分享至

图像压缩领域有个长期矛盾：传统编解码器追求数学上的最小误差，人眼却常常觉得画面别扭；基于机器学习的方案虽然视觉效果更好，但动辄需要高端GPU才能流畅运行。一支研究团队最近发布的PICO（Perceptual Image Codec）试图同时解决这两个问题——它号称是第一个既实用、又直接针对人类视觉系统优化的学习型编解码器。

这项工作的核心是一轮大规模搜索。研究团队遍历了数百万种模型配置，在感知质量和设备端运行时间之间寻找平衡点。为了验证效果，他们组织了大规模主观用户测试，而非仅依赖PSNR等传统指标。结果显示，相比AV1、AV2、VVC、ECM和JPEG-AI这些主流标准，PICO能实现2.3到3倍的码率节省；与当前最优秀的学习型编解码器相比，也有20%到40%的优势。

真正让业界注意的是它的速度数据。在iPhone 17 Pro Max上，PICO编码一张1200万像素图像只需230毫秒，解码仅需150毫秒。这个速度甚至超过了多数顶级机器学习编解码器在英伟达V100 GPU上的表现。对于移动端应用而言，这意味着无需上传云端、无需专用芯片，就能获得高质量的图像压缩。

研究团队特别强调了"实用性"的完整定义。除了速度，PICO还提供了跨平台鲁棒性保证——这一点与大多数学习型编解码器形成对比。后者往往在特定硬件或软件环境下表现优异，换个平台就可能出现兼容性问题。PICO的设计显然瞄准了实际部署中的工程痛点。

论文作者来自多个机构，包括Kedar Tatwawadi、Parisa Rahimzadeh、Zhanghao Sun等人。这项工作已发布在arXiv平台，编号2605.05148。从研究路径来看，团队没有选择单一的技术突破点，而是通过系统性的配置搜索和用户研究，将"感知优化"从实验室概念转化为可量化的产品指标。

图像压缩的技术史，很大程度上是一部"人眼适配史"。从JPEG的有损取舍，到HEVC的块划分优化，标准制定者始终在数学效率与视觉体验之间寻找平衡。PICO的尝试表明，当机器学习足够轻量化、搜索空间足够大时，"直接优化人类感知"不再是理论上的奢侈选项。对于依赖海量图像传输的应用——从社交媒体到医学影像——230毫秒的本地编码时间，可能意味着延迟敏感场景的可用性质变。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.