图像压缩领域有个长期矛盾:传统编解码器追求数学上的最小误差,人眼却常常觉得画面别扭;基于机器学习的方案虽然视觉效果更好,但动辄需要高端GPU才能流畅运行。一支研究团队最近发布的PICO(Perceptual Image Codec)试图同时解决这两个问题——它号称是第一个既实用、又直接针对人类视觉系统优化的学习型编解码器。
这项工作的核心是一轮大规模搜索。研究团队遍历了数百万种模型配置,在感知质量和设备端运行时间之间寻找平衡点。为了验证效果,他们组织了大规模主观用户测试,而非仅依赖PSNR等传统指标。结果显示,相比AV1、AV2、VVC、ECM和JPEG-AI这些主流标准,PICO能实现2.3到3倍的码率节省;与当前最优秀的学习型编解码器相比,也有20%到40%的优势。
![]()
真正让业界注意的是它的速度数据。在iPhone 17 Pro Max上,PICO编码一张1200万像素图像只需230毫秒,解码仅需150毫秒。这个速度甚至超过了多数顶级机器学习编解码器在英伟达V100 GPU上的表现。对于移动端应用而言,这意味着无需上传云端、无需专用芯片,就能获得高质量的图像压缩。
研究团队特别强调了"实用性"的完整定义。除了速度,PICO还提供了跨平台鲁棒性保证——这一点与大多数学习型编解码器形成对比。后者往往在特定硬件或软件环境下表现优异,换个平台就可能出现兼容性问题。PICO的设计显然瞄准了实际部署中的工程痛点。
论文作者来自多个机构,包括Kedar Tatwawadi、Parisa Rahimzadeh、Zhanghao Sun等人。这项工作已发布在arXiv平台,编号2605.05148。从研究路径来看,团队没有选择单一的技术突破点,而是通过系统性的配置搜索和用户研究,将"感知优化"从实验室概念转化为可量化的产品指标。
图像压缩的技术史,很大程度上是一部"人眼适配史"。从JPEG的有损取舍,到HEVC的块划分优化,标准制定者始终在数学效率与视觉体验之间寻找平衡。PICO的尝试表明,当机器学习足够轻量化、搜索空间足够大时,"直接优化人类感知"不再是理论上的奢侈选项。对于依赖海量图像传输的应用——从社交媒体到医学影像——230毫秒的本地编码时间,可能意味着延迟敏感场景的可用性质变。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.