六月的丹佛,计算机视觉圈子的年度聚会又要开幕了。6月3日到7日,科罗拉多会议中心会涌入全球的研究者,而苹果这次的身份不只是参会者——他们还是今年大会的赞助商。就在今天,苹果甩出了一份详尽的参与日程,把要讲的论文、要上台的人和要攒的活动全部提前亮了出来。
先说基本盘。IEEE/CVF计算机视觉与模式识别会议(CVPR)是计算机视觉领域最密集的成果交易所之一,今年苹果的准备显然不是“来逛逛”的水平。除了海报展位和口头报告这些常规动作,他们还安排了一个主题演讲、多场邀请报告,以及几场所谓的亲和活动(affinity events)——你可以理解成围绕特定兴趣或身份的社交局。论文列表一口气挂了十四个,有部分选题9to5Mac之前就扒过,现在算是正式亮相。
![]()
把这十四项研究按方向拆开看,大致能看出苹果在往哪几个坑位下铲子:
第一铲——多模态理解,尤其是音频和视频连在一起读。AMUSE这个工作直接搞了一个“智能体多说话人理解”的视听基准和对齐框架,名字里带着Agentic,意味着它不只是被动识别,而是要在多说话人场景里主动抓取和理解信息。另一个叫“从物体在哪到物体干嘛:多模态大语言模型的空间-功能智能基准”,这名字已经把意图说明白了——以前只问“杯子在哪”,现在要追问“杯子是用来喝水的”。这种从坐标感知到功能推理的转变,正是多模态模型从看见走向看懂的关键一步。还有一项SO-Bench,专门丈量多模态大语言模型的结构化输出能力,相当于不但看模型答得对不对,还要看它能不能按给定格式稳稳当当地输出。
第二铲——视觉理解的数据和特征工程。AToken试图做一个面向视觉的统一分词器,TrajTok则是在视频里学习轨迹令牌来提升视频理解,这两个都是打算在底层表示上动刀。Velox更硬核,直接搞4D几何和外观的表示学习,把三维空间加上时间维度一锅炖。还有一篇偏实用的,“实用学习图像压缩中什么才重要”,一看就是要给端侧设备找到压缩质量和算力之间的最佳甜点——果子家对设备端推理的执着藏都藏不住。
第三铲——生成式AI的视频和图像。STARFlow-V是个端到端的视频生成模型,基于归一化流,走的不是扩散模型那条路,技术选择本身就是一个信号。UniGen-1.5则是想通过强化学习里的奖励统合来同时提升图像生成和编辑,一箭双雕的路线。Pico-Banana-400K是一个大型文本引导图像编辑数据集,光看这个名字就透着一点“量大管饱”的架势,400K的数据量对于文本引导图像编辑来说是一剂扎实的燃料。
第四铲——偏社会价值的应用研究,手语占了重要位置。苹果这次专门拿出一项“用语言模型引导手语标注”的工作,试图让手语数据的标注不再完全依赖昂贵的人工。还有一项“长期运动嵌入的高效运动学生成”,可能和手语的动作生成也有交集。更值得注意的是,苹果的研究员Colin Lea会在生成式AI与手语工作坊(GenSign Workshop)上做主题演讲,时间定在六月3号和4号之间,紧接着还有三位苹果工程师在该工作坊做受邀报告。把CVPR这种顶会的工作坊资源倾斜到手语上,不是做慈善,是在给未来的无碍交互探路。
另外两个条目值得单独拎出来。DSO(直接操纵优化)瞄准的是偏差缓解,这类公平性研究在工业界论文里出现,通常意味着产品侧已经有了内压。VSAS-Bench则是一个视觉流助手的实时评估基准,用来给那些需要持续处理视频流的模型考级,这跟苹果生态里摄像头越来越多、需要实时视觉助手的场景完全对得上。
名单之外还有人事安排。苹果的研究员Hsin-Ping (Cindy) Huang和Maggie Xiao将代表公司出席女性计算机视觉(WiCV)导师晚宴。这种活动不是学术展示,而是学术族群的维系,越来越成为大厂在顶会上刷存在感的标准动作。
从这份日程表来看,苹果在CVPR上的打法已经不是零散投论文的阶段了。论文覆盖了从特征表示、多模态理解到生成模型、公平性修复的链条,外加手语、压缩这些与应用强绑定的选题。赞助身份保证展位和曝光,主题演讲和工作坊占据议程制高点,亲和活动照顾群体认同——一场大会的操作被整得明明白白。
当然,论文清单长不等于每条都能搅动领域。最终还得看六月丹佛现场的讨论和后续开源动作。对想看完整时间表的人,苹果已经给出了官方链接,可以直接去扒每一场报告的时间和地点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.