网易首页 > 网易号 > 正文 申请入驻

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

0
分享至


机器之心报道

机器之心编辑部

Q-Insight不再简单地让模型拟合人眼打分,而是将评分视作一种引导信号,促使模型深度思考图像质量的本质原因。有了会思考的“大脑”,视频云技术栈不仅得以重塑也让用户体验有了跃迁。

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美?人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。

视觉革命,呼唤新的画质「评估师」

作为人们日常内容消费的核心载体,音视频在过去几十年间经历了从低分辨率、有限色彩到超高清沉浸体验的技术跃迁。这场视觉革命的背后,音视频相关技术始终是其中的技术支柱,支撑着内容从生产、处理、编码、传输到消费的全链路运作。

随着生成式人工智能与多模态大模型的发展,用户视频体验有了深刻变革。

首先,内容生产将从 UGC/PGC 发展到 AIGC,伴随视频生成模型与智能工具的普及,极大的降低了视频生产的门槛。同时,AIGC 也推动「音视频」成为新的「通用」语言,为用户提供了更多元、更生动的交流方式。

其次,得益于 AI 的深度学习能力及其自我进化的特性,交互方式正从以往的人机交互、人人交互,迈向人与 AI 融合交互的新时代。

最后,用户的交互空间也在从 2D、3D、VR,逐步拓展到虚实融合的全新空间,这带来了更沉浸的交互体验,让实时互动更加「身临其境」。

面对多模态大模型对视频生态以及技术架构影响,视频云作为底层基础设施正面临机遇和挑战。

Q-Insight:深度思考,「看懂」画质

在音视频链路中,采集、压缩、处理、传输、播放等环节大多都基于一个核心问题展开,即人眼的画质感知。多模态大模型的快速发展为新时代的音视频技术带来了新的机遇,面对人眼感知的画质理解提供了一种全新的解决方案。

以往的画质理解的方法主要分为两类:(1)评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;(2)描述型方法,这类方法严重依赖于大规模文本描述数据进行监督微调,对标注数据的需求巨大,泛化能力和灵活性不足。

针对上述问题,北京大学与火山引擎多媒体实验室的研究人员联合提出了基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。

论文链接:https://arxiv.org/pdf/2503.22679

与以往方法不同的是,Q-Insight 不再简单地让模型拟合人眼打分,而是将评分视作一种引导信号,促使模型深度思考图像质量的本质原因。通过这种创新思路,Q-Insight 在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,并且不依赖大量高成本的文本数据标注。

Q-Insight 首次将强化学习引入图像质量评估任务,创造性地运用了「群组相对策略优化」(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。如图所示,Q-Insight 不仅输出单纯的得分、退化类型或者比较结果,而是提供了从多个角度综合评估画质的详细推理过程。

实验结果充分验证了 Q-Insight 在图像质量评分、退化检测和零样本推理任务中的卓越表现:在图像质量评分任务上,Q-Insight 在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程。

在退化感知任务上,Q-Insight 的表现显著优于现有的退化感知模型,尤其是在噪声和 JPEG 压缩退化类型识别的准确性上。

在零样本图像比较推理任务上,Q-Insight 无需额外监督微调,即可准确、细致地分析和比较图像质量,展示出强大的泛化推理能力。

大脑升级,重塑视频云技术栈

以多模态画质理解大模型 Q-insight 作为基石之一,火山引擎视频云已经围绕多媒体链路搭建起基于大模型的解决方案。

大模型算法能力包含有生成式画质增强大模型、沉浸音频大模型、生成式视频编码大模型、多模态内容理解大模型等。此外,已有的传统媒体处理能力也与大模型能力方案形成有机结合与互补,其中包括软件编解码 BVC 系列、硬件编码器、处理增强能力、分析和理解能力等。

通过基于 MLLM 实现的多媒体智能体,可以面向不同复杂的业务场景与用户需求,做到感知理解、智能决策规划和输出算法能力方案。相比传统依据经验调控的方案,多媒体智能体具有链路更智能、算法效果上限更高,并且更贴近实际业务和人眼感知等优势。

此外,结合视频云自研多媒体处理框架 BMF 以及大规模多媒体实验仿真平台 VLAB 等工程支持,进一步提高了大模型媒体服务的稳定性和效率,有效降低了部署成本。

超越技术,体验跃迁

火山视频云产品正在把用户从流畅、实时、高清的数字视频世界带入更智能、更交互、更沉浸的 AI 视频世界。这不仅意味着技术的飞跃,更代表着体验方式的一场变革。

在大模型和生成式 AI 技术的强劲推动下,音视频处理的底层技术正经历着深刻的变革。

首先对算力层的要求尤为显著。生成式 AI 技术大幅降低了视频生成的门槛,导致视频数据以惊人速度增长。所以也对计算成本和处理效率提出了严峻的挑战。

在算法层,编解码、处理、分析等音视频处理的核心技术,正在与大模型不断的深度融合。这种融合不仅提升了编解码效率以及画质表现,更为用户带来了更加优质的视频体验。

在框架层,随着视频生成大模型和预处理所需的计算需求日益增长,我们需要构建更强大、更灵活的多媒体处理框架,不仅要能够支持大模型的高效运行,还要能够满足日益复杂的音视频处理需求,以应对生成式 AI 带来的挑战。

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎视频云的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎视频云,以「体验」为核心,基于字节跳动亿级 DAU 打磨的音视频技术融合 AI / 大模型技术,打造集视频直播、企业直播、视频点播、智能处理、实时音视频、云游戏、云手机、veImageX 等于一体的一站式音视频服务,帮助企业端到端提升视频能力,实现播放体验、画质体验、交互体验、性能体验的全面提升与创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

潮鹿逐梦
2026-03-18 10:26:41
11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

万花筒体育球球
2026-03-25 17:39:15
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

小陆搞笑日常
2026-03-26 11:57:06
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

小秋情感说
2026-03-26 09:28:29
你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

带你感受人间冷暖
2026-03-19 22:37:39
心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

网球之家
2026-03-25 23:38:54
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
40分钟内,伊朗四轮导弹击以色列 逮捕39名美以雇佣人员

40分钟内,伊朗四轮导弹击以色列 逮捕39名美以雇佣人员

健身狂人
2026-03-26 13:47:58
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
2026-03-26 15:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
家居
手机
公开课
军事航空

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

家居要闻

傍海而居 静观蝴蝶海

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版