网易首页 > 网易号 > 正文 申请入驻

Target 系列论坛 | 「多模态AI视频分析:技术及应用」直播回顾

0
分享至

机器之心特别策划出品

「 Target 系列论坛」正式上线!

精准聚焦细分领域核心议题,

汇聚机构、专家、媒体优势资源,

基于专业深度调研,

呈现权威趋势判断,

以产业链上下游深一步的对接,

促成多一次的思想碰撞与灵感激发!

6 月 8 日,机器之心特别策划出品的「 Target 系列论坛」首期活动以「多模态 AI 视频分析:技术及应用」为主题,在机器之心机动组视频号上以直播方式成功举办。

回放链接:https://jmq.h5.xeknow.com/s/4A2ujw

首期活动邀请到来自中科院自动化研究所、优酷、OPPO、腾讯等企业的代表,交流探讨多模态 AI 视频分析技术在实际场景中的现状与挑战,还就多模态技术趋势、市场规模、产业前景等话题进行了充分交流。

王金桥 线上直播图片

分享嘉宾:王金桥,中国科学院自动化研究所研究员

分享主题:《“紫东太初”多模态大模型,让机器具有理解和想象力》

丁飞 线上直播图片

分享嘉宾:丁飞,优酷技术中心高级算法专家,负责 AI 智能生产

分享主题:《优酷 AI 视频智能生产系统》

郭彦东 线上直播图片

分享嘉宾:郭彦东,OPPO 公司智能感知首席科学家

OPPO 研究院部分技术骨干与实验室负责人

分享主题:《 Vision+:An Effective Way of Environmental Perception and Human Understanding 》

特邀主持人:赵行,清华大学交叉信息院助理教授、博士生导师

特邀嘉宾:文镇,腾讯信息平台与服务线 AI 算法负责人

最后,以「多模态 AI 视频分析:进展与挑战」为圆桌主题,清华大学交叉信息院助理教授赵行作为特邀主持人,与王金桥、郭彦东以及特邀嘉宾腾讯信息平台与服务业务线 AI 算法负责人文镇展开对话,从各自视角出发讨论了多模态内容感知和理解技术在实际场景中的现状与挑战。

以下为圆桌讨论内容,我们进行了不改变原意的编辑、整理:

Q:多模态内容分析技术在嘉宾所在领域有哪些进展?

文镇:工业界是非常注重性价比的,腾讯有大量视频需要分类打标签,所以多模态处理从一开始就有。一开始视频处理以文本为主,后续加入其它模态以提升性能。随着模型能力不断提升、算力价格不断下降,腾讯开始加入整个视频的帧时序特征、音频等特征建模,真正做成多模态,用于对视频分类,分类的类别达到上千类。作为短视频推荐的核心要素,分类性能最终能够达到 95% 以上,多模态作用非常明显。之前利用人工运营审核的海量标签进行端到端的监督训练较多,最近一两年预训练使用增多,通过大规模预训练模型能够显著降低 数据标注的要求,用 30%、40% 的小样本数据就能够得到较好应用成果。

郭彦东:我想跟大家分享 OPPO 比较有特色的是,手机是作为一个智能硬件终端,搭载的传感器较多,这些不同模态传感器结合起来,可以做很多情景感知相关工作。比如,把手表的 imu 跟手机的 imu 结合就能够对人所处状态有一个好的判断,把麦克风数据和环境感知数据结合就能对用户语义上下文比较精准理解判断。这也是一种对于多模态技术的应用,当然很多运算都只是在用户设备端侧内部发生,不涉及侵犯用户隐私。

作为一个通讯设备,手机的 imu、无线射频、无线传导等传感器等都可以更多地融入多模态应用。照相机、麦克风等传感器能够捕获的信息,一定程度上已经超过了人眼、耳能够看到和听到的范畴,只是在后续的智能认知部分做得还不充分,不能像人一样聪明地把各类传感器信息集合利用,这些信号的有效使用也是很有意思的研究课题。

Q:多模态分析技术有很多应用领域,如视频推荐、搜索、安防、自动驾驶等,有哪些共通的值得关注或者研究的问题?

王金桥:第一个难题,图像、声音等多模态信息如何进行空间和时间的对齐和融合;第二个难题,如何利用多模态信息进行协同融合,充分发挥其跨域特性;最后一个共性问题,场景、话题都在不断刷新,各类数据都存在长尾问题,如何使预训练大模型进行自动聚类、打通所有信息会是一个研究方向。无论是学术界、工业界,从多传感融合、从数据分析、从长尾问题等方向出发还有很多路要走,需要产学研一起研究。

文镇:不同模态的关联可以产生更多的预训练任务,比如很难通过视频 CV 模态来获取高层次语义,像视频中的爱国热情从 CV 模态就很难检测到,需要通过用户评论、标题等文本模态以及弹幕等用户交互信号来获取,帮助训练大模型具有更强能力。对于产业界来说,一个通用大模型能做非常多事情,但落地成本比较高,业界会去探索怎样针对实际业务需求,做数量级更小、复杂度更低的模型,这是业界一个很通用也很重要的方向。

Q:过去对于视频这类复杂场景内容会进行精细标注,近两年出现了弱标注后进行大模型训练等方案,该如何在不同方案间做到平衡?

文镇:从工业界角度来讲,精细标注是一件非常昂贵的事。大数据预训练模型可以作为一个弱标注员,利用它蕴藏的海量知识,预先在数据上打上一些弱标记,以帮助做精细标注的员工减少工作量,一方面可以减少需要标注样本数量,另一方面可以给出可选范围减小人类标注员标注难度。这是大模型一个非常好的应用场景。

郭彦东:手工标注的精度在很多方面已经比不上计算机识别的精度,如果还是希望从标注数据里面学习新知识以提升模型性能,就需要模型训练方面的创新和技巧,比如训练很重的大模型,再用蒸馏或者 teacher - student 方式把大模型的知识传递到小模型上,既能学到标注的知识,也能一定程度上起到去噪效果。总体而言,企业在标注上的预算是约束条件,在此条件下应对标注的数量、质量联合优化,以取得最好成效。

王金桥:人工智能当前阶段还是依赖于大量的标注数据,有了大量的标注数据,才能保证模型在场景中应用得好。然而在一个开放环境,模型应用的过程中新的数据还在不断结合,样本空间实际是不可控的。场景融合的情况下,如何对基础模型定义算法边界?可以通过预训练让模型学习的特征空间不至于占比特别小,这样模型健壮性更强,不容易误报。另外,大模型加微调的模式较为常见,通过其他模态的指导、人不断在应用场景中的反馈和不断调整库的规模,使模型能够不断进行在线更新,既保证模型泛化能力,又保证对于新样本的吸收能力。

Q:未来三五年,在多模态领域有哪些值得关注的技术发展?

王金桥:大模型会发展成为平台性技术,可能是现代人工智能更加普及的高效路径。大模型训练速度提升性能增强、模型性能评价标准、知识嵌入、模型小型化会是我们重点发展方向。

文镇:产品上线后通常会基于观察标注一些小样本数据,也会基于用户行为产生各种弱关联数据,如何将这些数据用到大模型训练,通过多任务方式增强模型能力,会是一个有希望的方向。

郭彦东:在前融合的大背景下,通过将多模态数据放入具有融合作用的神经网络,推出不同模态的数据,并有效地在某些层次实现深度融合,这一方向值得深入挖掘。

此外,对于观众关注的“动态视频分析在各大视频网站发展现状”、“现有多模态大模型特点”、“低资源条件下的研究方向”等问题,嘉宾们也分享了一手信息,给出了可行建议。更多详细内容可以通过直播回放了解。

后续机器之心「Target 系列论坛」将持续推出形式多样的活动,每期聚焦一个人工智能特定领域或主题,高质量、高浓度呈现垂直领域关键信息和专业洞见,欢迎大家持续关注机器之心公众号动态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1977KM秦L挑战失败!这就是工业奇迹?

1977KM秦L挑战失败!这就是工业奇迹?

娱乐圈的笔娱君
2024-06-02 21:54:17
河北镰刀杀人案后续:当地知情人透露内幕,网友彻底炸锅

河北镰刀杀人案后续:当地知情人透露内幕,网友彻底炸锅

皓月说故事
2024-06-02 12:11:13
四大银行 存款利率最新调整变化:2024年6月,全新存款利率利息表

四大银行 存款利率最新调整变化:2024年6月,全新存款利率利息表

平说财经
2024-06-02 13:18:55
城管队长出轨女下属称对方“嫩妈”,女主照片曝光真白瞎这张脸!

城管队长出轨女下属称对方“嫩妈”,女主照片曝光真白瞎这张脸!

听风听你
2024-05-30 20:29:17
米切尔1换6交易方案!湖人升级后场,骑士扶正加兰,詹姆斯大赢家

米切尔1换6交易方案!湖人升级后场,骑士扶正加兰,詹姆斯大赢家

刺头体育
2024-06-03 12:45:08
陈涛:我们不会因为泰国队改变自己的特点,还是以自身为主

陈涛:我们不会因为泰国队改变自己的特点,还是以自身为主

懂球帝
2024-06-03 09:36:06
这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

冷却爱情
2024-04-25 18:28:15
电影里经常出现的关于古埃及的6个错误的信息

电影里经常出现的关于古埃及的6个错误的信息

娱乐八卦木木子
2024-06-03 02:05:10
福建省政府发布一批人事任免

福建省政府发布一批人事任免

东南网
2024-06-03 09:04:51
6月2俄乌:西方武器袭击俄领土,海王星猛炸,15国承诺270亿援乌

6月2俄乌:西方武器袭击俄领土,海王星猛炸,15国承诺270亿援乌

山河路口
2024-06-02 14:27:47
中国的土地,已经卖了50万亿了!土地卖完后,地方政府从哪里搞钱

中国的土地,已经卖了50万亿了!土地卖完后,地方政府从哪里搞钱

说故事的阿袭
2024-06-03 08:19:44
闹大!女子被小孩偷拍隐私部位,照片被po在吃瓜网站 !评论炸锅

闹大!女子被小孩偷拍隐私部位,照片被po在吃瓜网站 !评论炸锅

猫小狸同学
2024-05-25 12:00:11
吴蔚:在“香会”激浊扬清,不辩不争,不可以

吴蔚:在“香会”激浊扬清,不辩不争,不可以

直新闻
2024-06-02 22:28:15
绝不向中国低头!宁愿亏损400亿开除9000人,也不和中国共享技术

绝不向中国低头!宁愿亏损400亿开除9000人,也不和中国共享技术

蓝色海边
2024-05-29 07:10:26
刘烨儿子审美越来越偏,背帆布袋比妹妹黑,霓娜没了龅牙颜值逆袭

刘烨儿子审美越来越偏,背帆布袋比妹妹黑,霓娜没了龅牙颜值逆袭

云泽点评汇
2024-06-02 14:48:03
4年2.43亿!森林狼新合同曝光!成为防守累赘,夺冠最大短板

4年2.43亿!森林狼新合同曝光!成为防守累赘,夺冠最大短板

一才说个球
2024-06-03 12:47:19
中国通报外军作案,盗中国稀土造武器,美高官:中国稀土不可或缺

中国通报外军作案,盗中国稀土造武器,美高官:中国稀土不可或缺

乐阳聊军事
2024-06-03 00:13:37
价格下调!华为Mate60系列第三方售价最高优惠2000元

价格下调!华为Mate60系列第三方售价最高优惠2000元

手机中国
2024-06-03 10:08:18
王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

柠檬有娱乐
2024-05-18 09:56:07
董宇辉,618局外人

董宇辉,618局外人

字母榜
2024-06-02 13:14:34
2024-06-03 15:32:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9040文章数 141935关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

黄仁勋的计划:新AI平台 HBM4 机器人

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

家居
本地
房产
艺术
公开课

家居要闻

静谧极简 让空间回归本质

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版