网易首页 > 网易号 > 正文 申请入驻

Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!

0
分享至

新智元报道

来源:外媒

编辑:keyu

【新智元导读】近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。

对于人工智能来说,开发一个能可靠地理解世界、并使用自然语言作出反应的对话系统是一个很大的挑战。

如果要达到这一目标,那么我们需要一个能够从图像、文本、音频和视频中提取突出信息,并以人类能够理解的方式回答问题的模型。

最近,Facebook、哥伦比亚大学、佐治亚理工学院和达特茅斯大学的研究人员开发了Vx2Text——一个从视频、语音或者音频中生成文本的框架。他们声称,相比之前的最先进的方法,Vx2Text可以更好地创建说明文字并回答问题

论文地址:

https://arxiv.org/pdf/2101.12059.pdf

与大多数人工智能系统不同,人类可以很自然地轻易理解文本、视频、音频和图像在上下文语境中的含义:

例如,一些给定的文本和图像,在分开讨论的时候似乎无害,比如“看看有多少人爱你”和一张贫瘠沙漠的图片,然而,人们会立即意识到,这些元素在结合在一起的时候,其实是具有潜在伤害性的。

多模态学习可以包含一些潜在互补的信息或者趋势,不过,只有在学习中完全包含相关信息的时候,这些含义才能显现。

对于Vx2Text,,“模态独立“的分类器将来自视频、文本或音频的语义信号,转换为公共语义语言空间,这使得语言模型能够直接解释多模态数据,从而为通过谷歌的T5等强大的语言模型进行多模态融合——即结合信号来支持分类——提供了可能。

图:模型框架

Vx2Text中的生成式文本解码器,将编码器计算的多模态特征转换为文本,使该框架适合于生成自然语言语义概括,如下图:

研究人员在论文中写道:“与之前的方法相比,这种设计不仅简单得多,而且具有更好的性能。”

“更有用的是,它并不需要设计专门的算法,或者借鉴其他替代方法来实现多模态信息的组合”

在实验中,研究人员展示了Vx2Text为带有视频和音频的视频场景所生成的「真实的」自然文本。

尽管研究人员研究人员以对话历史和语音记录的形式,为模型提供了上下文,但是他们注意到,生成的文本包括了非文本形式的信息,例如帮助某人帮助某人站起来或者接电话等行为。

此外,由于Vx2Text可以高度整合、概括和真正理解多模态输入中蕴含的信息,因此,基于生成的语义信息,它也可以回答各种各样的问题:

Vx2Text可以用于工业界,比如,它可以用于为流媒体视频添加标题来增加访问性。

此外,这个框架也可能会用于YouTube和Vimeo等视频分享平台——这些平台依赖字幕和其他信息来提高搜索结果的相关性。

研究人员表示:“我们的方法从将所有形式的信息映射到语义语言空间的想法出发,来实现直接应用强大语言模型——Transformer网络的目标,这使得我们的整个模型都可以进行端到端的训练。“

https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看完奚望再看谭松韵,才知观众烦的不是星二代,而是丑还没演技

看完奚望再看谭松韵,才知观众烦的不是星二代,而是丑还没演技

草莓信箱
2026-03-22 01:45:57
申军良回应“梅姨”落网:我找了她10年,在她住过的村子挨家打听,几次差点把命搭进去,不找到她这辈子不甘心

申军良回应“梅姨”落网:我找了她10年,在她住过的村子挨家打听,几次差点把命搭进去,不找到她这辈子不甘心

极目新闻
2026-03-21 17:23:19
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
等我们老了,最扎心的从不是病与死,而是这无声的“溃败”

等我们老了,最扎心的从不是病与死,而是这无声的“溃败”

青苹果sht
2026-03-18 05:35:16
女网红爆料:交1万住少林3天,凌晨争进方丈房间,释永信这次栽了

女网红爆料:交1万住少林3天,凌晨争进方丈房间,释永信这次栽了

未曾青梅
2026-03-21 23:04:09
暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

好贤观史记
2026-03-02 20:17:10
奇怪的现象:你跟任何人交往,一旦你听话照做,对方就会看不上你

奇怪的现象:你跟任何人交往,一旦你听话照做,对方就会看不上你

木言观
2026-03-21 22:32:43
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
你以为坏了,其实都能吃的7种食物,要是扔掉就亏大了

你以为坏了,其实都能吃的7种食物,要是扔掉就亏大了

室内设计师有料儿
2026-03-21 16:29:09
20000,疯了

20000,疯了

放毒
2026-03-11 17:04:33
上海德云社开业首日,杨议老毛病又犯,郭麒麟选择明智

上海德云社开业首日,杨议老毛病又犯,郭麒麟选择明智

老屬科普
2026-03-21 20:36:16
60岁董事长病逝后未成年女儿继承9亿元股票,妻子成百亿A股公司实控人

60岁董事长病逝后未成年女儿继承9亿元股票,妻子成百亿A股公司实控人

红星新闻
2026-03-21 11:25:09
伊朗又断网!或拟永久切断互联网!日均经济损失1850万美元

伊朗又断网!或拟永久切断互联网!日均经济损失1850万美元

深度报
2026-03-21 22:26:24
大变革!4月1日全国医保新规落地,70-80岁老人,看病牢记三件事

大变革!4月1日全国医保新规落地,70-80岁老人,看病牢记三件事

老特有话说
2026-03-20 12:35:16
刘烨的基因太强大了,儿子太像他了,诺一是中法混血儿,很帅

刘烨的基因太强大了,儿子太像他了,诺一是中法混血儿,很帅

喜欢历史的阿繁
2026-03-21 14:29:01
女子在医院顺产生下一个孩子,突然在阴道里排出大便

女子在医院顺产生下一个孩子,突然在阴道里排出大便

张晓磊
2026-03-21 11:44:27
世界公开赛决赛席位出炉!奥沙利文将战塔猜亚,历史第一人冲42冠

世界公开赛决赛席位出炉!奥沙利文将战塔猜亚,历史第一人冲42冠

世界体坛观察家
2026-03-22 00:04:32
能源史上最惨烈一日,伊朗的顶级导弹,正在灭掉3个国家的支柱!

能源史上最惨烈一日,伊朗的顶级导弹,正在灭掉3个国家的支柱!

Ck的蜜糖
2026-03-20 06:49:27
出场数已达标!不出意外,以杜兰特本赛季的表现保底最佳三阵!

出场数已达标!不出意外,以杜兰特本赛季的表现保底最佳三阵!

田先生篮球
2026-03-21 13:03:30
巴拿马这回真傻了!抢了港口才发现,全世界没人敢接盘

巴拿马这回真傻了!抢了港口才发现,全世界没人敢接盘

青梅侃史啊
2026-03-21 19:27:52
2026-03-22 03:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14777文章数 66705关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

本地
教育
健康
房产
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

南师附中举行2026年31公里步行者行动

转头就晕的耳石症,能开车上班吗?

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版