网易首页 > 网易号 > 正文 申请入驻

多模态AI重新定义人机交互方式

0
分享至

◎本报记者 刘 霞

未来的人工智能(AI)什么样?想象一下,只需简单一个指令,它们便能领悟并执行复杂的任务;它们还能通过视觉捕捉用户的表情和动作,判断其情绪状态。这不再是好莱坞科幻电影中的场景,而是正逐步走进现实的“多模态AI”。

据美国《福布斯》网站近日报道,元宇宙平台公司、OpenAI以及谷歌公司等巨头,都推出了各自的多模态AI系统,正不遗余力地加大对此类系统的研发投资,力求提高各种模态内容输出的精确度,从而改善AI与用户的交互体验。

多模态AI标志着一种范式变革。它将深刻改变很多行业的面貌,并重塑数字世界的格局。

赋予AI“多重感官”功能

人类是如何了解世界的?我们依赖视觉、听觉和触觉等多种感官,从无数来源接收信息。人脑将这些纷繁复杂的数据模式融合,绘制出一幅生动的现实“画卷”。

IBM公司官网这样定义多模态AI:能集成和处理来自多种模态(数据类型)的机器学习模型,这些模态包括文本、图像、音频、视频等形式的输入。就像赋予AI一整套感官,使它能从多个角度感知并理解输入的信息。

这种跨越不同模态理解和创建信息的能力,超越此前侧重于集成和处理特定数据源的单模态AI,赢得了各大科技巨头的青睐。

在今年的移动通信大会上,高通公司将其开发的多模态大模型首次部署在安卓手机上。用户无论是输入照片,还是语音等信息,都能与AI助手顺畅交流。例如,用户可以拍一张美食照片向AI助手提问:这些食材都是什么?能做出什么菜?每道菜的热量是多少?AI助手能基于照片信息,给出详细的答案。

今年5月,OpenAI发布了多模态模型GPT-4o,其支持文本、音频和图像的任意组合输入和输出。随后,谷歌也于第二天推出了自己的最新多模态AI产品Gemini 1.5 Pro。

9月25日,元宇宙平台公司发布了其最新的开源大语言模型Llama 3.2。公司首席执行官马克·扎克伯格在主题演讲中表示,这是该公司首个开源多模态模型,可同时处理文本和视觉数据,标志着AI在理解更复杂应用场景方面取得了重大进展。

悄然推动各领域变革

多模态AI正悄然改变着多个领域的面貌。

在医疗保健领域,IBM旗下“沃森健康”正对病人的影像学数据、病历文本和基因数据进行综合分析,帮助医生更准确地诊断疾病,有力支持医生为病人制订个性化治疗方案。

创意产业也正在经历一场变革。数字营销专家和电影制片人正借助这一技术打造定制内容。试想,只需一个简单的提示或概念,AI系统就能编撰出引人入胜的剧本,生成故事板(即一系列插图排列在一起组成的可视化故事)、创作配乐,甚至制作出初步场景剪辑。

教育和培训领域也在多模态AI助力下向个性化学习迈进。美国纽顿公司开发的自适应学习平台能利用多模态AI,深入分析学生的学习行为、表情和语音,实时调整教学内容和难度。实验数据显示,这种方法能将学生的学习效率提高40%。

客户服务也是多模态AI系统令人兴奋的应用之一。聊天机器人不仅能回应文本查询,还能理解客户的语调,分析客户的面部表情,并用适当的语言和可视化线索作出回应。这种更接近人类的交流有望彻底改变企业与客户的互动方式。

仍需克服技术伦理挑战

但多模态AI发展也面临诸多挑战。

AI咨询公司“隐空间”创始人亨瑞·艾德尔表示,多模态AI的强大之处在于能够整合多种数据类型。然而,如何有效整合这些数据仍是一个技术难题。

此外,多模态AI模型在运行过程中往往需要消耗大量算力资源,这无疑增加了其应用成本。

更值得注意的是,多模态数据包含更多个人信息。当多模态AI系统能轻松识别人脸、声音乃至情绪状态时,如何确保个人隐私得到尊重与保护?又该如何采取有效措施,防止其被用于创建“深度伪造”或其他误导性内容?这些都是值得深思的问题。

来源:科技日报

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴特勒报销连锁反应:勇士两战全败库里8三分难阻崩盘 急需交易

巴特勒报销连锁反应:勇士两战全败库里8三分难阻崩盘 急需交易

醉卧浮生
2026-01-23 11:11:41
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
华为破了vivo的金身

华为破了vivo的金身

蓝媒汇财经plus
2026-01-22 21:11:21
1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

篮球扫地僧
2026-01-23 08:33:07
成都蓉城后腰新外援仅用一场比赛,就直接征服球迷,值得期待

成都蓉城后腰新外援仅用一场比赛,就直接征服球迷,值得期待

振刚说足球
2026-01-23 09:55:08
荣毅仁之子荣智健近况惹人唏嘘,步履踉跄一瘸一拐,再也不见往日的意气飞扬

荣毅仁之子荣智健近况惹人唏嘘,步履踉跄一瘸一拐,再也不见往日的意气飞扬

史海孤雁
2026-01-22 16:21:13
普京与美代表在莫斯科举行会谈!泽连斯基最新发声!俄军轰炸机在波罗的海飞行,外军伴飞

普京与美代表在莫斯科举行会谈!泽连斯基最新发声!俄军轰炸机在波罗的海飞行,外军伴飞

每日经济新闻
2026-01-23 07:55:07
争议 龙之队倡议中国观众穿红色上衣观战决赛 球迷狂骂:不干正事

争议 龙之队倡议中国观众穿红色上衣观战决赛 球迷狂骂:不干正事

风过乡
2026-01-23 07:10:18
美国批量“退群”图什么?意味着什么?

美国批量“退群”图什么?意味着什么?

上观新闻
2026-01-23 06:57:07
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
来了,全明星,恭喜杨瀚森

来了,全明星,恭喜杨瀚森

体育新角度
2026-01-23 09:48:26
这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

荣亭小吏
2026-01-22 10:06:08
爆冷!NBA20 大巨星历史排名出炉 现役 4 人跻身前 15

爆冷!NBA20 大巨星历史排名出炉 现役 4 人跻身前 15

澜归序
2026-01-21 05:54:58
人社部明确!2026养老金继续调整,1955年到1961年出生,涨更多吗

人社部明确!2026养老金继续调整,1955年到1961年出生,涨更多吗

有范又有料
2026-01-23 09:32:06
俄总统助理:俄美乌三国安全问题工作组首次会议将在阿布扎比举行

俄总统助理:俄美乌三国安全问题工作组首次会议将在阿布扎比举行

新华社
2026-01-23 10:27:18
重罚!偷税、背人命债,被官方彻查后首露面的闫学晶,迎最终结局

重罚!偷税、背人命债,被官方彻查后首露面的闫学晶,迎最终结局

芊芊子吟
2026-01-23 09:35:03
又要下雪了!雨雨雨!江苏天气最新预测!

又要下雪了!雨雨雨!江苏天气最新预测!

句容发布
2026-01-23 03:51:05
田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

潘蠸旅行浪子
2026-01-14 03:43:09
王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

阿纂看事
2026-01-21 15:39:15
这部被禁的国产片,凭什么在国外获奖无数?

这部被禁的国产片,凭什么在国外获奖无数?

霹雳炮
2026-01-21 20:46:55
2026-01-23 11:44:49
中国经济网 incentive-icons
中国经济网
国家重点新闻网站
46920文章数 474439关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

家居
艺术
教育
亲子
军事航空

家居要闻

在家度假 160平南洋混搭宅

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

教育要闻

143:21!高校“博士热”:学历内卷下硕士生的困境与破局

亲子要闻

没有过敏原为什么孩子还是起荨麻疹?

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版