网易首页 > 网易号 > 正文 申请入驻

【人工智能】观察、思考、解释:AI 中视觉语言模型的兴起

0
分享至



大约十年前,人工智能主要分为图像识别和语言理解两大领域。视觉模型可以识别物体,但无法描述它们;语言模型可以生成文本,但无法“看”。如今,这种界限正在迅速消失。视觉语言模型(VLM)融合了视觉和语言技能,使其能够解读图像并以近乎人类的方式进行解释。真正令它们脱颖而出的是其循序渐进的推理过程,即“思维链”(Chain-of-Thought),这使得这些模型能够成为医疗保健和教育等行业中强大而实用的工具。在本文中,我们将探讨VLM的工作原理、其推理过程的重要性,以及它们如何改变从医学到自动驾驶汽车等各个领域。

01

理解视觉语言模型

视觉语言模型(VLM)是一种能够同时理解图像和文本的人工智能。与只能处理文本或图像的旧式人工智能系统不同,VLM 将这两种能力结合起来,使其功能极其强大。它们可以观察图片并描述画面内容,回答有关视频的问题,甚至可以根据文字描述生成图像。

例如,如果你让视觉语言学习器(VLM)描述一张狗在公园里奔跑的照片,它不会只说“有只狗”,而是会告诉你“这只狗正在一棵大橡树附近追球”。它能理解图像,并以一种有意义的方式将其与文字联系起来。这种结合视觉和语言理解的能力创造了各种各样的可能性,从帮助你在线搜索照片到辅助处理更复杂的任务,例如医学影像。

视觉语言模型(VLM)的核心工作原理是结合两个关键部分:图像分析的视觉系统和文本处理语言系统。视觉系统负责识别形状、颜色等细节,而语言系统则将这些细节转化为句子。VLM 使用包含数十亿个图像-文本对的海量数据集进行训练,从而积累了丰富的经验,最终发展出强大的理解能力和极高的准确率。

02

VLM 中的思维链推理意味着什么

思维链推理(CoT)是一种让人工智能逐步思考的方法,就像我们解决问题时将问题分解成多个步骤一样。在虚拟语言模型(VLM)中,这意味着当你询问人工智能关于图像的问题时,它不仅会给出答案,还会解释它是如何得出答案的,并阐明每个逻辑步骤。

假设你给虚拟学习模型(VLM)看一张插着蜡烛的生日蛋糕图片,然后问:“这个人几岁了?”如果没有认知能力(CoT),它可能只会随便猜一个数字。有了认知能力,它就会仔细思考:“好的,我看到一个插着蜡烛的蛋糕。蜡烛通常代表年龄。我们数一下,一共10根。所以,这个人大概10岁。”你可以跟随它的推理过程,这使得答案更加可靠。

同样地,当向VLM展示一段交通场景并询问“现在可以安全过马路吗?”时,VLM可能会分析道:“人行横道灯是红灯,所以你不应该过马路。附近还有一辆车正在转弯,而且它还在行驶,没有停下来。这意味着现在过马路不安全。” 通过这些步骤,人工智能可以清晰地展示它在图像中关注的重点以及它做出相应判断的原因。

03

为什么思维链在虚拟语言模型中很重要

将CoT推理集成到VLM中带来了几个关键优势。

首先,这让AI更容易被信任。当它解释其步骤时,你就能清楚地了解它是如何得出答案的。这在医疗保健等领域尤为重要。例如,在查看核磁共振扫描图像时,虚拟语言学习系统(VLM)可能会说:“我在大脑左侧看到一个阴影。该区域控制语言功能,而患者说话有困难,所以这可能是一个肿瘤。”医生可以遵循这种逻辑,并对AI的判断充满信心。

其次,它能帮助人工智能解决复杂问题。通过分解问题,它可以处理那些需要仔细查看才能解答的问题。例如,数蜡烛很简单,但判断繁忙街道的安全状况则需要多个步骤,包括检查信号灯、观察车辆、判断车速等等。CoT 通过将复杂问题分解成多个步骤,使人工智能能够处理这些复杂情况。

最后,这使得人工智能更具适应性。通过逐步推理,它可以将已知信息应用于新的情况。即使它从未见过某种特定类型的蛋糕,它仍然可以推断出蜡烛龄与蛋糕龄之间的联系,因为它会进行深入思考,而不仅仅是依赖记忆的模式。

04

思维链和虚拟实验室模型如何重塑行业

CoT和VLM的结合正在对各个领域产生重大影响:

  • 医疗保健:在医学领域,像谷歌的 Med-PaLM 2这样的虚拟语言模型(VLM)利用认知理论(CoT)将复杂的医学问题分解成更小的诊断步骤。例如,当给定一张胸部 X 光片和咳嗽、头痛等症状时,人工智能可能会思考:“这些症状可能是感冒、过敏,或者更严重的疾病。没有淋巴结肿大,所以不太可能是严重的感染。肺部看起来很干净,所以可能不是肺炎。普通感冒最符合。” 它会逐一分析各种可能性,最终得出答案,为医生提供清晰的解释。

  • 自动驾驶汽车:对于自动驾驶车辆而言,基于交通概念(CoT)的视觉逻辑模块(VLM)能够提升安全性和决策能力。例如,自动驾驶汽车可以逐步分析交通场景:检查行人信号、识别行驶车辆,并判断是否可以安全通行。像Wayve 的 LINGO-1这样的系统能够生成自然语言解说,解释诸如为骑自行车的人减速之类的操作。这有助于工程师和乘客理解车辆的推理过程。通过结合视觉输入和上下文知识,逐步逻辑还能更好地应对异常路况。

  • 地理空间分析:谷歌的Gemini模型将CoT推理应用于地图和卫星图像等空间数据。例如,它可以通过整合卫星图像、天气预报和人口统计数据来评估飓风造成的损失,然后生成清晰的可视化图表并解答复杂的问题。这项功能无需专业技术知识即可为决策者提供及时、有用的信息,从而加快灾害响应速度。

  • 机器人技术:在机器人领域,CoT(认知理论)与VLM(虚拟逻辑模型)的集成使机器人能够更好地规划和执行多步骤任务。例如,当机器人被赋予拾取物体的任务时,支持CoT的VLM能够帮助机器人识别杯子,确定最佳抓取点,规划无碰撞路径,并执行动作,同时还能“解释”其过程的每个步骤。RT -2等项目展示了CoT如何使机器人更好地适应新任务,并以清晰的推理响应复杂的指令。

  • 教育:在学习领域,像Khanmigo这样的AI辅导工具利用CoT(认知能力)来提升教学效果。例如,对于一道数学题,它可能会引导学生:“首先,写下方程。然后,两边同时减去5,把未知数单独放在一起。最后,除以2。” 它不会直接给出答案,而是一步步地讲解解题过程,帮助学生逐步理解概念。


总结

视觉语言模型 (VLM) 使人工智能能够通过思维链 (CoT) 过程,以类似人类的逐步推理方式来解释和理解视觉数据。这种方法能够提升医疗保健、自动驾驶汽车、地理空间分析、机器人和教育等行业的信任度、适应性和问题解决能力。VLM 改变了人工智能处理复杂任务和辅助决策的方式,为可靠且实用的智能技术树立了新的标准。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-10-03

2025-10-02

2025-10-01

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荒野求生第30天,“夺冠热门”河南退伍特种兵退赛!此前已瘦25斤,身体达缺盐极限,将出去找工作

荒野求生第30天,“夺冠热门”河南退伍特种兵退赛!此前已瘦25斤,身体达缺盐极限,将出去找工作

极目新闻
2025-11-07 10:14:46
3连败!快船为何低于预期?今夏被认为超值的4笔运作,结果全亏了

3连败!快船为何低于预期?今夏被认为超值的4笔运作,结果全亏了

你的篮球频道
2025-11-07 13:44:52
李春平死了

李春平死了

霹雳炮
2025-11-05 22:34:23
全球首个单机柜级640卡超节点问世

全球首个单机柜级640卡超节点问世

中国新闻周刊
2025-11-06 18:12:07
迟迟不给中国道歉后,高市政府发出战争威胁,中方用8字宣告结局

迟迟不给中国道歉后,高市政府发出战争威胁,中方用8字宣告结局

云鹏叙事
2025-11-07 14:30:46
看完33岁跳江外卖员的备忘录,泪目了!

看完33岁跳江外卖员的备忘录,泪目了!

黯泉
2025-11-06 15:32:00
越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

越扒越多!17分钟不雅视频拍摄者疑曝光,女医生丈夫照片流出

派大星纪录片
2025-11-07 11:59:33
马科斯通告世界:菲律宾进入国家灾难状态,罕见措辞引发国际关注

马科斯通告世界:菲律宾进入国家灾难状态,罕见措辞引发国际关注

一个有灵魂的作者
2025-11-07 09:00:02
拿咱们当傻子

拿咱们当傻子

生活魔术专家
2025-11-06 13:10:54
新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

财经智多星
2025-11-07 12:55:51
朱婷登热搜第二!轰27分率河南3-0天津 单局20扣14中彰显王者霸气

朱婷登热搜第二!轰27分率河南3-0天津 单局20扣14中彰显王者霸气

颜小白的篮球梦
2025-11-07 20:46:34
生了三胎后,67岁的梁锦松为了让41岁的伏明霞再拼第4胎

生了三胎后,67岁的梁锦松为了让41岁的伏明霞再拼第4胎

没有偏旁的常庆
2025-11-07 06:41:13
貂皮水洗退货后续:警方介入,宝妈身份被扒已社死,商家还有后手

貂皮水洗退货后续:警方介入,宝妈身份被扒已社死,商家还有后手

青梅侃史啊
2025-11-07 09:02:32
福建舰正式服役!美媒预测出现失误,中国第三个航母战斗群成军

福建舰正式服役!美媒预测出现失误,中国第三个航母战斗群成军

阿柒的讯
2025-11-07 16:38:39
斯诺克赛程:半决赛17局9胜,中国德比上演,吴宜泽复仇赵心童?

斯诺克赛程:半决赛17局9胜,中国德比上演,吴宜泽复仇赵心童?

刘姚尧的文字城堡
2025-11-07 07:19:01
广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

都市快报橙柿互动
2025-11-07 12:19:20
赵鸿刚:已经签了6场扇耳光比赛,如果医生允许,想完成剩下5场比赛;此前其眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

赵鸿刚:已经签了6场扇耳光比赛,如果医生允许,想完成剩下5场比赛;此前其眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

极目新闻
2025-11-07 00:52:34
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
啊!又是腿筋拉伤!NBA状元郎都顶不住

啊!又是腿筋拉伤!NBA状元郎都顶不住

篮球实战宝典
2025-11-07 19:47:12
人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

山河路口
2025-11-06 13:54:49
2025-11-07 21:39:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
1855文章数 92关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

美媒:卢拉乘中国电动汽车抵达峰会会场

头条要闻

美媒:卢拉乘中国电动汽车抵达峰会会场

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

本地
家居
数码
公开课
军事航空

本地新闻

这届干饭人,已经把博物馆吃成了食堂

家居要闻

现代自由 功能美学居所

数码要闻

海信RGB-Mini LED电视携手帝瓦雷亮相巴黎歌剧院

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版