网易首页 > 网易号 > 正文 申请入驻

大模型角力视觉推理,推理AI新时代来临?

0
分享至

21世纪经济报道记者孙燕 上海报道

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。

7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入,可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推理,理解复杂的物理世界。”在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视觉理解能力有机结合在一起。

今年以来,视觉推理成为大模型竞争焦点:OpenAI推出o3和o4-mini,首次实现将图像融入推理过程;字节跳动旗下火山引擎发布豆包1.5深度思考模型,具备视觉推理能力;阿里通义发布QVQ-Max,支持图像解析、视频分析等能力。

“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力,能够做什么?

中信建投证券研究指出,多模态模型可以直接“看到”PDF 中的图片、图表、表格布局等视觉元素并从中提取信息,同时也能理解PDF的页面布局,例如识别标题、段落、列表、表格的位置和关系,这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例,首先可以用于图片理解,如看图买菜;也可以用于数学与科学推理,尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目,视觉推理能够支持复杂题解、多步演绎与公式理解。此外,大模型具备时序分析与事件逻辑建模能力,能够用于视频理解。

人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真正的生产力。

此前,大模型可以用于代码生成;而视觉推理能力使得AI能够“看懂”和“理解”视觉信息,比如用户界面(UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户操作界面,形成精准的操作逻辑。”据张鹏介绍,GLM-4.1V-Thinking能够用于GUI与网页智能体任务,实现交互操作;还可以用于视觉锚定与实体定位(Grounding),通过语言与图像区域精准对齐,提升人机交互可控性。

国盛证券研究指出,视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户提供多模态Agent体验。

可以看到,视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位(Grounding)、GUI Agent和代码生成。中信建投证券也指出,其缺点在于处理信息过多时容易出现幻觉,对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。

面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。

如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。

长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。

另一方面,大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
239695文章数 743878关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
健康
旅游
手机
教育

2026年了,最好看的还是“这件针织”!

转头就晕的耳石症,能开车上班吗?

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

教育要闻

高考地理中的花海经济

无障碍浏览 进入关怀版