网易首页 > 网易号 > 正文 申请入驻

AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?

0
分享至

智东西4月2日报道,当前,大模型技术正在加速渗透到行业数字化进程中,赋能新的应用场景,为各行各业创造价值。

近期,在北京市召开的人工智能企业代表座谈会上,旷视科技联合创始人、CEO印奇表示,旷视将基于对行业的深入理解,推动多模态大模型的技术创新和行业应用。同时,旷视将发挥在软硬结合方面的优势,围绕“大模型+机器人”的发展方向,推动人工智能为实体产业创造更大价值。

旷视布局大模型的实际进展如何?公司高层对大模型研发和产业落地有什么样的见解?智东西获悉,多模态行业大模型具身智能,是旷视围绕大模型进行布局的一个主逻辑

当下正值新的AI视觉浪潮兴起,从去年爆火的ChatGPT到今年的Sora,从机器人Figure01的诞生到呼之欲出的GPT-5,产业的关注重心正从文本转向视觉,从单模态转向多模态。

作为深耕深度学习技术超十年的旷视科技,也正从一家AI视觉公司,进化成一家多模态大模型公司

在业内不少人士看来,当下AI发展脉络可分为AI 1.0及AI 2.0,但印奇认为,AI的演进是一个连续的过程。从CNN、ResNet到Transformer,在上面的视觉、语音、NLP,都在从独立发展走向融合,从量变走向质变

按照印奇的规划,旷视将面向AGI(通用人工智能)目标,基于其在视觉模型及软硬结合方面的优势,聚焦多模态大模型领域,逐步实现具身智能的价值主张;同时基于行业大模型,坚定走通2B(面向企业的)商业变现路径。

一、AI视觉拥抱“大一统”,旷视驶向多模态

尽管视频生成模型Sora风靡全球,但AI视频领域的头部国产玩家旷视志不在此。

OpenAI做的Sora是它们走向AGI的一个很重要的技术节点,随之产生了文生视频潜在应用,但更多是为了推动GPT-5。因此,重点是要理解其底层的技术框架,而不是Sora应用本身。

同时,在图像视频的领域,要将“生成”和“理解”分开来看。如果将Sora作为独立应用来看的话,它聚焦视觉生成领域,核心应用场景更偏C端;旷视聚焦视觉感知理解侧,其多模态大模型是一个对图片、视频、文字等各种模态综合识别理解和做逻辑推理的引擎。因此,旷视不会去做Sora,不会涉足太多生成式AI领域,而是专注于理解能力上,面向2B业务打造行业应用。

基于这样的考虑,旷视对自己的定位是打造数十亿至数百亿参数之间的多模态大模型。

旷视在视觉模型领域的多年积累,是其打造多模态大模型的基础。同时,数十亿至数百亿参数规模属于中大型模型,已具备较好的通用属性,且在行业部署成本、硬件适配度等方面是一个较好的区间。

当前,视觉模型领域呈现出“大”“统一”的趋势。“大”意味着大数据、大算力和大参数量,“统一”体现在NLP、视觉、语音等模态的融合,以及感知、理解和生成能力的融合。印奇表示,旷视做多模态大模型,本质上在视觉走向大一统路径的背景下,补全了语言模型方面的能力,并把它们结合在一起,以符合现在这种多模态大模型新的技术趋势。

本质上,旷视正在从一家AI视觉公司,进化成一家多模态大模型公司。

从视觉大模型,到生物识别、计算摄影、自动驾驶等垂类算法,是旷视近十年来长期投入研发的领域。旷视本身在关于视觉的技术、数据和底层框架上都拥有很深的积累,并在此基础上补齐了在语言方面的能力,布局多模态大模型,是顺理成章的。

从资源投入角度来看,旷视研究院目前聚焦两大方向:一是坚定投入多模态大模型的研发,二是做机器人和大模型的结合。旷视已从传统意义上基于AI视觉的垂类算法研发,进化到了与大模型深度结合的研发赛道。

纵观当下多模态大模产业,市面上主要有三类玩家,分别是从文本、从视频或是直接从多模态,切入多模态大模型领域做技术研发和落地。

业内人士告诉智东西,图像是一个比文本更难的问题,因此旷视从视觉模型切入多模态,或许要比市面上的文本模型玩家切入多模态更容易。

二、聚焦行业大模型,企业共创抵达“最后一公里”

当下我国大模型发展如火如荼,已居于全球大模型发展前列。但同时,大模型产业仍面临数据、人才、安全等方面挑战,与全球最先进水平存在较大差距。

在这种背景下,发展行业大模型成为一条可能的捷径。

旷视科技是这一观点的支持者。基础大模型与行业结合,是要让大模型在高价值的行业里不断迭代和进化。

一方面,大模型已经能够解决不少的需求碎片化问题。据悉,旷视目前大量行业客户的需求都可以用大模型解决,包括知识库、文案总结、图像视频事件分析等多个方面。比如,有客户提出通过大量视频监测火情等情况,支持用自然语言描述进行系统交互;有客户提出建立支持文档、法条、行业经验等搜索的知识库,这些场景都可以通过大模型技术来实现降本增效。

另一方面,要让大模型真正攻破“最后一公里”并不容易,还需要在行业大模型上下功夫。为此,旷视基于自研可控的基础大模型,叠加行业里面的数据闭环,去打造行业垂直模型。

如何让大模型攻破行业落地的“最后一公里”?

按照印奇的观点,第一步,是要把基础模型叠加行业知识,让它变成金融模型、运营商模型等。因为基础大模型基本上无法覆盖这些行业本身的语料和数据;第二步,行业大模型需要与行业中的场景和终端联动,这就意味着在云端大模型以外,还需要配套一个能在端侧实现部署的附属模型。

旷视主张通过行业共创发展行业大模型。在行业大模型落地的过程中,大模型企业需要与行业从业者坐在一起,通过梳理需求并评估技术可行性,确保业务价值大于技术实施成本。

基于多年在AIoT(智能物联)行业的积累,旷视从深度行业理解商业化积累软硬结合技术三大方面建立布局行业大模型的护城河。

1、深度理解行业。做行业模型,需要以行业真正深度的行业应用和场景理解为驱动,才能不光是做一个简单的技术中台,或者是一个PaaS层,更重要的是要做到行业有价值的行业应用层和SaaS层。

2、商业客户及经验积累。大模型的行业落地强调产品和商业化“一体两面”,只有拥有非常好的行业、客户和商业化能力资源积累,才能持续在行业里做迭代。

3、软硬结合技术积累。大模型与行业的结合往往需要大模型的云侧和端侧的联动,也就是软硬结合。旷视多年来积累的“云+端”技术能力,也会帮助行业大模型的产业化落地。

总的来说,要真正将行业大模型的商业模式打磨出来,一定不是简单拿开源模型改一改就行了,还要有端到端的大模型能力,打造能基于行业需求灵活调节的大模型。

同时,行业大模型的本质上还是要以客户为中心,只有真的在行业浸泡很长时间,找到行业痛点,且能让需求方和供应方同时获得收益,才能让行业大模型成功抵达“最后一公里”。

三、软硬结合,布局“大模型+机器人”

如果说行业大模型是旷视的现在,那么“大模型+机器人”就是旷视的未来。

在过去十年里,旷视已将AI落地到了智慧城市、智能制造、智慧物流、消费电子等多个行业,这些都可能是未来机器人的核心应用场景。在这个领域布局行业大模型将为旷视提供自我造血能力,从而支持其进一步探索“大模型+机器人”的研发与落地。

印奇表示,旷视的发展历史清晰地表明,最初其专注于传感器和其运动部件,这些可以看作是机器人的“眼睛”。随后,旷视在物流领域开发了类似机器人“腿”的自动化系统。

目前,旷视正在预研机器人的“手臂”,包括工业机械臂和灵巧手。未来,旷视期望将眼、手、脚三者结合,打造泛机器人产品。

当前,旷视科技的重点有两个:一是物流领域的机器人,它们在搬运和腿部功能上表现出色;二是辅助和自动驾驶领域,旷视将提供核心的感知-决策-控制系统部件。

按照旷视的规划,其“大模型+机器人”战略是将愿景与能力结合,追求AGI(通用人工智能)和机器人技术,以实现与人类生活的深度互动和世界本质的美好变化。

在商业模式上,AI与新硬件结合带来巨大商业机会,类比从PC到手机的变革,机器人行业潜力巨大。技术发展需长期积累和成本控制,实现规模化推广。旷视致力于软硬结合和商业化,通过短期盈利闭环逐步扩大商业规模,目标成为AI机器人领域的全球领先企业。

结语:视觉走向大一统,旷视推动多模态落地行业

当下,随着AI成为发展新质生产力的重要引擎,AI视觉技术也正走向新的大一统。透过旷视科技在大模型领域的布局,我们看到视觉大模型正与文本模型加快融合,从而进入多模态大模型新阶段。

布局行业大模型是当下我国“AI+”发展的有效路径之一。在过去的十几年的时间里,旷视从技术长期坚持、迭代演进到商业模式不断探索,其技术积累及经验教训都有望促进其在行业大模型落地中,与企业共创攻破“最后一公里”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄军狼狈撤退!大规模攻势彻底翻车了

俄军狼狈撤退!大规模攻势彻底翻车了

知兵
2026-06-03 10:00:23
上海四大最憋屈板块,内环也逃不掉,100多万就能买进上海市中心

上海四大最憋屈板块,内环也逃不掉,100多万就能买进上海市中心

坠入二次元的海洋
2026-06-03 01:47:10
真是毁三观!释永信21年前与刘立明在郑州发生关系的笔录曝光

真是毁三观!释永信21年前与刘立明在郑州发生关系的笔录曝光

魔都姐姐杂谈
2025-07-28 14:35:36
一张照片看哭无数人:你看到的,不一定是真相

一张照片看哭无数人:你看到的,不一定是真相

有态度网友ytd2993
2026-05-30 01:06:26
上海32岁女子离婚2年求复婚,儿子一句传话让她瞬间崩溃痛哭

上海32岁女子离婚2年求复婚,儿子一句传话让她瞬间崩溃痛哭

捣蛋窝
2026-04-16 15:54:37
西热力江现状:定居杭州,和妻子分居,靠150元西瓜助力减肥

西热力江现状:定居杭州,和妻子分居,靠150元西瓜助力减肥

许樠很机智
2026-06-04 14:36:43
刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

无情有思ss
2026-06-04 10:54:23
1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

磊子讲史
2026-05-26 18:56:24
人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

阿讯说天下
2026-06-03 02:45:20
吃了23年中国饭娶了中国老婆,却砸了中国碗,如今自食恶果

吃了23年中国饭娶了中国老婆,却砸了中国碗,如今自食恶果

乡野小珥
2026-06-04 11:26:35
燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

快科技
2026-06-02 16:29:22
中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

今夜繁星坠落
2026-05-30 03:00:36
凯美瑞降到12万多,混动还值不值得多花那3万块

凯美瑞降到12万多,混动还值不值得多花那3万块

生活魔术专家
2026-06-04 08:51:17
亚马尔破4亿美元!世界杯巨星身价排行,姆巴佩第三,哈兰德在列

亚马尔破4亿美元!世界杯巨星身价排行,姆巴佩第三,哈兰德在列

祥谈体育
2026-06-04 10:35:14
樊振东留洋4个月豪夺3冠,却突然紧急提前回国,特训原因曝光

樊振东留洋4个月豪夺3冠,却突然紧急提前回国,特训原因曝光

大鱼简科
2026-06-04 15:03:05
老年人过夫妻生活时,要注意哪些问题?提醒:这5件事不能大意

老年人过夫妻生活时,要注意哪些问题?提醒:这5件事不能大意

健康科普365
2026-06-03 20:40:06
14999元折叠屏iPhone Ultra,真正卖点不只是能折

14999元折叠屏iPhone Ultra,真正卖点不只是能折

小柱解说游戏
2026-06-03 19:20:26
奚梦瑶婚礼被扒!场地费不超50万,婚纱赞助杂志宣传,全是生意?

奚梦瑶婚礼被扒!场地费不超50万,婚纱赞助杂志宣传,全是生意?

萌神木木
2026-06-02 11:07:12
菲律宾与广东同是1亿多人口,菲律宾创造3.3万亿,广东是多少呢?

菲律宾与广东同是1亿多人口,菲律宾创造3.3万亿,广东是多少呢?

南宗历史
2026-05-26 19:59:14
激光第一股,海外订单井喷!

激光第一股,海外订单井喷!

风风顺
2026-06-04 01:25:03
2026-06-04 16:16:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11971文章数 117092关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

数码
艺术
时尚
本地
军事航空

数码要闻

戴森V10 Optic无绳吸尘器国行发售,3299元

艺术要闻

唐寅『梅花册』

粗腿宽肩,正在成为中女审美新风向

本地新闻

用杨柳青年画的方式,打开天津

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版