网易首页 > 网易号 > 正文 申请入驻

周鸿祎:多模态是大模型发展的必经之路,与物联网结合是下一个风口|最前线

0
分享至

36氪获悉,近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中,360推出智脑·视觉大模型及多款AI硬件产品,并宣布360智慧生活正式切入SMB市场。

360方面表示,近年传统深度学习算法在安防场景中的局限性愈发突出,具体表现为算法通用、场景不通用、边端算法受限、内存受限等。对比之下,大模型有着更好的泛化能力,有望进一步突破传统算法的精度与数据局限,也能解决传统深度学习算法的数据依赖问题。

但另一方面,当前业内提及大模型,更多指的是大语言模型,其他模态的大模型数量不多。360认为,增强多模态能力,核心要借助大语言模型的认知、推理、决策能力。

于是,此次360智慧生活决定将视觉感知能力与360智脑大语言模型相结合,并针对安防场景进行行业数据微调,推出视觉及多模态大模型——360智脑·视觉大模型。360视觉云业务线总经理孙浩对外介绍,360智脑·视觉大模型现阶段主要聚焦开放目标检测(OVD)、图像标题生成、视觉问答(VQA)三项能力。

会议中,360集团创始人周鸿祎也针对这一话题发表演讲。

周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT真正的智能。

谈及视觉大模型的研发过程,周鸿祎进一步介绍,360是在视觉感知能力基础上,融合千亿参数“360智脑”大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调,最终推出360智脑-视觉大模型。

“大模型将带来一场新工业革命”,周鸿祎表示,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预测,多模态大模型与物联网的结合将会成为下一个风口。

以下是周鸿祎演讲内容(经部分删减),供读者参考:

大家好,很高兴今天来参加视觉大模型的发布。

今天主要想分享一下,现在正火热的大模型和智能硬件的结合。很多人肯定很奇怪,360已经有了360智脑,就是360的大语言模型,为什么又出来一个视觉大模型呢?我还是先分享几个我对大模型和生成式AI的观点。

其实AIoT这个概念已经不新鲜了,这个行业所有做智能硬件的人都会标榜,我不仅仅是物联网设备,都是AIoT,这个A就是AI。但是我们今天谈到的AIoT的概念,可能要重新刷新过去旧的AIoT的概念。

实际上生成式AI,或者叫ChatGPT的出现,预示着一个真正的人工智能,或者叫强人工智能,或者叫超级人工智能的拐点真正产生了。原来的AIoT,跟它聊两句天就聊不下去了,很多音箱的功能最后就没有人去用了,很多摄像头的能力也只是起到一个事后录像的作用。

那么,这次大语言模型的问世,标榜着一个真正的人工智能时代的来临。我觉得有两个分水岭:

第一,过去我们做的人工智能都是垂直人工智能,为完成一个特定的任务就得有一套特定的算法,一个特定的模型,很难通用。而这次大语言模型它用一套算法,一套模型结构,一套训练的思路,解决了人工智能中很多过去很碎片化的问题。

第二,还有一个区别,这次大语言模型虽然也容易给大家一个误解,好像是只能解决语言的问题。但是,在人工智能领域,如果把语言的问题给解决了,这件事是非常了不起的,是皇冠上的明珠。人类的语言基本上定义了人类所有的知识,如果一个大语言模型能够真正地理解人类所有的语言,能够很自然的做出各种交流和理解,包括各种推理,就意味着它第一次完整把人类世界的知识有了一个充分理解。

原来比如最常见的图像识别,名词叫Computer vision,就是CV,或者计算机视觉。实际上很多时候是在工作层面感知,像人的视网膜的原理。但是,人之所以能成为万物之灵,不光是眼睛看到了当前的情况,所有看到的情况是可以在大脑里有相应反应的。所以,大语言模型工作在认知层面。

我不知道有没有人注意到,这次OpenAI的一个技术合伙人提到他们做视觉模型的时候,讲如果你是基于大语言模型,完整理解这个世界的知识之上再来理解图像,你的理解程度是非常不一样的。

所以,我也给大家讲一个观点,大家不要被“大语言模型”这五个字给弄糊涂了,就以为它只能解决语言问题,错了。实际上大语言模型之所以称为叫通用人工智能,大家应该相信,它是在理解了我们这个世界的所有知识之后,能够解决计算机听觉、视觉的很多问题。而且未来可能在机器人控制、自动驾驶,各个方面发挥神奇的作用。

为什么到现在真正的自动驾驶没有实现。一个很简单的道理,就是它们目前都是在感知层面的识别,雷达告诉你前方有障碍物,而不是在认知层面。如果我们的人工智能不能模拟人的认知层面的人的反应和工作,而仅还停留在一个视网膜感知的层面,我想真正的自动驾驶可能一辈子也出不来。

所以,大语言模型之所以被称为叫通用人工智能,不光是在自然语言处理上发挥作用。它在计算机视觉,在自动驾驶等场景上都能有作用。将来,在蛋白质折叠分析,人类基因组序列分析等很多方面,我觉得大语言模型可能都会带来各种各样的惊喜。

今天我们在大语言模型上取得了突破,就有能力在大语言模型的基础上来思考,到底怎么样能做出一个真正的AIoT。这个AI,如果是大语言模型驱动的AI,它就是真正的强人工智能。

我的第二个观点,也想讲讲为什么今天我们要来讲一个智能硬件的场景。

大语言模型问世以后有很多种观点,但是,我觉得它肯定不是每个人上来马上就能玩的东西。所以,我觉得大语言模型实际上是一个提高生产力的工具。它更像是电脑,更像是手机这种发明,意味着带来一场工业革命级的更新。

人工智能折腾了很多年,实际上离我们很多人的日常工作和生活的场景还比较遥远。这次以GPT为代表的大模型确实让人类的人工智能到了一个PC时代,到了一个iPhone时刻。

微软给我们做了一个典范,把它所有的产品“全家桶”都拿大模型重塑了一遍。实际上这里我们也讲过很多,比如360的场景里面浏览器怎么改造、搜索怎么改造,360安全卫士的桌面如何改造?但其实还有一个更大的领域,就是智能硬件。我觉得智能硬件实际上也是硬件化的APP,那么它如何能够与大语言模型结合?这场工业革命中,智能硬件这个场景将会扮演什么样的角色?

我也和团队说,过去我们讲互联网思维,未来可能叫大模型思维,过去我们是讲“互联网+”,以后可能是“人工智能+”。或者以后人工智能这个词改一下,新的人工智能可以叫“认知型人工智能”,或者叫“生成式人工智能”,或者叫“大语言模型人工智能”,跟原来老的人工智能概念不太一样。

我想再分享一个观点。大语言模型发展到现在,有一个巨大的方向,就是它要从单一的识别文字到能够识别图片、视频、语音,就是我们所说的多模态。GPT-3.5你可以认为是一个强人工智能的拐点,GPT-4.0比GPT-3.5领先了很多,国内我们很多同行做的产品,包括360的智脑离GPT-3.5比较近了。但是GPT-4.0如果是100分,国内的水平大概也就在70分左右。

GPT-4.0除了对知识的理解更加深入,推理更加复杂,其中有一个很重要的要求就是它有多模态的处理能力。比如文生图,就是你提出要求,它生成图片,这个只是完成了多模态的输出部分。实际上真正的多模态是你能给它一张图片、视频,大语言模型不仅能够认出来这张图上有谁,最重要的是能认出来图上的人都在干什么,他们互相之间有什么关系,能读出图里边蕴含的意思,这个没有对人类知识的了解,是不可能做到的。

所以,现在整个大模型的发展之路必然是多模态,多模态就是能够输入图像和视频,能够输出图像和视频,能够输入声音和音乐,也能够输出声音和音乐。当然,现在一个完整的多模态的大模型全世界不存在,GPT-4也只是宣布了有这个能力,这个能力还没有对外输出,这也是代表了大模型下一步皇冠上的明珠。所以,今天我们把我们在多模态上的一部分成果会拿来给大家做一些展示。

如果有了多模态大模型之后,我觉得和物联网结合就可能变成下一个风口。一直有人说机器人和大模型之间的关系。实际上把很多智能硬件,包括机器人和大语言模型接起来,就相当于给很多智能硬件有了灵魂,有了真正的大脑,不仅有了感知的能力,还有了认知的能力。

我曾经开玩笑,如果ChatGPT有了自我意识之后,又有了能下单的能力,它买的第一个物品是什么?我说它一定首先给自己买一个智能摄像头给自己接上,因为它就能真正地看懂这个世界。我们还有麦克风,我们有扬声器,接上大模型之后,相当于它有了耳朵、有了嘴巴。

360为什么能做视觉大模型呢?第一个基础是说360已经训练了一个千亿参数的智脑,一个基于文字,基于自然语言理解的一个认知大模型。第二个360做智能摄像头也做了有好多年了,有百亿级的安防行业数据可以进行训练和微调。所以这次我们基于这种安防的背景,能够去训练一个视觉大模型。

原来我做摄像头的时候,最大的感慨是什么?我们的摄像头无法事前报警,我们在很多地方发挥的作用就是出了事之后去找摄像头录像,来做事后的事故的复核。比如说,我们听到很多家庭里边老人在起居室里摔倒了,或者小孩儿爬到一个没有窗户的危险地带向上攀爬,原来的摄像头可能能认出来有老人,有小孩儿,但是他不能理解画面的语义,所以它也就不能做出正确的判断。

但是,当你有了一个大语言模型多模态能力为支撑的,真正的认知型大脑的时候,当你的摄像头看到这个场景的时候,你自然就会联想起来这个老人可能处在危险之中,这个小孩儿可能现在有可能掉到窗户外面去,从而就能够提前预警,发布警告。

现在我们有两个团队在密切配合,也就是说,大语言模型团队积极帮助我们另一个团队构造视觉的模型。这个视觉大模型构造出来之后,又可以成为我们360大语言模型的一部分,构成我们多模态的能力。有了多模态能力的大模型,它增强了360智脑能够看懂图片,看懂视频的能力。现在,听见声音的能力还在研发,一旦把听懂声音,看懂图片,能够连续看懂多组图片的能力合在一起就变成了识别视频的能力。

之前大家所设想的场景还是以偏软件、网站、应用为主,这次我们希望让大模型的能力从数字世界走向物理世界,基于多模态技术的大语言模型,和智能硬件的结合是下一个风口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外企在北京遇“莫须有抵押担保”陷阱,7000万房产面临拍卖之忧!

外企在北京遇“莫须有抵押担保”陷阱,7000万房产面临拍卖之忧!

兵叔评说
2024-04-26 20:41:39
曝全红婵高烧不退参加比赛!比赛结束后坦承难受、后悔失冠的陈若琳表现温暖人心

曝全红婵高烧不退参加比赛!比赛结束后坦承难受、后悔失冠的陈若琳表现温暖人心

阿芒娱乐说
2024-04-27 07:50:26
五角大楼允许乌克兰使用 ATACMS 打击克里米亚目标

五角大楼允许乌克兰使用 ATACMS 打击克里米亚目标

老马拉车莫少装
2024-04-26 10:16:23
袁立发福也美丽!亲切揽着农民工兄弟的肩,穿衣随意却无比漂亮

袁立发福也美丽!亲切揽着农民工兄弟的肩,穿衣随意却无比漂亮

云泽点评汇
2024-04-26 11:27:01
TikTok与字节跳动美国总法律顾问安德森将离职

TikTok与字节跳动美国总法律顾问安德森将离职

王大健美食日常
2024-04-27 08:28:53
54岁大妈闪婚30岁小伙,半个月后,大妈:每晚运动,我无法消

54岁大妈闪婚30岁小伙,半个月后,大妈:每晚运动,我无法消

户外阿崭
2024-04-26 19:45:44
油价“跌翻天”!4月27日:调价后92号汽油价格,猪价如何?

油价“跌翻天”!4月27日:调价后92号汽油价格,猪价如何?

猪友巴巴
2024-04-26 14:23:15
谁也不一定赢谁,德转晒英超20队“食物链”形成闭环

谁也不一定赢谁,德转晒英超20队“食物链”形成闭环

懂球帝
2024-04-27 11:54:10
地下假“伟哥”工厂:白天干活,晚上按摩店试药,做出来的假货比真药还猛……

地下假“伟哥”工厂:白天干活,晚上按摩店试药,做出来的假货比真药还猛……

户外小阿隋
2024-04-27 07:45:03
布林肯访华,西方一夜之间改变态度:中国又成“香饽饽”?

布林肯访华,西方一夜之间改变态度:中国又成“香饽饽”?

头条爆料007
2024-04-27 08:45:44
赵睿18+5 齐麟16分 崔永熙11+5&7失误 新疆3-1淘汰广州

赵睿18+5 齐麟16分 崔永熙11+5&7失误 新疆3-1淘汰广州

直播吧
2024-04-26 21:45:47
未来拉开孩子差距的不是智商,而是4种能力,越早培养越好

未来拉开孩子差距的不是智商,而是4种能力,越早培养越好

神奇麻麻木小暖
2024-04-24 16:10:03
怎么看球队单外援出战?王大雷:谁是外援?

怎么看球队单外援出战?王大雷:谁是外援?

懂球帝
2024-04-26 23:19:13
曝光后才知道:财政如此吃紧,钱都花去哪了?原来是这样花掉的!

曝光后才知道:财政如此吃紧,钱都花去哪了?原来是这样花掉的!

清欢渡语
2024-04-25 21:35:47
S妈黄春梅上线,汪小菲、具俊晔全被怼,大S在家疑已失主动权!

S妈黄春梅上线,汪小菲、具俊晔全被怼,大S在家疑已失主动权!

郑丁嘉话
2024-04-25 14:03:50
副省长胡长清被枪决前一小时的对话

副省长胡长清被枪决前一小时的对话

壹贰叁的壹
2024-04-24 09:41:58
《城中之城》的陶无忌,越看越讨厌,难道是我的认知有问题吗?

《城中之城》的陶无忌,越看越讨厌,难道是我的认知有问题吗?

昏鸦的啰里啰嗦
2024-04-26 17:04:57
要问伊朗的反击到底是不是“怂了”,我只能说:跟以色列一个水平

要问伊朗的反击到底是不是“怂了”,我只能说:跟以色列一个水平

乌鸦校尉
2024-04-26 11:54:37
久保建英:我那进球在欧冠不会被吹 看了比赛都知道我们配得上赢

久保建英:我那进球在欧冠不会被吹 看了比赛都知道我们配得上赢

直播吧
2024-04-27 11:54:24
天生命硬的5个生肖,一辈子少灾少病,不是官就是富!

天生命硬的5个生肖,一辈子少灾少病,不是官就是富!

书山有路勤为径
2024-04-26 17:22:10
2024-04-27 13:04:49
36氪
36氪
让一部分人先看到未来
144103文章数 2838149关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

俄罗斯法院下令:冻结美国最大银行摩根大通在俄资产

头条要闻

俄罗斯法院下令:冻结美国最大银行摩根大通在俄资产

体育要闻

硬不起来的阿波,软不下去的切特

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

家居
手机
健康
游戏
公开课

家居要闻

光影之间 空间暖意打造生活律动

手机要闻

Google Pixel 8a 更多官方渲染图出现

这2种水果可降低高血压死亡风险

《魔法使之夜》复刻版销量破20万!型月原点之作

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版