网易首页 > 新闻中心 > 新闻 > 正文

头部大模型公司进京赶考,向量数据库成为应考神器

0
分享至

(原标题:头部大模型公司进京赶考,向量数据库成为应考神器)

日前,「模型思辨」国内大模型产业生态研讨会在北京举办,Zilliz 与360集团、阿里巴巴、昆仑万维等来自大模型产业链的头部公司及投资机构参会,会上 Zilliz 创始人兼首席执行官星爵、 360集团创始人周鸿祎、昆仑万维创始人方汉等重量级嘉宾更是从不同角度分享了对大模型的独到见解,精彩观点的交织与碰撞背后,是众人对于中国大模型未来的积极探索与期待。

其中 ,值得关注的是对于向量数据库的探讨, 星爵从大模型存储的角度为大家详解向量数据库之于大模型的重要意义。

头部大模型公司进京赶考,向量数据库成为应考神器

星爵认为:

●移动应用时代程序开发经历了从复杂到简单的过程,AI 浪潮的来临却从侧面提高了程序开发的成本,大模型时代之下 CVP Stack 这种新范式的出现改变了这一现状,在其加持下,人人都可能是 AI 时代的工程师。

●大模型的发展离不开存储这一关键点,其中以 Milvus 和 Zilliz Cloud 为代表的向量数据库扮演着大模型记忆体的角色,可以让大模型们进行知识增强。

●下一个杀手软件会是智能体,它同样需要向量数据库的存储和检索能力。可以预见,向量数据库将迎来快速的市场规模增长,未来可期。

头部大模型公司进京赶考,向量数据库成为应考神器

图为Zilliz创始人兼首席执行官星爵

以下是星爵演讲的精彩观点:

从移动应用时代到大模型时代

当下的时代常被冠以很多花里胡哨的称谓,然而早在十年前,硅谷便感受过同样的热情。当时硅谷的每个周末或者任何一座大城市都有一群人在兴奋地探讨 iOS 和 Android。十年,我们见证了移动技术的成长,改变了生活的方方面面。

十年前,之所以有那么多移动开发者涌入这个赛道,原因是安卓和 iOS 极大地简化了移动开发的工具栈,降低了手机程序应用开发的难度。回到 AI 领域,尽管在过去十多年的时间里它一直处于不断升温的状态,但实际上整个领域的 Stack 比重相当高。这意味着,如果你想开发一个完整的 AI 程序,需要在不同板块中至少选择1-2个项目,并将这几十个项目串成自己要做的解决方案。

大模型出现以后,工具栈变得更加简化,开发者可以在一个周末的时间做出一个不错的 demo。而这并非是天方夜谭,CVP Stack 模式就可以实现。其中,C 的意思是以 ChatGPT 为代表的大模型,它在 AI 程序中充当中央处理器的角色;V 代表 Vector Database,即以 Milvus 为代表的向量数据库,充当 embedding storage 的角色;最终会通过 prompt 的方式进行交互。

总结来看,在大模型时代下,无论你是否写过代码,只要你有一个 ChatGPT 账号、会写 prompt、找到一个 embedding 的数据库为模型提供相关领域的知识,甚至说为其提供一个缓存层,具备以上条件,你可以轻而易举地成为一个很好的工程师。举个例子,我们的同事用了两天就做出了一个ChatGPT + Milvus 向量数据库的应用,他的名字叫 OSSChat,用于解决开源项目文档冗长、不易查找等问题,目前已经支持几十个主流的开源项目,每天都有很大的访问量,用户甚至可以去生成开源项目的代码。

存储比计算更便宜,大模型也不例外

大模型更新的时间比较长,知识也具有一定的滞后性(例如 ChatGPT 的知识只停留在2021年底),如果用现在的数据库存储方式,可以把最新的知识提供给向量数据库,对大模型进行知识增强,可以得到更好的答案。不止如此,大模型的训练成本高昂也是不争的事实。

这次我想重点谈谈成本问题。在计算机发展史中,最经典的架构是冯·诺伊曼架构,最核心的贡献就是实现存储与计算分离,即把所有信息、所有计算归为计算问题和存储问题。存储与计算分离有各种各样的好处,传统的冯·诺伊曼架构是把信息用二进制代表,实现存储和计算分离。

大模型的本质是复杂的神经网络,在这个神经网络中任何数据的传输都需要 embedding 作为中间介质,可以说,embedding 就是传输信息的基本单元。因此,embedding 是在传统的抽象之上覆盖了一层适合 AI 或大语言模型进行语义抽象的数据表示。

而向量数据库负责的是 embedded 语义数据的存储与检索。我们要把大语言模型和向量数据库分为两个模块,就是存储与计算分离,正如冯诺伊曼架构一样。这样做的好处就是历史上存储价格永远比计算价格便宜几个数量级以上,大语言模型也不例外。假设有一个大模型可以做100 KB Token,同样条件下,给到大语言模型运算的成本远大于做向量召回。如果这个大模型要做1000 Token 呢?运算成本将更加昂贵。虽然大语言模型未来会有越来越大的 Token 窗口,但我们本质上不会把所有信息都分到大模型里面,且大模型不能覆盖全世界所有信息。

未来向量数据库应该会成为大语言模型存储的标配,传统的数据库之所以不适合为大模型做存储,是因为它们没有语义表达且不能提供语义存储。如果说现在有一种数据库方案和存储方案,能够提供语义检索的话,只能是向量存储。

下一个 Killer App

讲完过去一年半年的机会,我们来聊聊下一个机会是什么?

老周和轶航的对话有讲到智能体越来越被认为是下一代 Killer App,对此,我很认同。大模型还需要人不停地给予提示,智能体就是希望通过做任务和场景拆解,解决无限复杂的问题,最终实现和人一样的自我演进的能力,或者形成自己独特观点和演化的能力。

智能体需要记忆。人类的大脑有一个区域叫做海马体,负责长期记忆。记忆是人类智能很重要的部分,不可能今天把昨天的事情忘记还说自己很聪明。行业里面的正在尝试用向量数据库为智能体存储长期记忆,因为向量数据库的成本是很可控的。

未来如果每个人都能够有几十个智能体帮助我们生产生活,像向量数据库这样具有语义检索的存储市场会迎来很大的增长。Zilliz 开始做世界上第一款向量数据库的时候,内存应用场景根本不是大语言模型,更多的是图片搜索、视频搜索,包括个性化的搜索引擎,但本质上都是用神经网络做成向量嵌入。大语言模型开发门槛的降低让这个领域成为面向开发者友好的 Killer 领域,所以我们认为向量数据库这个领域未来几年将迎来快速的增长与更加庞大的市场规模。

大模型时代,未来可期,而作为大模型记忆体的向量数据库,同样值得期待!

相关推荐
热点推荐
38秒28,中国接力男队夺得佛罗里达东海岸接力赛男子4X100米冠军

38秒28,中国接力男队夺得佛罗里达东海岸接力赛男子4X100米冠军

直播吧
2024-04-28 09:11:33
再回安联!安帅执教拜仁遭5名老将反对后下课,罗本直言训练量少

再回安联!安帅执教拜仁遭5名老将反对后下课,罗本直言训练量少

直播吧
2024-04-28 19:08:12
没周琦也能赢G1!广东队祭出“辽宁克星”,曾完爆韩德君+莫兰德

没周琦也能赢G1!广东队祭出“辽宁克星”,曾完爆韩德君+莫兰德

绯雨儿
2024-04-28 12:20:52
詹姆斯经纪人里奇-保罗携妻子阿黛尔观战湖人vs掘金G4

詹姆斯经纪人里奇-保罗携妻子阿黛尔观战湖人vs掘金G4

直播吧
2024-04-28 11:19:27
女人隐私为什么只给丈夫看?一位女性的真实说法,让你大开眼界

女人隐私为什么只给丈夫看?一位女性的真实说法,让你大开眼界

社会潜伏者
2024-04-29 02:45:50
瓜帅:福登生病了已经回曼彻斯特了,漫长的赛季里会有这种事

瓜帅:福登生病了已经回曼彻斯特了,漫长的赛季里会有这种事

懂球帝
2024-04-28 23:14:35
你听过父母那辈的八卦故事吗?网友:老一辈玩得比我们开放多了

你听过父母那辈的八卦故事吗?网友:老一辈玩得比我们开放多了

肖娱谈
2024-03-30 20:37:49
燃油车的最后一届车展?北京车展全新油车仅有6款

燃油车的最后一届车展?北京车展全新油车仅有6款

新汽车志
2024-04-28 09:05:25
再见崔永熙,全美排名第四,17岁小将臂展2米3或成下一个易建联

再见崔永熙,全美排名第四,17岁小将臂展2米3或成下一个易建联

体育新角度
2024-04-28 19:48:09
黑龙江“蛇女”刘玉平:06年收留一条蛇,隔天拖家带口一住17年

黑龙江“蛇女”刘玉平:06年收留一条蛇,隔天拖家带口一住17年

我是斌哥哥
2024-04-25 17:04:39
《城中之城》大结局:赵辉受贿2000万!苗彻升行长,周琳献身高管

《城中之城》大结局:赵辉受贿2000万!苗彻升行长,周琳献身高管

娱乐八卦木木子
2024-04-28 21:59:20
“我孩子没做错”,9+9÷3等于12被打红叉,家长质问老师反被打脸

“我孩子没做错”,9+9÷3等于12被打红叉,家长质问老师反被打脸

红丽说教育
2024-04-28 10:51:17
信号强烈!央妈放水方式变了!看空房价的人慌了

信号强烈!央妈放水方式变了!看空房价的人慌了

有事问彭叔
2024-04-28 14:21:02
雷军车展大赞特斯拉!称要学习特斯拉的主要技术赛道

雷军车展大赞特斯拉!称要学习特斯拉的主要技术赛道

智车情报局
2024-04-26 15:22:50
没人生娃了?上海一医生称:从90年代一晚上8个剖腹产到1个没有!

没人生娃了?上海一医生称:从90年代一晚上8个剖腹产到1个没有!

户外钓鱼哥阿勇
2024-04-28 15:27:02
汪小菲高调秀恩爱,马筱梅与婆婆正式同框,乖巧敬酒深得张兰欢心

汪小菲高调秀恩爱,马筱梅与婆婆正式同框,乖巧敬酒深得张兰欢心

娱乐圈酸柠檬
2024-04-29 01:56:36
乌克兰总理宣布:乌克兰将彻底放弃后苏联社会政策模式

乌克兰总理宣布:乌克兰将彻底放弃后苏联社会政策模式

探索星空
2024-04-28 10:32:57
山东三家制造大厂相继停产,员工遭解散,暴露我国经济发展中隐患

山东三家制造大厂相继停产,员工遭解散,暴露我国经济发展中隐患

小宇宙双色球
2024-04-28 20:38:32
中国最美“臀后”宋昱欣,肉感曲线身材,与卡戴珊对比,谁更胜?

中国最美“臀后”宋昱欣,肉感曲线身材,与卡戴珊对比,谁更胜?

天保影视V3
2024-04-21 11:45:00
大比分2-2!泪目!哈登mvp!莱昂纳德西装革履不打。

大比分2-2!泪目!哈登mvp!莱昂纳德西装革履不打。

百里无心
2024-04-29 07:21:18
2024-04-29 08:18:44

头条要闻

梅德韦杰夫:建议修订俄罗斯法律 以反制美没收俄资产

头条要闻

梅德韦杰夫:建议修订俄罗斯法律 以反制美没收俄资产

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

上财万字报告深度解读Q1经济

科技要闻

特斯拉生死时速,马斯克西天取经

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

教育
时尚
亲子
公开课
军事航空

教育要闻

大学生姐姐辅导三年级弟弟,过程当中数次发飙,最后直接崩溃

裤子+小猫跟,这个组合气质又好看

亲子要闻

一岁多萌娃语言天赋拉满,轻松用英语拿捏爸爸,网友:笑不活了

公开课

父亲年龄越大孩子越不聪明?

军事要闻

也门胡塞击落美军"死神"无人机 并展示残骸

无障碍浏览 进入关怀版
×