网易首页 > 网易科技 > 网易科技 > 正文

星环科技分布式向量数据库Transwarp Hippo正式发布

0
分享至

(原标题:星环科技分布式向量数据库Transwarp Hippo正式发布)

随着企业、机构中非结构化数据应用的日益增多以及AI的爆发式增长所带来的大量生成式数据,所涉及的数据呈现了体量大、格式和存储方式多样、处理速度要求高、潜在价值大等特点。但传统数据平台对这些数据的处理能力较为有限,如使用文件系统、多类不同数据库存储上述数据,在数据存储管理、查询分析效率、数据价值挖掘等方面都存在一定的瓶颈,例如传统数据库查询是点查和范围查的一种精确查询,无法满足大模型下如智能问答、智能推荐等场景。

 

因此,企业急需一款或数款管理好非结构化数据的数据管理平台。业内常用的做法,是利用人工智能中的表示学习,将这些非结构化数据抽象、转换为高维度的多维向量,由此可以结构化地在向量数据库中进行管理,实现快速、高效的数据存储和检索过程,结合相似性检索特性,进而更高效地支撑更广泛的应用场景,比如智能推荐场景等。同时,随着大语言模型应用中对长文本处理和领域知识表示使用的深入,对向量数据库的需求也日益迫切。

 

近日,在向星力·未来数据技术峰会上,星环科技正式发布了分布式向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环分布式向量数据库Hippo支持存储、索引以及管理海量的向量式数据集,提供向量相似度检索、高密度向量聚类等能力,有效地解决了大模型在知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本,激发更多的AI应用场景。在赋予大模型拥有“长期记忆”的同时,还可以协助企业解决目前最担忧的大模型数据隐私泄露问题。

 

大模型的快速应用,推动向量数据库向高扩展、高性能、实时性方向发展

 

大模型正在与企业应用迅速结合,重塑企业应用中人与数据的交互方式。然而,不管是通用模型,还是微调出来的行业模型,都存在着一定的局限性:

 

实时性难题:模型训练需要很长的时间,可能需要半年或一年,实时资讯、新闻、市场行情等快速变化的信息,无法及时地内置到模型当中。

 

长Token难题:大模型的输入Token(文本中的最小单位)能力受到算力和工程化程度的限制。在这种限制下,例如无法将一家上市公司的全部年报数据输入进大模型,导致不能进行全面的分析。

 

精度校正难题:大模型虽然经过大量数据的长期训练,但很多场景下精准度还是不够,需要补充知识库进行校正,让其能够给出更准确的结果和更实时的信息。

 

目前,大模型训练所使用的数据包含了如文档、图片、音视频等各种类型的非结构化数据。用户可以通过表示学习的预处理方式将这些数据转化为多维向量,并存储在向量数据库中,从而可以很好地解决上述三个问题。比如,在应用端与大模型进行交互时,将输入的文字、图片等问题信息进行向量化,先进行语义搜索,找到相关的信息,将其拼接成提示词传递给大模型,大模型通过计算分析后反馈结果。

 

星环科技创始人、CEO孙元浩表示,“向量数据库承担了中间存储的角色,我们认为向量数据库就是大语言模型的海马体,是一个记忆体。其基本功能是能够存储多维向量,并提供进一步的检索。”

 

向量数据库早先被用于文本搜索或者语义搜索,过去不少公司用来做个性化推荐、构建知识图谱等。随着大模型的兴起,向量数据库可以让大模型更高效率地存储和读取知识库,并以更低的成本进行模型微调,进一步地激发AI应用场景。此外,几千、上万种应用带来海量的数据,需要一个高扩展的向量数据库来存放更多的数据信息。而向量数据复杂度的提升,模型推理速度的加快等也要求能够提供高性能的检索能力。实时动态变化的数据,对向量数据库的实时写入、实时更新、实现召回能力的要求变高,通过将实时资讯、实时新闻、市场行情等快速变化的信息及时地内置到模型中,使其能够提供更实时、更精准的结果。

 

星环科技分布式向量数据库Transwarp Hippo

 

星环分布式向量数据库Hippo作为一款企业级云原生分布式向量数据库,基于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后的多维向量进行统一存储和管理。通过多进程架构与GPU加速技术,充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。

 

与开源的向量数据库不同,星环分布式向量数据库Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对海量向量数据的高实时性检索等场景。

 

* 云原生技术,支持弹性扩缩容

星环分布式向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力。

 

* 高扩展性,海量向量数据存储

与直接利用各类算法lib不同,星环Hippo存储和计算都可以充分利用分布式特性,按需灵活扩展,满足大规模集群部署需求;通过Raft算法确保数据的强一致性;并提供故障迁移,数据修复等数据保障能力。

 

* 深度优化,高性能数据检索

星环分布式向量数据库Hippo支持多进程架构与GPU加速,充分发挥并行检索能力;支持基于检索速度和内存使用的特定优化,以及寄存器级算法优化;同时提供多类索引支持,满足不同需求不同体量的业务场景。

 

* 动态更新,实时检索

星环分布式向量数据库Hippo提供数据动态更新的能力,对于实时插入/更新的数据,可以快速完成数据的加载和索引的构建,解决向量数据T+1的传统处理逻辑,满足实时动态变化数据的向量检索分析。

 

* 多样化接口,丰富场景支持

星环分布式向量数据库Hippo供标准的Python、Restful、CPP、Java API等接口,可轻松对接各类应用和模型,提高应用开发和调用的效率。同时,提供类SQL接口,满足入库等特定场景,大幅降低使用和操作的难度。

 

* 多模型联合

基于TDH多模型统一技术架构,向量数据与关系型数据、图数据、时序数据等多种模型数据可进行统一存储管理,并通过统一接口实现数据跨模型联合分析。

 

具备高可用、高性能、易拓展等特点的星环分布式向量数据库Hippo,可以很好地满足企业针对海量向量数据的高实时性等场景。

 

* 文本检索

传统搜索引擎更偏向于词/句的精确查询,星环分布式向量数据库Hippo通过向量引擎提供自然语言处理能力,可以更好地支持基于语义的查询分析,让查询更满足人性化的需求。

 

* 语音/视频/图像检索

星环分布式向量数据库Hippo将多维向量特征构建成高效的向量索引,实现数据的相似性检索,可覆盖人脸识别、语音识别、视频指纹等多类AI场景。

 

* 个性化推荐

星环分布式向量数据库Hippo可与各类深度学习平台搭建的模型进行耦合,通过向量相似度检索,可以对用户行为与喜好等多方面进行分析、挖掘,做到千人千面的推荐效果。

 

* 智能搜索,智能问答

知识图谱的目的在于将结构化数据、非结构化数据以及这些数据、实体之间的关联关系进行存储和表达。通过星环分布式向量数据库Hippo可以将这些信息更好地进行表达和处理,给出符合需求的一系列近似答案和推荐查询。

 

向量数据库与图数据库联合,低成本、高效构建特定领域大模型应用

 

基于星环分布式向量数据库Hippo,可以有效地解决大模型在知识时效性低、输入能力有限、准确度低等问题。通过将最新资料、专业知识、个人习惯等海量信息向量存储在星环分布式向量数据库Hippo中,可以极大地拓展大模型的应用边界,让大模型保持信息实时性,并能够动态调整,使大模型拥有“长期记忆”。

 

通过建立垂直领域的知识库,对大模型输出结果进行校正,可以提高结果的精准度,在一定程度上解决“AI幻觉”问题。

 

此外,通过星环分布式向量数据库Hippo对向量数据进行存储,有效解除大模型对输入的限制,并且大模型在安全机制下访问向量数据库中的隐私数据,可以充分保证数据安全,杜绝隐私泄露风险。

星环科技分布式向量数据库Transwarp Hippo正式发布

 

然而,大模型只有向量数据库还不够。在召回的基础上通过提示工程确保数据更精确,更贴近实际场景,同样也是重要的一环。星环科技将分布式向量数据库Hippo和分布式图数据库StellarDB结合,并以此作为微调的数据凭依,可以更低成本、更高效地构建特定领域的大模型应用。

星环科技分布式向量数据库Transwarp Hippo正式发布

 

图数据库StellarDB和知识图谱联合,与大模型可视化端到端构建工具一起,提供了知识抽取融合、知识建模、知识图谱生成存储、基于大模型的知识问答等闭环功能。客户以知识图谱作为大语言模型提示即可发起模型微调,以较低代价就可获得行业的专属大语言模型问答应用。

 

将向量数据库、图数据库与大语言模型结合,可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更多更深入的业务场景AI应用。

 

例如,在询问某开源通用大模型关于某集团玉米收储价格、某集团主要合作上下游企业等问题,通用大模型没有行业知识,无法给出准确答案。而把农业知识图谱和向量数据库结合后,可以从知识图谱中去获取或者补充大模型的答案,使其可以精确地回答新收猪价以及价格影响等。

 

通过这样的组合可以解决大模型目前存在的三大问题。一是能够把实时的知识、变化的信息放到大模型中,二是能够校正结果的准确性,极大地提升精准度,三是构建相应的知识图谱,增强大模型的能力。

 

在星环科技此次推出的金融领域大模型“无涯”中,基于星环科技自身在金融领域积累的上百万金融专业领域的语料,结合图数据库StellarDB、深度图推理算法技术,形成了大规模高质量的金融类事件训练指令集,共同铸就了星环开发金融领域大语言模型的坚实底座。星环“无涯”大模型能够理解金融行业的术语,也能够执行特定的任务,比如分析上市公司的年报、公告,生成新闻摘要,判断特定新闻事件产生的影响等,提升分析师、研究员、投资经理的效率。



相关推荐
热点推荐
后续!广东高速塌方36死,85后小伙冒险连救6人,网友:奖励100万

后续!广东高速塌方36死,85后小伙冒险连救6人,网友:奖励100万

皖声微言
2024-05-02 10:03:14
疫苗之父落网!大V司马南第一时间发声!打过三针疫苗的注意了

疫苗之父落网!大V司马南第一时间发声!打过三针疫苗的注意了

双色球的方向舵
2024-05-02 11:16:35
在机场里狂奔,还是提前 2 小时到达?经济学家:提前到达,就是浪费人生

在机场里狂奔,还是提前 2 小时到达?经济学家:提前到达,就是浪费人生

FM96.2广州新闻电台
2024-05-02 10:31:22
“新冠吹哨人”李文亮离世后,他的遗孀付雪洁,如今生活过的好吗

“新冠吹哨人”李文亮离世后,他的遗孀付雪洁,如今生活过的好吗

王姐懒人家常菜
2024-05-01 15:03:33
美联储宣布维持利率5.25%至5.5%,美股三大指数盘中上演过山车!

美联储宣布维持利率5.25%至5.5%,美股三大指数盘中上演过山车!

惜别的海岸
2024-05-02 09:07:49
田亮全家合体拍广告,13岁儿子现在全家最高,只可惜长残了

田亮全家合体拍广告,13岁儿子现在全家最高,只可惜长残了

娱乐顺风车666
2024-05-01 17:07:11
“凭什么被白睡?”北京一女子和男友相恋6年,花掉36万拒绝归还

“凭什么被白睡?”北京一女子和男友相恋6年,花掉36万拒绝归还

蔚蓝天空岛
2024-05-01 17:01:40
江苏宿迁禁止打印举报材料?打印店主:违者要处数千元罚款!

江苏宿迁禁止打印举报材料?打印店主:违者要处数千元罚款!

兵叔评说
2024-04-29 22:19:00
130斤丰满女生鼓起勇气穿上小裙子,室友连连夸赞很漂亮:要自信

130斤丰满女生鼓起勇气穿上小裙子,室友连连夸赞很漂亮:要自信

百晓史
2024-05-02 08:53:05
央视直播沙特大满贯赛5月4日至11日赛程,王楚钦孙颖莎出战混双

央视直播沙特大满贯赛5月4日至11日赛程,王楚钦孙颖莎出战混双

乒乓球球
2024-05-02 08:01:55
孔东梅留学美国,直言:除了大使李肇星,没人知道我是毛主席后人

孔东梅留学美国,直言:除了大使李肇星,没人知道我是毛主席后人

魔法笔记本
2024-05-02 09:20:42
郭艾伦公然辱骂胡明轩!G2解禁复出了!中国第一内线终于能杀回来

郭艾伦公然辱骂胡明轩!G2解禁复出了!中国第一内线终于能杀回来

篮球实战宝典
2024-05-02 04:48:28
中央决定,申彦锋、吕智强履新

中央决定,申彦锋、吕智强履新

鲁中晨报
2024-05-02 13:13:08
美司令称:解放军现在做的所有准备,都是为了2027年这个重大节点

美司令称:解放军现在做的所有准备,都是为了2027年这个重大节点

王云飞面对面
2024-04-30 14:22:57
粟裕逝世后,南京军区副司令员为何不愿给楚青提供帮助?

粟裕逝世后,南京军区副司令员为何不愿给楚青提供帮助?

光头哥的头
2024-04-30 09:24:41
女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

女人在过夫妻性生活时,为什么总发出声音?医生:大多数人不了解

皮皮讲文
2024-01-02 10:36:17
俄媒:俄军缴获的武器装备在莫斯科展出,美英等国使馆人员可优先参观

俄媒:俄军缴获的武器装备在莫斯科展出,美英等国使馆人员可优先参观

环球网资讯
2024-05-02 14:42:16
马斯克现身中国!穿大面积褶皱西服,对比旁人差距大,像搓衣板!

马斯克现身中国!穿大面积褶皱西服,对比旁人差距大,像搓衣板!

西瓜爱娱娱
2024-05-01 15:09:04
申花刚4比0大胜沧州雄狮,就火线官宣一个喜讯,让曹赟定乐开花

申花刚4比0大胜沧州雄狮,就火线官宣一个喜讯,让曹赟定乐开花

罗掌柜体育
2024-05-02 11:04:44
新华社快讯:哥伦比亚总统佩特罗宣布从2日起断绝与以色列外交关系。

新华社快讯:哥伦比亚总统佩特罗宣布从2日起断绝与以色列外交关系。

新华社
2024-05-02 02:28:10
2024-05-02 15:36:49

科技要闻

4月交付量理想超问界,小米首月交付超七千

头条要闻

广东书记、省长面向塌方发生地三鞠躬 向遇难人员致哀

头条要闻

广东书记、省长面向塌方发生地三鞠躬 向遇难人员致哀

体育要闻

这场欧冠,多特的他诠释了什么叫"台柱子"

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

日元如此疯狂波动,背后谁在收割?

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

家居
房产
健康
亲子
旅游

家居要闻

心之所栖 黑白灰色系打造设计专属感

房产要闻

单价2万内,装标4200+,主城改善大盘无套路硬刚!

春天野菜不知不识莫乱吃

亲子要闻

空调温度很低,爸爸直接把闺女包起来,包得严严实实的

旅游要闻

假期最受欢迎的小众目的地 会玩的人已经去了

无障碍浏览 进入关怀版
×