网易首页 > 网易号 > 正文 申请入驻

大模型时代的数据底座怎么建 | ToB产业观察

0
分享至


图片来源@pixabay

大模型的生产需要数据底座的支撑,因为只有高质量、高密度的数据去训练模型,才有可能得到更精准的生成效果。就当前而言,训练一个500T参数的模型,使用的训练数据已经达到16.6PB,如果一本书按500KB算,相当于332亿本的数据量。这是什么概念?好比说现存每个人类拥有4本书的量级。

但问题是,使用大量互联网上公开数据集,仅在数据清洗环节就提出极大挑战,被精炼的高质量数据正如石油一样,非常珍贵。钛媒体APP注意到,目前不少模型提供方,已经在特定领域使用合成数据用于模型训练,其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。

目前数据量的暴涨,还要求使用各种技术手段实现数据的预训练和微调,数据智能应用场景下,对大数据平台的管理水平和安全能力要求提升,这对于基于云服务应用的企业而言,挑战的复杂性会更为明显。

在媒体沟通会上,亚马逊云科技探讨了数据在生成式AI时代的重要性及挑战,从三个层面分析企业想要构建数据底座,可参考的解决方案和路径。钛媒体摘录了一些关键要点,如下:

  1. 企业构建数据底座过程中,往往会通过三类方式进行基础模型的数据定制,以适应不同应用场景,分别是:检索增强生成(Retrieval-Augmented Generation,RAG)、微调和持续预训练。
  2. RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。例如,RAG需要GB级企业数据,微调需要GB级人工标的高质量数据,持续预训练则需要TB级未标的原始数据。RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱;微调数据来源为私域知识;持续预训练数据来源为公开的数据集或企业各部门的数据。
  3. 企业构建数据底座面临三类挑战:一是在模型微调和预训练阶段,将海量原始数据转化为高质量的大数据集,对存储、清洗、治理的挑战;二是快速获取专有数据的挑战;三是基础模型频繁调用将会导致成本的增加和响应的延迟的挑战
  4. 企业构建数据底座也应从上述三类挑战入手:一是找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集;对整个组织内数据的发现编目治理;二是利用RAG将专有数据提供给基础模型;三是通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。


图片来源@亚马逊云科技

亚马逊云科技大中华区数据分析与生成式AI产品总监崔玮在交流中告诉钛媒体APP,从前端模型的使用来看,Amazon Bedrock提供了一个平台开放给客户,让客户自己选择适合自身业务场景的模型。同样在后端,无论是数据分析工具,还是数据库,都是希望通过提供一套最合适的产品和服务,让用户在任何一个应用,任何一个数据存储的环境,都可以通过向量化能力,对接到企业客户的不同业务场景中。

在数据存储方面,扩展性和响应速度是关键。Amazon S3对象存储,支持广泛的数据协议,应对各种数据类型,还支持智能分层以降低训练成本。Amazon FSx for Lustre文件存储服务,提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

在数据清洗方面,企业面临着繁重的数据清洗加工任务。Amazon EMR serverless采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务,可快速完成微调或预训练模型的数据准备工作。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,还提供简单易用的统一数据管理平台和工具。

利用RAG技术将专有数据提供给基础模型。将向量搜索的支持功能加入到主流的数据服务中,通过将数据和向量存储在一起来提升数据查询性能。Amazon Neptune图数据库推出分析数据库引擎,以结合图数据库与大模型的优势,从而能够快速从图形数据中获取洞察,并进行更快的向量搜索。

在提升模型调用效率方面。Amazon Memory DB内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。此外,亚马逊云科技还将无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索。

正如亚马逊云科技大中华区产品部总经理陈晓建所言,“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”

例如,北京灵奥科技是一家大模型中间件领域创企。在此之前,北京灵奥科技就已经将整个平台搭建在亚马逊科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基础云服务和数据存储产品,以及基于Amazon Bedrock提供的Claude模型,用于构建Vanus平台的AI Agent助手。


图片来源@灵奥科技

在服务一家南美州服饰类电商企业的过程中,Vanus为Shopify电商客户构建了客服类Agent VanChat。数据显示,通过VanChat提供的用户意图识别、产品推荐等功能加速用户产品购买,提升网站的销售额。VanChat为该客户带来快速的营收增长,仅上线首月ROI高达611%。

从最近的动作来看,擅长从客户需求视角倒推产品,亚马逊云科技已将上述提及的能力抽象为部分产品方案开放出来。(本文首发于钛媒体APP, 作者|杨丽,编辑 | 盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李修平李瑞英退休状态大不同,差1岁却似两代人,宛如妈妈和女儿

李修平李瑞英退休状态大不同,差1岁却似两代人,宛如妈妈和女儿

时髦范
2024-06-02 16:47:41
一棵金丝楠木能卖上亿元,树苗一株才10元左右,为啥却没人愿意种

一棵金丝楠木能卖上亿元,树苗一株才10元左右,为啥却没人愿意种

莫将离
2024-05-15 23:37:52
具俊晔情绪失控,罕见发脾气!韩网友:说的难道不是事实?

具俊晔情绪失控,罕见发脾气!韩网友:说的难道不是事实?

花花lo先森
2024-06-04 14:12:18
梅拉尼娅在丈夫特朗普被定罪后首次露面,带18岁儿子巴伦离开纽约

梅拉尼娅在丈夫特朗普被定罪后首次露面,带18岁儿子巴伦离开纽约

译言
2024-06-05 12:38:55
武则天墓的秘密终于被揭开,800吨珍宝,为何却没有盗墓贼敢挖?

武则天墓的秘密终于被揭开,800吨珍宝,为何却没有盗墓贼敢挖?

否知的否
2024-06-01 17:47:21
这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

冷却爱情
2024-04-25 18:28:15
你有2个“断崖式”衰老时间点!做好这7件事,老得慢一点

你有2个“断崖式”衰老时间点!做好这7件事,老得慢一点

增肌减脂
2024-06-02 18:45:02
银行允许延期还房贷了!

银行允许延期还房贷了!

樱桃大房子
2024-06-04 22:10:49
韩德君夫妇光顾李晓旭妻子咖啡店,大韩“逃单”,二哥二嫂时尚抢

韩德君夫妇光顾李晓旭妻子咖啡店,大韩“逃单”,二哥二嫂时尚抢

阿芒娱乐说
2024-06-04 23:30:13
0-0大冷门,仅1脚射正,意大利遭世界第40零封,欧洲杯前景堪忧

0-0大冷门,仅1脚射正,意大利遭世界第40零封,欧洲杯前景堪忧

侧身凌空斩
2024-06-05 04:55:54
明发地产,全集团裁员50%

明发地产,全集团裁员50%

冬天来旅游
2024-06-04 12:27:12
王云蕗疯狂回怼球迷引热议:54扣16中+11自失 远逊22岁小将该让位

王云蕗疯狂回怼球迷引热议:54扣16中+11自失 远逊22岁小将该让位

颜小白的篮球梦
2024-06-04 21:16:12
暴跌500亿!中国榴莲大王,踩中了一颗巨雷

暴跌500亿!中国榴莲大王,踩中了一颗巨雷

金错刀
2024-05-30 17:14:30
曹格公开寻找另一半,连没有女朋友的人他都要,网友:真不挑食啊

曹格公开寻找另一半,连没有女朋友的人他都要,网友:真不挑食啊

娱乐白名单
2024-06-04 11:36:02
胡塞武装暴打美国“艾森豪威尔”号航空母舰,创下五个第一

胡塞武装暴打美国“艾森豪威尔”号航空母舰,创下五个第一

低调看天下
2024-06-01 09:05:59
月球插下的中国国旗,让美国登月遭到质疑,美国国旗露出了马脚?

月球插下的中国国旗,让美国登月遭到质疑,美国国旗露出了马脚?

百态人间
2024-05-18 18:31:45
好不容易晋升为上将,怎料被儿子“拖下水”,涉案金额竟高达百亿

好不容易晋升为上将,怎料被儿子“拖下水”,涉案金额竟高达百亿

小lu侃侃而谈
2024-05-23 21:23:30
电视剧《海天雄鹰》今日开播,全员实力派,央视这回又押对宝了

电视剧《海天雄鹰》今日开播,全员实力派,央视这回又押对宝了

愚与趣
2024-06-05 09:25:02
中方动真格了,截断仁爱礁空投,船上菲军能撑几天?马科斯犯了难

中方动真格了,截断仁爱礁空投,船上菲军能撑几天?马科斯犯了难

红心说娱乐
2024-06-04 14:10:35
随着国足1-0击败越南男足,全场产生六大不可思议事件!

随着国足1-0击败越南男足,全场产生六大不可思议事件!

小豆豆赛事
2024-06-05 02:08:08
2024-06-05 14:04:49
钛媒体APP
钛媒体APP
独立财经科技媒体
102555文章数 858518关注度
往期回顾 全部

科技要闻

马斯克把特斯拉5亿美元AI芯片提前调拨给X

头条要闻

汪文斌将履新 多名外交部发言人均已任要职

头条要闻

汪文斌将履新 多名外交部发言人均已任要职

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

欧盟推迟对华行动,如何理解?

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

教育
健康
亲子
艺术
手机

教育要闻

湖南省2024年全国爱眼日宣传教育周活动启动

晚餐不吃or吃七分饱,哪种更减肥?

亲子要闻

宝宝白天在烧烤店帮忙,晚上回家萌翻网友

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

消息称苹果 iPhone 16 Pro Max 边框厚度 1.153毫米

无障碍浏览 进入关怀版