网易首页 > 网易号 > 正文 申请入驻

大模型时代的数据底座怎么建 | ToB产业观察

0
分享至


图片来源@pixabay

大模型的生产需要数据底座的支撑,因为只有高质量、高密度的数据去训练模型,才有可能得到更精准的生成效果。就当前而言,训练一个500T参数的模型,使用的训练数据已经达到16.6PB,如果一本书按500KB算,相当于332亿本的数据量。这是什么概念?好比说现存每个人类拥有4本书的量级。

但问题是,使用大量互联网上公开数据集,仅在数据清洗环节就提出极大挑战,被精炼的高质量数据正如石油一样,非常珍贵。钛媒体APP注意到,目前不少模型提供方,已经在特定领域使用合成数据用于模型训练,其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。

目前数据量的暴涨,还要求使用各种技术手段实现数据的预训练和微调,数据智能应用场景下,对大数据平台的管理水平和安全能力要求提升,这对于基于云服务应用的企业而言,挑战的复杂性会更为明显。

在媒体沟通会上,亚马逊云科技探讨了数据在生成式AI时代的重要性及挑战,从三个层面分析企业想要构建数据底座,可参考的解决方案和路径。钛媒体摘录了一些关键要点,如下:

  1. 企业构建数据底座过程中,往往会通过三类方式进行基础模型的数据定制,以适应不同应用场景,分别是:检索增强生成(Retrieval-Augmented Generation,RAG)、微调和持续预训练。
  2. RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。例如,RAG需要GB级企业数据,微调需要GB级人工标的高质量数据,持续预训练则需要TB级未标的原始数据。RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱;微调数据来源为私域知识;持续预训练数据来源为公开的数据集或企业各部门的数据。
  3. 企业构建数据底座面临三类挑战:一是在模型微调和预训练阶段,将海量原始数据转化为高质量的大数据集,对存储、清洗、治理的挑战;二是快速获取专有数据的挑战;三是基础模型频繁调用将会导致成本的增加和响应的延迟的挑战
  4. 企业构建数据底座也应从上述三类挑战入手:一是找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集;对整个组织内数据的发现编目治理;二是利用RAG将专有数据提供给基础模型;三是通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。


图片来源@亚马逊云科技

亚马逊云科技大中华区数据分析与生成式AI产品总监崔玮在交流中告诉钛媒体APP,从前端模型的使用来看,Amazon Bedrock提供了一个平台开放给客户,让客户自己选择适合自身业务场景的模型。同样在后端,无论是数据分析工具,还是数据库,都是希望通过提供一套最合适的产品和服务,让用户在任何一个应用,任何一个数据存储的环境,都可以通过向量化能力,对接到企业客户的不同业务场景中。

在数据存储方面,扩展性和响应速度是关键。Amazon S3对象存储,支持广泛的数据协议,应对各种数据类型,还支持智能分层以降低训练成本。Amazon FSx for Lustre文件存储服务,提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

在数据清洗方面,企业面临着繁重的数据清洗加工任务。Amazon EMR serverless采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务,可快速完成微调或预训练模型的数据准备工作。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,还提供简单易用的统一数据管理平台和工具。

利用RAG技术将专有数据提供给基础模型。将向量搜索的支持功能加入到主流的数据服务中,通过将数据和向量存储在一起来提升数据查询性能。Amazon Neptune图数据库推出分析数据库引擎,以结合图数据库与大模型的优势,从而能够快速从图形数据中获取洞察,并进行更快的向量搜索。

在提升模型调用效率方面。Amazon Memory DB内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。此外,亚马逊云科技还将无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索。

正如亚马逊云科技大中华区产品部总经理陈晓建所言,“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”

例如,北京灵奥科技是一家大模型中间件领域创企。在此之前,北京灵奥科技就已经将整个平台搭建在亚马逊科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基础云服务和数据存储产品,以及基于Amazon Bedrock提供的Claude模型,用于构建Vanus平台的AI Agent助手。


图片来源@灵奥科技

在服务一家南美州服饰类电商企业的过程中,Vanus为Shopify电商客户构建了客服类Agent VanChat。数据显示,通过VanChat提供的用户意图识别、产品推荐等功能加速用户产品购买,提升网站的销售额。VanChat为该客户带来快速的营收增长,仅上线首月ROI高达611%。

从最近的动作来看,擅长从客户需求视角倒推产品,亚马逊云科技已将上述提及的能力抽象为部分产品方案开放出来。(本文首发于钛媒体APP, 作者|杨丽,编辑 | 盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然爆火!不少年轻女性“入坑”,有人已花费上万元!紧急提醒,这种网红玩具有安全隐患

突然爆火!不少年轻女性“入坑”,有人已花费上万元!紧急提醒,这种网红玩具有安全隐患

每日经济新闻
2024-05-22 00:31:10
腾讯宣布:全面降价,立即生效!

腾讯宣布:全面降价,立即生效!

每日经济新闻
2024-05-23 00:21:11
不给台阶,大陆只给赖清德一个选择:战,那就不会放跑一个

不给台阶,大陆只给赖清德一个选择:战,那就不会放跑一个

章鱼哥娱乐
2024-05-22 19:44:35
根据世界银行公开数据,中国人均国民总收入其实和阿根廷差别不大

根据世界银行公开数据,中国人均国民总收入其实和阿根廷差别不大

黑噪音
2024-05-22 21:24:04
中方要求以色列停止军事进攻拉法,立即开放全部陆路过境点

中方要求以色列停止军事进攻拉法,立即开放全部陆路过境点

金羊网
2024-05-22 09:56:13
纽约时报爆猛料:马斯克与谷歌创始人前妻一起吸毒并发生性关系

纽约时报爆猛料:马斯克与谷歌创始人前妻一起吸毒并发生性关系

手机中国
2024-05-23 10:02:11
这是一个坏消息!我们的超算已经跌出前十了!可能是缺乏高端芯片

这是一个坏消息!我们的超算已经跌出前十了!可能是缺乏高端芯片

作家李楠枫
2024-05-23 07:50:50
社区医院免费体检,背后隐藏着什么?

社区医院免费体检,背后隐藏着什么?

叒女紫121
2024-05-23 07:51:00
黄晓明,太刚了!

黄晓明,太刚了!

紫雨说娱乐
2024-05-22 19:44:38
商务部的信心:有能力达到CPTPP的高标准

商务部的信心:有能力达到CPTPP的高标准

永不出场的戈多
2024-05-23 10:41:23
闹大了!乐清交警暴力执法后续:交警已被停职,身份被扒不简单

闹大了!乐清交警暴力执法后续:交警已被停职,身份被扒不简单

180°视角
2024-05-22 15:47:01
侯佩岑转发台湾回归祖国!立场坚定获赞,周杰伦、蔡依林等人沉默

侯佩岑转发台湾回归祖国!立场坚定获赞,周杰伦、蔡依林等人沉默

萌神木木
2024-05-22 17:07:24
大S儿子被贵族学校退学,张兰称孙子没人管,这件事对她打击很大

大S儿子被贵族学校退学,张兰称孙子没人管,这件事对她打击很大

素素娱乐
2024-05-23 08:29:09
众星转发“台湾不是一个国家”,蔡依林等人沉默:台艺人都哑了?

众星转发“台湾不是一个国家”,蔡依林等人沉默:台艺人都哑了?

拾娱先生
2024-05-22 23:25:35
彻底炸了!A股全线大跌!

彻底炸了!A股全线大跌!

龙行天下虎
2024-05-23 10:07:00
博主晒“1999年我妈在故宫”照片遭打假,背景大妈用上智能机,文保碑露馅

博主晒“1999年我妈在故宫”照片遭打假,背景大妈用上智能机,文保碑露馅

可达鸭面面观
2024-05-22 19:06:22
王思聪怒怼汪峰!网友反应热烈。

王思聪怒怼汪峰!网友反应热烈。

影剧真知岛
2024-05-23 09:24:16
东部战区宣布开展联合演训!岛内高度关注:“围岛军演比想象中更快出现”

东部战区宣布开展联合演训!岛内高度关注:“围岛军演比想象中更快出现”

环球网资讯
2024-05-23 11:59:54
天亡勒沃库森!欧联杯离奇丢冠:10射0球集体梦游,阿隆索出昏招

天亡勒沃库森!欧联杯离奇丢冠:10射0球集体梦游,阿隆索出昏招

侃球熊弟
2024-05-23 05:39:25
太狠!家长出轨校长生下儿子,两人联手杀死丈夫,作案细节曝光

太狠!家长出轨校长生下儿子,两人联手杀死丈夫,作案细节曝光

180°视角
2024-05-23 13:20:32
2024-05-23 13:52:49
钛媒体APP
钛媒体APP
独立财经科技媒体
101700文章数 858487关注度
往期回顾 全部

科技要闻

英伟达狂飙 黄仁勋说要开启"新的工业革命"

头条要闻

岛内关注东部战区联合演训:围岛军演比想象中更快出现

头条要闻

岛内关注东部战区联合演训:围岛军演比想象中更快出现

体育要闻

张氏父子的一场大梦

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

英伟达Q1收入猛增三倍、利润翻五倍!

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

手机
家居
艺术
公开课
军事航空

手机要闻

智云 SMOOTH 5S Ai 云台上市:水晶机身、磁吸跟拍,849 元起

家居要闻

化实为虚 理性与柔美的交互

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

军事要闻

以军继续杰宁攻势 巴武装组织打击以目标

无障碍浏览 进入关怀版