网易首页 > 网易号 > 正文 申请入驻

如何开启生成式 AI 之旅?一切得从数据说起

0
分享至


18年前,我们发布了首款产品 —— 对象存储服务 Amazon Simple Storage Service (Amazon S3)。当时,我们并没有想到它会改变全球企业管理数据的方式。快进到2024年,如今每家企业的业务都离不开数据。

为此,我们花费大量时间讨论了数据如何助力企业进行数字化转型,深入探讨了企业的私有数据在创建差异化生成式 AI 应用方面的作用,以及生成式 AI 如何为企业业务开启全新、意想不到的大门。

Amazon S3 可存储超过350万亿个对象,平均每秒超过1亿个请求,它可能是您生成式 AI 之旅的起点。但无论您拥有多少数据或将数据存储在何处,最重要的是数据质量。高质量的数据可提高模型响应的准确性和可靠性。最近一项针对首席数据官(CDO)的调查显示,近一半(46%)的 CDO 认为数据质量是实施生成式 AI 的最大挑战之一。

那么今天,我们一起来看下,亚马逊云科技的存储服务(从数据湖到高性能存储)如何改变数据策略,成为您生成式 AI 项目的起点。

面向生成式 AI 的数据

受消费者活动、商业分析、物联网传感器、呼叫中心记录、地理空间数据、媒体内容等驱动因素影响,数据正以难以置信的速度飞速增长。这种数据增长推动了生成式 AI 的飞轮

而基础模型(FM)往往在大规模数据集上进行训练。这些数据集通常来自一些开放的数据存储库,包含从互联网获取的网页 PB 数据。组织则使用较小的私有数据集来进一步定制 FM 响应。这些定制模型反过来将推动更多生成式 AI 应用程序,通过客户交互为数据飞轮创造更多数据。

无论您在哪个行业、使用哪些用例、在什么地理位置,都可以从今天起实施以下三个数据计划

首先,使用现有数据为您的 AI 系统增加差异化。

大多数组织拥有大量数据。您可以使用这些数据定制和个性化基础模型,使其符合您的特定需求。一些个性化技术需要结构化数据,而有些则不需要,还有一些需要标注数据或原始数据。Amazon Bedrock 和 Amazon SageMaker 可为您提供多种解决方案,可以微调或预训练现有的多个基础模型。您还可以选择部署 Amazon Q(您的业务专家),并将其指向它开箱即支持的43个数据源中的一个或多个。

但有可能您并不想为了提高 AI 使用能力而创建新的数据基础设施,只希望生成式 AI 所需的组织数据就像现有应用程序一样。

其次,让现有的数据架构和数据通道与生成式 AI 协同工作,并继续遵循现有的数据访问、合规性和管理规则。

我们的客户已在亚马逊云科技上部署了超过100万个数据湖。您的数据湖、Amazon S3 和现有数据库都是构建生成式 AI 应用程序的绝佳起点。

为支持检索增强生成(RAG),我们在多个数据库系统中添加了向量存储和检索支持。您也可以使用 Amazon OpenSearch、Amazon Aurora 的 pgvector for PostgreSQL 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL。我们最近还宣布了 Amazon MemoryDB、Amazon Neptune 和 Amazon DocumentDB(与 MongoDB 兼容)支持 Redis 向量存储和检索。

您还可以重复使用或扩展当前已部署的数据管道。许多人使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon Managed Service for Apache Flink 和 Amazon Kinesis 来进行传统机器学习(ML)和 AI 的实时数据准备。您可以扩展这些工作流,通过更新向量数据库捕获数据更改并近乎实时地将其提供给大语言模型(LLM)、通过 Amazon MSK 的原生流摄取将这些更改提供给 Amazon OpenSearch Service 的知识库,或者利用 Amazon S3 中集成的数据流式传输通过 Amazon Kinesis Data Firehose 更新微调数据集。

在谈到大语言模型训练时,速度很重要。您的数据管道必须能够为训练集群中的许多节点提供数据。为满足性能要求,将数据湖部署在 Amazon S3 上的客户可以使用 Amazon S3 Express One Zone 这样的对象存储类,或者使用 Amazon FSx for Lustre 等文件存储服务。FSx for Lustre 提供了深度集成,并使您能够通过熟悉的高性能文件界面加速对象数据处理。

好消息是,如果您的数据基础设施是使用亚马逊云科技的服务构建的,那么您已经完成了将数据扩展到生成式 AI 的大部分工作。

第三,成为自己最好的审计员。

每个数据组织都需要为生成式 AI 做好法规、合规性和内容审核的准备。您应该知道在培训和定制中使用了哪些数据集,以及模型是如何做出决策的。在变化如此迅速的生成式 AI 领域,您需要预见未来,立即采取行动,并以一种完全自动化的方式进行操作,以便在扩展 AI 系统时继续执行。

使用不同的亚马逊云科技服务(如 Amazon CloudTrail、Amazon DataZone、Amazon CloudWatch 和 OpenSearch)来管理和监控数据使用情况。这可以很容易地扩展到您的 AI 系统。如果您使用亚马逊云科技托管的生成式 AI 服务,您就内置了数据透明度的功能。我们在推出生成式 AI 功能时就支持了 CloudTrail,因为我们知道为企业客户的 AI 系统留下审计踪迹至关重要。当您在 Amazon Q 中创建数据源时,它都会记录在 CloudTrail 中。您还可以使用 CloudTrail 事件列出由 Amazon CodeWhisperer 发出的 API 调用。Amazon Bedrock 拥有超过80个 CloudTrail 事件,您可以使用这些事件来审计您如何使用基础模型。

在去年 re:Invent 大会上,我们还推出了 Amazon Bedrock 的 Guardrails 功能。它可以帮助避免一些指定的话题,Amazon Bedrock 只会为用户提供经过批准的响应。

新推出的存储和数据功能

Amazon S3 Connector for PyTorch 现在支持直接将 PyTorch Lightning 模型检查点保存到 Amazon S3。模型检查点通常需要暂停训练作业,因此直接保存检查点所需的时间会直接影响端到端模型训练时间。PyTorch Lightning 是一个开源框架,为使用 PyTorch 进行训练和检查点提供了高级界面。

Amazon S3 on Outposts 进行身份验证缓存 —— 通过在 Outposts 机架上本地安全缓存 Amazon S3 的身份验证和授权数据,该新功能消除了每个请求到父亚马逊云科技区域的往返时间,从而消除了网络往返引入的延迟变化。

适用于 Bottlerocket 的 Amazon S3 Container Storage Interface (CSI) 驱动程序的挂载点现已推出 —— Bottlerocket 是一个免费的开源 Linux 操作系统,专为托管容器而设计。基于 Amazon S3 的挂载点,CSI 驱动程序将一个 S3 存储桶呈现为一个可由 Amazon Elastic Kubernetes Service (Amazon EKS) 和自管理 Kubernetes 集群中的容器访问的卷。它允许应用程序通过文件系统接口访问 S3 对象,实现高聚合吞吐量,而无需更改任何应用程序代码。

Amazon Elastic File System (Amazon EFS) 的每个文件系统吞吐量提高了2倍 —— 我们已将弹性吞吐量限制提高到读操作 20 GB/s 和写操作 5 GB/s。这意味着您现在可以将 EFS 用于更多吞吐量密集型工作负载,例如机器学习、基因组学和数据分析应用程序。

Amazon S3 Express One Zone 存储类与 Amazon SageMaker 集成 —— 它允许您通过更快的训练数据、检查点和模型输出加载时间来加速 SageMaker 模型训练。

Amazon FSx for NetApp ONTAP 将每个文件系统的最大吞吐量容量提高了2倍(从 36 GB/s 增加到 72 GB/s),让您可以将 ONTAP 的数据管理功能用于更广泛的性能密集型工作负载。

让我们共同见证亚马逊的一小步

云计算的一大步


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
土耳其女排被质疑放水!输球有利奥运小组出线,中国3档波兰2档

土耳其女排被质疑放水!输球有利奥运小组出线,中国3档波兰2档

排球黄金眼
2024-06-17 00:51:28
怎么会有这么邋遢的女艺人

怎么会有这么邋遢的女艺人

刘空青
2024-06-16 20:06:28
土地卖不动以后,为了保障体制内的工资,许多地方开始“大甩卖”

土地卖不动以后,为了保障体制内的工资,许多地方开始“大甩卖”

庞明说财经
2024-06-16 17:00:58
王思聪回应私生女事件,网友炸开了锅!

王思聪回应私生女事件,网友炸开了锅!

拾点先生
2024-06-15 19:00:02
央视曝光!你买的“泰国乳胶床品”,可能是假的!20天就掉渣,或含致癌物

央视曝光!你买的“泰国乳胶床品”,可能是假的!20天就掉渣,或含致癌物

央视财经
2024-06-16 20:31:21
???战平申花后买提江发社媒:跟狗一样活着

???战平申花后买提江发社媒:跟狗一样活着

懂球帝
2024-06-17 08:40:07
就在各大高校扭扭捏捏,酝酿怎么收姜萍时,哈佛已经下手了....

就在各大高校扭扭捏捏,酝酿怎么收姜萍时,哈佛已经下手了....

看界馆
2024-06-16 12:34:34
⚽不得不看!东契奇训练时心系欧洲杯 斯洛文尼亚最终战平丹麦

⚽不得不看!东契奇训练时心系欧洲杯 斯洛文尼亚最终战平丹麦

直播吧
2024-06-17 10:12:43
同济医院科室主任被堵办公室讨说法:我儿被制造脑死亡劝捐器官!

同济医院科室主任被堵办公室讨说法:我儿被制造脑死亡劝捐器官!

兵叔评说
2024-06-16 09:23:12
黄埔军校百年校庆,台湾政治人物均表态各一,赖清德又要搞事情…

黄埔军校百年校庆,台湾政治人物均表态各一,赖清德又要搞事情…

侦姐有料
2024-06-17 02:20:41
卧底鸭肠、鹅肠工厂:脚踩鹅肠挤粪,烟头扔进鸭肠筐

卧底鸭肠、鹅肠工厂:脚踩鹅肠挤粪,烟头扔进鸭肠筐

新京报
2024-06-17 08:30:28
历史会记住这一天

历史会记住这一天

西楼饮月
2024-06-16 20:49:06
姜萍父亲月工资九百,姐姐打三份工,妈妈惹争议,网友支持去国外

姜萍父亲月工资九百,姐姐打三份工,妈妈惹争议,网友支持去国外

贾文彬的史书
2024-06-16 19:17:57
政治龙卷风

政治龙卷风

参考消息
2024-06-16 19:32:06
英格兰最弱1环?用废4王牌+险开翻15亿巨舰!球迷:下轮就解雇他

英格兰最弱1环?用废4王牌+险开翻15亿巨舰!球迷:下轮就解雇他

我爱英超
2024-06-17 05:46:36
河南8人在冷藏车内窒息身亡!8人身份全曝光,家庭情况令人心酸

河南8人在冷藏车内窒息身亡!8人身份全曝光,家庭情况令人心酸

古希腊掌管松饼的神
2024-06-17 09:59:31
女排奥运冠军现场洒泪 龚翔宇哭了冲上热搜 全勤没轮休队友忙安慰

女排奥运冠军现场洒泪 龚翔宇哭了冲上热搜 全勤没轮休队友忙安慰

厝边人侃体育
2024-06-16 22:52:55
河南冷藏车致8人身亡后续!死者身份曝光,知情人透露事故原因

河南冷藏车致8人身亡后续!死者身份曝光,知情人透露事故原因

洛洛女巫
2024-06-17 09:50:41
贾跃亭“喊话”国内车企,一起干这件大事情!

贾跃亭“喊话”国内车企,一起干这件大事情!

每日经济新闻
2024-06-14 15:41:10
为什么说在瑞士召开的乌克兰和平峰会终究是一场闹剧

为什么说在瑞士召开的乌克兰和平峰会终究是一场闹剧

王朝风云
2024-06-16 06:07:33
2024-06-17 11:08:49
亚马逊云科技
亚马逊云科技
第一时间获取关于亚马逊云科技国内外服务的资讯。
199文章数 0关注度
往期回顾 全部

科技要闻

OpenAI可能会迎来重大变化

头条要闻

牛弹琴:乌和平峰会结束后 泽连斯基谈及中国改口了

头条要闻

牛弹琴:乌和平峰会结束后 泽连斯基谈及中国改口了

体育要闻

欧洲杯15亿豪阵险翻车:半场梦游 王牌打废

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

枝江酒业的补税单,张道红的下马威

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

教育
艺术
健康
时尚
家居

教育要闻

在30°+的夏天,13项“低成本”的快乐推荐给家长们!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

夏季流行浅色系穿搭,这些技巧你要学会

家居要闻

空谷来音 朴素留白的侘寂之美

无障碍浏览 进入关怀版