网易首页 > 网易号 > 正文 申请入驻

云计算一哥,给 Agentic AI 工程做“减法”

0
分享至


作者 | 李文朋、王一鹏、凌敏

2025 年的拉斯维加斯,亚马逊云科技 re:Invent 现场依旧人潮汹涌——超过 6 万名参会者线下到场,近 200 万人在线收看主题演讲。

但在这层喧嚣之下,会场里明显多了一种氛围:大家比起兴奋,更关注具备自主行动力的 Agent。

前两年的大会主旋律还是“云 + 大模型”的宏大叙事,今年更聚焦在“Agent”,并且把焦点拉回到了三个具体的问题:算力和成本怎么算,基础设施怎么重构,以及最关键的——Agent 该怎么被快速开发出来并跑进生产环境。

在首日的主题演讲中,亚马逊云科技首席执行官 Matt Garman 提出,未来每家公司、每一个可以想象的领域里,都将运行数十亿个 Agent。这是一个足够宏大的判断。但对台下负责预算和落地的技术管理者来说,眼前的问题要现实得多:

从一个在 PC 上跑得很顺的 Demo,到一个能接住真实业务、经得住高并发、算得清成本的生产级 Agent,中间还有多长的一段路?

在今年的主题演讲上,亚马逊云科技把这一现实问题提升到了“范式变革”的层面:正如二十年前亚马逊云科技通过推动“云原生(Cloud Native)”改变了软件开发方式,如今,它希望在“Agentic AI”上,完成一次类似级别的重构。

演讲中提到,光有“模型能力”已经远远不够,真正挡在企业面前的,是如何构建可长期托付的“企业级 Agent”。对大多数团队来说,从概念验证(PoC)走向生产环境,往往会面临着“编排能力、安全性、扩展性”三大隐形高墙。

为了解决这一问题,亚马逊云科技的策略是从单纯的“模型超市”转型为提供完整的“Agentic AI 基础设施”,旨在让 Agent 的开发像搭积木一样高效。

亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian 进一步拆解了这一路径。他没有只停留在发布几个新功能,而是展示了一套全栈技术改造:例如开发者用的 SDK 和平台级服务(如 Amazon Bedrock AgentCore)、模型定制与训练的路径,包括由亚马逊云科技自身验证过的规范、策略和自动推理支撑的安全机制。

他的目标很明确:通过标准化的 Agent 架构,将企业构建智能体的周期,从“作坊式”的数月摸索,压缩到工业化生产的“周”甚至“天”。


这也标志着亚马逊云科技正在引领新一轮的 Agent 开发范式转移:从提供算力、存储等基础资源的“云底座”,转变为提供一套可复用、工业化的“Agent 生产流水线”。

对企业来说,接下来的竞争重点,也正从“有没有 Agent”,转向“谁能更快、更稳地把 Agent 造出来、用起来”。

1 给 Agent 开发做减法——让“从想法到原型”变成几天之内的事

Swami 提到,当下有两件事在同时发生。

第一,“谁能构建 Agent”的用户主体,正在被改写。过去,要做一个像样的系统,必须熟练掌握编程语言,还要记住一堆 API 和参数。现在,越来越多的工作开始交给 Agent 完成,会把需求说清楚的人,正变成新的“构建者”。

第二,“要花多久构建”的现状,也在被改写。过去要几年才能做出来的系统,现在有机会在几个月内上线;过去需要几个月打磨的功能,正在被压缩到几周,甚至几天。从想法到产生业务影响,这条路在变短,而 Agent 就是这条路径上的加速器。

在这样的前提下,Swami 把一个 Agent 拆成了三块:模型,是“大脑”,负责推理、规划和决策;代码,是“身份和角色”,定义它能做什么、如何做决定;工具,是“手脚”,包括各类 API、数据库、浏览器、解释器等执行手段。

Agent 开发慢,往往卡在这三者的配合上。模型不够可靠,开发者就只能写大量状态机和决策树,把流程一条条写死,为各种可能情况提前设定工作流;工具调用和状态切换需要硬编码,一旦出现意料之外的情况,发生在 AI Agents 之间的复杂协作就会失效。久而久之,代码库被一层层“胶水代码”包裹,既难维护,也很难在新场景中复用。

这次发布的 Amazon Strands Agents SDK,就是在这一层做“减法”。

Swami 提到,亚马逊最初是为自家产品做 Agent,做到一半停下来问了自己一句话:如果从头设计一套面向未来的 Agents SDK,它应该是什么样?

他们的答案很直接:尽量把控制流交给模型,让模型结合上下文和可用工具自行规划步骤;开发者只需要定义好三样东西——用哪颗“大脑”(模型)、这个 Agent 是谁(代码里的身份和能力)、它可以动用哪些工具。

Amazon Strands Agents SDK 采用的就是这种“模型驱动”的方式:不再要求开发者提前写完所有状态机和工作流,而是让 Agent 在运行时根据目标和环境做决策、动态调用工具。


效果很具体:在内部的 Agent 系统中,他们删掉了成千上万行与工具选择、状态协调相关的胶水代码,开发效率提升,Agent 的准确性和可维护性也更好。

验证之后,亚马逊决定将 Amazon Strands Agents SDK 开源。短短几个月内,Amazon Strands Agents SDK 下载量超过 500 万,社区贡献了大量扩展能力:支持更多模型、多 Agent 协同、TypeScript 和边缘设备等。

这说明,Amazon Strands Agents SDK 确实踩中了开发者的痛点,它让“写一个 Agent”变得更加简单。

不过,写得快只是第一步。在 Swami 看来,真正拖慢项目的,还有一整段“从 PC 到生产环境”的路:Demo 很好看,业务部门却迟迟等不到真正上生产的版本。

几乎每家公司里,都有人在本地机上跑各种 Agent Demo,但领导层更关心的是:为什么这些东西进不了生产?什么时候能跑在 VPC 里,连上真实系统?这叫作“概念验证困境”。

概念验证要跨过去,需要解决五个问题:基础设施能否从 0 扩展到几千个并发会话;会话上下文和跨会话记忆怎么管理;身份与访问控制如何保证安全;如何与内部 API、数据库以及第三方服务安全集成;出现问题时,日志、监控和调试从哪里入手。

过去,要解决这些问题,往往得先拉起一个团队,花上几周甚至更久搭一套“Agent 环境”。

Amazon Bedrock AgentCore 的作用,就是把这部分也做成标准件。它不是再造一个新的框架,而是一套专门为 Agent 准备的工具箱:管理运行时、弹性扩缩容、会话隔离、会话记忆、身份和访问控制,以及与各类服务之间的安全集成。


以身份管理为例,如果从零开始,你可能要花几周时间处理认证协议、安全规范和各种边缘场景;而用Amazon Bedrock AgentCore Identity,只需要几行代码,就能让 Agent 代表用户,在亚马逊云科技和 Slack、Zoom 等第三方应用之间安全地执行操作。

当控制流交给模型、基础设施变成标准组件之后,从“想做一个 Agent”到“让它在生产环境里跑起来”,就不必再是几周甚至几个月的排期,而有机会被压缩到“几天”这个量级。

而这只是亚马逊“Agent 天级构建”的起点,接下来更重要的是 Agent 的“大脑”——模型。

2 给模型训练做减法——让“训练”更快更实用

Swami 在演讲里说得很直接:今天搭一个 Agent 已经不算难,难的是让它跑得又快又省,还要贴合各自行业。

虽然,现在的大型语言模型足够“聪明”,能多步推理,会用工具,也能处理意外情况。但一应用到具体业务上,很容易遇到三个现实约束:

延迟:用户和客服都等不了几秒钟的“转圈”;规模:大促、旺季一来,系统是稳住还是排队;迭代速度:发现问题到修正上线,是按季度还是按天算。

因此,在他看来,问题已经不在于“要不要定制模型”,而是两个更具体的问题:能多快开始定制,能多快看到效果。

这也是为什么,强化学习在模型训练领域的定位始终是关键。过去,强化学习一直被视作“高配玩法”——模型通过行动结果学习,做好事有奖励,犯错就被“扣分”。原来有两种路径:

基于人类反馈的强化学习(RLHF):给标注人员看同一个问题的多个回答,让人类按好坏排序,再训练出一个“奖励模型”,像人一样打分。之后 Agent 每执行一次动作,这个奖励模型都会给它打分,模型在不断试错中学会什么是好的回答。

基于 AI 反馈的强化学习(RLAIF):把“打分的人”换成大模型,让它来评估和排序回答。这种方式比人工更快、更便宜、更一致,适合有明确对错,或可以清晰表达的场景,还能奖励“好的过程”,而不只是正确答案,让模型学会更有条理的思考路径。

这两种方式听上去很理想,但现实是:要在生产环境里做一轮像样的强化学习训练,你需要奖励建模、策略优化、反馈整合方面的专家,还得搭起一整套分布式训练基础设施。从立项到见效,6~12 个月很常见,而且结果未必稳定,对大多数公司来说,这就是“劝退”。


把这些复杂性和成本都藏在平台里,让普通开发团队也用得起这套技术,亚马逊云科技发布了Amazon Bedrock Reinforcement Fine-Tuning(RFT),它很简单:无须强化学习专家团队,也能有强化学习带来的效果。


用 RFT 时,开发者只需要做三件事:选一个基础模型;指向在 Amazon Bedrock 中积累的日志,让模型看到真实的 Agent 交互;选择一个奖励函数。最简单的方式,是用一个大模型做“评审”,判断哪种回答更好。剩下的工作,包括奖励模型如何训练、策略如何优化、训练如何调度,都由 Amazon Bedrock 在后台完成。

在多数用例中,这种方式能在易用性和效果之间取得平衡,让基础模型在特定任务上的准确率明显提升,而无需拉起一个半年周期的大项目。换句话说,原本只属于少数玩家的强化学习,被压缩成了一个任何团队都能尝试的“提效选项”。

此外,很多客户的开发诉求则更直接:律师事务所希望模型真正掌握自己多年积累的案例与推理模式;医疗服务提供者希望模型能基于特定患者结果来学习;金融机构需要的是对本国市场、监管环境有深刻理解的模型。他们希望完全掌控定制技术和数据,而不仅仅是在通用模型上“加一层强化微调”。

亚马逊云科技在 2024 年推出的 Amazon SageMaker AI,其实就是在围绕这个问题布局,到了 2025 亚马逊云科技 re:Invent,又发布了Amazon SageMaker AI Serverless Model Customization,它能为开发者提供两种体验:一种是自助式体验,适合喜欢掌控全局的开发者;一种是 Agent 驱动,只需自然语言描述用例,AI Agent 会推荐微调技术、生成数据集、设置 Serverless 训练、评估模型效果。

这意味着,原本需要数月完成工作,如今只需要几天,全程由懂最佳实践的 Agent 指导完成,并且支持最新的强化学习技术,包括 RLAIF、RLVR 和 DPO。

当然,还有一类客户的目标更高。他们要的不是“懂一点行业术语”的模型,而是一个从底层就理解该行业的基础模型。

以药物研发公司为例,他们需要模型真正理解分子结构、蛋白质相互作用、特定治疗领域的临床数据。对这种需求来说,只在通用模型上做微调是不够的——就像随手教一个通用翻译几句医学词汇,和从头培养一位医疗翻译,是两件完全不同的事。

按照传统路径,要获得这样的基础模型,几乎只能从零开始训练:组建顶级机器学习团队;承担数百万美元的算力成本和数月的训练周期;还要接受“辛苦训练完,效果未必理想”的不确定性。这也是为什么,定制基础模型长期以来几乎只属于大厂和头部 AI 创企。

亚马逊云科技针对这些痛点推出的 Amazon Nova Forge,试图改写的就是这条“起跑线”。

它允许你在 Amazon Nova 的训练过程中访问中间检查点:不必从头开始,而是在训练中段接手;用自有数据与亚马逊云科技精选数据混合继续训练;既继承 Amazon Nova 的通用智能、安全性和可靠性,又在后半段注入你所在行业的知识和工作流理解。

最终可以得到的是一个既“前沿”,又“贴身”的模型:对通用世界有足够理解;对特定行业有深入洞察;而你不需要承担完整训练生命周期的全部成本和工程复杂度。

从“训练效率”的角度看,这是更高一层的减法:不是简单把每一次训练跑得更快,而是改变了从哪一步开始训练。

3 给 Agent 工程化做减法——高效解决 Agent“信任”与“可靠”难题

目前,大多数 AI Agent 系统仍主要依赖大模型的统计式推理能力来做决策。在聊天、写稿这类轻量场景里问题不大,但一旦涉及资金、生产环境或安全责任,这种不确定性就变成核心风险。

Swami 的比喻也很直白:给 Agent 开通信用卡的权限,就像把信用卡交给一个青少年——他确实能帮你办不少事,也可能哪天突然买了一匹小马,或一仓库零食。

根源在于,大模型的本性是概率式产生“幻觉”,容易在复杂规则和法律条文面前犯错、推理路径不透明,很难像读程序那样逐行检查,以及容易被刻意设计的输入“带跑偏”。

面对这种不确定性,企业通常会“过度补偿”:一种是事事人工复核,层层加签,流程越拉越长,Agent 的价值被拆得所剩无几;另一种是把 Agent 写成脚本,用硬编码规则把它绑住,牺牲掉 Agent 自主性。

两条路的共同结果,是信任问题变成效率问题:想上线一个 Agent,难点不在能不能做出来,而在审批和风控始终不敢放行,“快速落地”无从谈起。

要打破这个局面,亚马逊云科技提出了先换一种思路:不再靠加人、加流程来换安全感,而是把“能做什么、不能做什么”变成可以形式化验证的约束。

几年前,亚马逊云科技内部第一个 AI Agent 原型(也就是今天 Kiro CLI 的前身),就暴露过一个关键问题:模型会出现“API 调用幻觉”——调用一个看似合理、但根本不存在的接口。

为了解决这一问题,他们当时把科学家、机器学习工程师和自动推理团队拉到一起,最后确定了一条路径:把大模型(神经网络)和形式化推理(符号逻辑)结合,做成所谓的“神经符号 AI”。

这个背后的“自动推理”能力,简单说,就是用数理逻辑穷尽程序可能的执行路径,去回答一个问题:在所有这些路径里,有没有一种会违反规则?

事实上,这套技术,亚马逊云科技已经使用了十多年:内部用来分析虚拟化、加密、身份认证、网络系统;对外则以 Amazon IAM Access Analyzer、Amazon VPC Reachability Analyzer、Amazon S3 Block Public Access 等工具的形式提供;在其他行业,它也被用在航空航天、铁路信号、工业控制等“不允许出错”的系统中。

目前,这套“老技术”将系统性地接入 Agent 领域:用自动推理验证 Agent 输出的程序和指令,有问题就打回;用推理系统的结果反向训练模型,让模型更懂约束和逻辑;更重要的是,把验证器直接嵌入 Agent 的推理和执行链路,让约束从一开始就是系统的一部分,而不是上线前的“补丁”。

在这样的框架下,“信任”的含义也被改写了:不再是“我觉得它大概没问题”,而是“在这个边界内,它不会越线”。

信任之外,另一个同样关键的问题是可靠性——不仅要“不越界”,还要“每次都能干好”。

许多企业已经有过教训:Agent 在 Demo 里表现亮眼,第一天上线也没问题,但到了第 N 次,或环境稍一变化,就开始犯糊涂。这种不稳定同样会拖慢上线节奏,让团队迟迟不敢把真正关键的流程交出去。

亚马逊云科技对这个问题的回答是Amazon Nova Act。它专门负责自动化各种带界面的企业工作流程——填表、改记录、发请求、走审批,看上去像 RPA 的升级版,但思路完全不同:

传统 RPA 靠录脚本,一变脚本就失效;通用大模型虽然能理解界面变化,但协调和纠错复杂,一旦走错分支,很容易“一错到底”。Amazon Nova Act 则从一开始就把模型、协调器、执行器和 SDK 当成一个整体,在训练阶段就紧密打包,而不是各自为战。

更关键的是,它的可靠性不是靠“没出过大事”的经验判断,而是通过强化学习与训练环境练出来的。

亚马逊云科技已经为常见企业流程搭建了大量仿真环境(RLGyms):CRM、人力资源、工单、审批系统……只要有 UI,就可以复制出一个“训练版”。

在这些环境里,Amazon Nova Act 的 Agent 反复跑任务:每次完整走完流程会被奖励;出错则受到惩罚。数百个环境、数千条并行工作流,让它在不影响真实系统的前提下,把“常见业务流程”跑熟、跑稳。


最终呈现出来的,是可以量化的结果:在它瞄准的企业工作流场景中,Amazon Nova Act 的可靠性可以达到约 90%;在 RealBench、ScreenSpot 等基准测试上,Amazon Nova Act 的表现与该领域最好的模型相当甚至更好。

当信任与可靠性都被拉进这样的工程框架里,Agent 项目从“技术可行”到“敢上线、敢托付”的最后一公里,才真正有了“提速”空间。

可以说,这一届 re:Invent,亚马逊云科技试图证明的是:当 Agent 开发、模型训练、工程化这三道关都完成了“减法”,企业就有能力把智能体的构建周期,从按“月”计算,实实在在压缩到可以按“天”来衡量——而且不是停留在实验室里。

而可以预见的是,未来围绕 Agent 的竞争,也会从“谁先喊出口号”,真正转向“谁能更快、更稳地把 Agent 推向生产”。在这一场新的竞赛里,谁能率先过滤掉“噪音”,把时间和资源押在可验证、可交付的能力上,谁也就更有机会抓住这轮生产力升级的窗口。

2025 亚马逊云科技re:Invent 中国行即将启幕!12月18日开始,北京、上海、深圳、成都四城线下巡演及线上专场将同步开启,无论你是云计算新手还是技术老兵,都将从高阶演讲、实战内容、技术分享和专家互动中受益。点击【阅读原文】立即注册,抢占席位,把握Agentic AI时代的新机遇!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

芳芳历史烩
2026-01-25 10:06:32
40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

暖心萌阿菇凉
2026-02-02 22:59:12
2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

小晴星座说
2026-02-03 18:52:42
紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

环球网资讯
2026-02-03 19:03:09
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

生活新鲜市
2026-02-04 17:06:09
一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

议纪史
2026-02-03 18:45:05
大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

蛙斯基娱乐中
2026-02-04 11:13:56
容易出轨的人,有几个典型的特征

容易出轨的人,有几个典型的特征

叶飞飞情感屋
2026-02-04 18:20:22
个人股东分红,不用缴个税了!

个人股东分红,不用缴个税了!

审计之家
2026-01-28 19:58:41
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

手工制作阿歼
2026-02-05 00:54:03
“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

泽泽先生
2026-02-03 21:23:06
ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

懂球帝
2026-02-04 13:37:26
涨!涨!涨!苏州384个小区抗住了降价潮!

涨!涨!涨!苏州384个小区抗住了降价潮!

苏南房地产观察
2026-02-04 13:45:56
24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

诗词中国
2025-10-11 19:09:33
张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

冒泡泡的鱼儿
2026-02-05 01:32:00
国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

老杉说历史
2026-02-04 18:58:14
2026-02-05 02:48:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12024文章数 51735关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

游戏
健康
教育
旅游
房产

游戏动力×ATK 联动福利红包封面随机掉落!

耳石症分类型,症状大不同

教育要闻

数学提分,往往从复盘开始

旅游要闻

别挤梅花山了!南京这个公园千株梅花怒放,地铁直达零门票

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

无障碍浏览 进入关怀版