网易首页 > 网易号 > 正文 申请入驻

企业 Agent 为何多半是玩具?差的不是模型,是品味

0
分享至

全文 3,000字 | 阅读约 8 分钟


(Replit CEO Amjad Masad 访谈要点)

过去一年,AI Agent 在演示环节的表现越来越惊艳。

给它一个指令,代码自动生成,环境自动配置,产品几分钟就能上线。整个过程流畅到让人觉得,这技术已经可以替代一整个团队了。

但真正落地时,评价往往只有一句:看着挺好,用不起来。

Replit CEO Amjad Masad 最近在一场对谈中,用了一个词来评价今天的 Agent :玩具(toys)。看起来能干活,实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容,在业内有个统一称呼:slop(粗制滥造)。

问题不只出在模型本身。更大的问题是:没人教 Agent 什么叫“好”。

  • 什么内容该保留

  • 什么要删改

  • 做到什么程度才算合格。

这些判断标准,模型学不到。所以 Masad 的答案不是换更大的模型,就两个字:品味(taste)。

要让平台更有主张,让 Agent 理解好的标准。

第一节|多数 Agent 都翻车,不是不聪明,是太通用

Amjad Masad 说:

当前,除了代码和客服,其他 Agent 基本都不靠谱。

不是因为模型能力不够,而是这些 Agent 本质上就是通用输出机器。你给一句模糊提示,它就随便输出一个看起来还行的通用答案。看起来像在完成任务,实际上只是勉强交差。

所有生成的内容看起来都差不多。UI 排布雷同,语言模板僵硬,代码风格也像流水线产品。

具体来说:

  • 你让它做个营销活动规划,它会输出一个看起来还行的 Excel,但不懂品牌语调,也不清楚预算限制;

  • 你让它写代码,它给你一段跑得通的函数,但没考虑企业自己的数据库结构;

它能查资料、能回复、能填表,但始终不清楚什么才算完成得好。

它缺的不是智能,是判断标准。

在企业内部,事情往往没那么标准化。数据是混乱的,流程是断的,权限是分散的。Agent 真正难的,不是生成内容,而是在一团乱麻里还能做出靠谱判断。

所以 Amjad 强调,

信息检索是聊天机器人,行动才是 Agent 。

也就是说,光会找信息不算 Agent,得能做决定、能判断结果。

大多数 Agent 一上生产就崩溃,不是因为它太笨,而是它太通用。没有判断力,也没有判断边界。你让它做决定,它只会给你一种模糊的中等答案。

你以为你找了个助理,结果来的是个不会说不的临时工。

第二节|品味不是审美,是标准

Amjad 说:你不能指望基础模型自带品味

这里的“品味”,不是设计风格,也不是代码偏好,而是一套让模型交出可用结果的机制。

如果只用模型的默认输出,结果只会是一堆雷同的内容,和市面上其他产品没什么区别。

那 Replit 怎么做的?

第一步,给模型定规矩。

Replit 为不同类型的 App 准备了提示模板。做电商的用电商的结构,做内容的用内容的逻辑。不是让模型自由发挥,而是事先定好框架,让生成内容符合业务需求。

第二步,限定答案范围。

它不在整个互联网上随便找资料,而是从自己整理好的内容库里查。用的都是提前分类标记过的数据。这样至少能保证,每次调用的信息是可信的。

第三步,舍得花资源。

Replit 选择了不走快路。每次生成内容的长度更长,查询更深,结构更细。哪怕过程更慢,成本更高。Amjad 的态度很明确:App 贵一点、慢一点,但能用。

这套做法背后的逻辑很简单:

生成内容,不等于完成任务。

他要的是结果能被真实用户用起来,而不是模型做了什么。

所以,他对“品味”的定义,不是一种感觉,而是三个实际动作:

  • 先定好什么算完成

  • 只让模型在靠谱的范围里找答案

  • 愿意为质量多花成本

如果说大模型是原材料,Replit 给它加了三层把关:标准、范围、成本。把那些差不多就行的模糊输出,一层层卡住。

这就是 Amjad 说的品味:不是审美,而是让结果有标准、可追溯、有保障

第三节|Replit 的 Agent 为什么能交付?

有了标准,还得有人盯着。

一个 Agent 能不能用,核心不是它能不能生成内容,而是它能不能检查自己做得对不对。但大多数 Agent 做不到这一点。

大多数 Agent 只负责写,不负责看结果。它生成完代码、文档或操作指令,就直接停了。至于能不能执行、有没有问题,它自己并不知道。

Replit 最大的不同,是它让 Agent 具备了自测能力。

怎么做的?Amjad 讲了个简单但有效的办法:给每个编码 Agent 配一个测试 Agent。前者写,后者查。测试 Agent 会像用户一样打开网页、点按钮、读输出。不是看代码,而是实际操作一遍,看页面能不能正常跑、会不会崩溃、有没有做完。

如果发现问题,它会把反馈丢给主 Agent。主 Agent 改完再测,直到通过。

这套机制不靠聪明,靠的是流程。

而且 Replit 用的是两个不同模型。一个写,一个测。为什么?因为一个模型容易自圆其说,两个模型互相挑战,才更可能发现问题。

这就是 Replit 真正能用的原因:它不是生成一次,而是完成一轮。从写得出到用得上,中间差了至少一层验证。

Amjad 强调:

“我们是唯一一个让 Agent 测试自己工作成果的氛围编码平台。”

更关键的是:Replit 给了用户一个回滚机制。如果整个流程出错,点一下就能回到任务开始前的状态。代码、数据库、界面,全都恢复。

为什么这么重要?

因为 Agent 的风险不在于它不会写,而在于它出错时没人知道。如果没有验证机制,也没有回退手段,它可能一边出错,一边还在自信地推进任务。

所以 Amjad 把验收机制做成了 Agent 交付链的一部分。你不是在试一个 Agent,而是在用一整条“写—测—改—通过—上线”的闭环。

关键不是能做,而是能做对。

第四节|模型人人都能买,基础设施买不到

很多人以为,Agent 的效果好不好,关键在用什么模型。

Replit 也接了最强的模型:Claude 做主任务,Gemini 3 搜代码,GPT-5辅助对话。但 Amjad 认为:型大家都能买,差别从来不在这

真正的差距,在于有没有能力把模型用得对。

这就要讲到一个容易被忽视的事实:Replit 本质上不是一家 AI 公司,而是一家基础设施( AI Infra)公司。

举个例子,你在 Replit 的 Agent 里让它写一个 App,它会在几秒钟里开启一整套工作环境:

  • 启动一个新的沙盒,让模型在里头自由写代码、搭接口、连数据库

  • 写完后,测试 Agent 会复制一份环境来点按钮、验证结果

  • 如果失败,这个环境可以一键回到最初,不留残痕

这套流程背后,其实非常复杂:

  • 秒级生成虚拟环境

  • 数据库读写隔离,避免测试阶段误删真实数据

  • 操作系统级的文件追踪和还原机制

而这些,大多数 Agent 工具都不具备。

Amjad 特别提到:他们用了四年打磨底层文件系统,才让环境支持这么快的创建、回滚、合并。这背后是 Copy-on-write(写时复制)架构。每次操作都是带记忆的副本,随时可以清理或还原。

这套能力不是模型能学出来的,也不是提示词能写出来的,必须靠工程团队一点点构建。

这就是基础设施的价值。

一套真正能用的 Agent,必须靠这些东西托着:模型有分工、验证有环境、产品从一开始就为交付而设计。

Replit 不靠模型差异取胜,靠的是先把基础设施搭好了。别人还在讨论怎么让 Agent 输出内容,Replit 的 Agent 已经完成了写、测、改、复原、上线这整套流程。

差的不是模型,是工程。

结语|分水岭不是 AGI,是工程能力

模型越来越强,Agent 却不好用。

不是技术不行,而是没人负责交付。

Replit 没靠新模型出圈,而是靠写完要测、测完能回退、生成有标准。

Amjad 说不能等路线图,因为你得提前把基础打好,才能抓住模型突破的那一刻。

这套能力,说到底就两个字:品味。

它不是风格,而是底线。不是灵感,而是规矩。

识自AI

本文由AI深度研究院出品,内容整理自 Replit CEO Amjad Masad 在 VentureBeat 访谈等网上公开素材,包含翻译、提炼与分析。内容为合理引述与观点延伸,非原文逐字翻译。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=7i7A-Y4EMgQ

https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of

https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com

https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来名字起太大,一般人根本压不住!网友:教训,老祖宗早说过了

原来名字起太大,一般人根本压不住!网友:教训,老祖宗早说过了

夜深爱杂谈
2026-04-30 21:37:49
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
大结局要来,美国伊朗不打了?最后竟然是因为…

大结局要来,美国伊朗不打了?最后竟然是因为…

喀秋莎大世界
2026-04-30 22:26:44
联想、惠普、戴尔等笔记本电脑全线涨价20% 市场老板:之前一天卖七八台 现在根本没人

联想、惠普、戴尔等笔记本电脑全线涨价20% 市场老板:之前一天卖七八台 现在根本没人

快科技
2026-04-30 11:14:08
蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

蔡一杰脑癌扩散!59岁频繁回内地农村老家,重温童年时光

原梦叁生
2026-04-30 08:10:48
握草!米切尔拒绝上场?施罗德:他是超级巨星

握草!米切尔拒绝上场?施罗德:他是超级巨星

体育新角度
2026-04-30 18:10:43
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

趣知史馆
2026-03-10 20:20:03
伊朗总统:持续推进海上封锁的行为不可容忍

伊朗总统:持续推进海上封锁的行为不可容忍

每日经济新闻
2026-05-01 09:16:47
导游讲解称网红大熊猫花花是残疾,游客不满并当场报警,警方回应

导游讲解称网红大熊猫花花是残疾,游客不满并当场报警,警方回应

极目新闻
2026-04-30 19:02:13
多地“五一”机票价格大跳水

多地“五一”机票价格大跳水

21世纪经济报道
2026-04-30 19:00:00
季后赛半场最大分差!尼克斯83比36领先老鹰47分

季后赛半场最大分差!尼克斯83比36领先老鹰47分

体坛周报
2026-05-01 08:48:11
8天漂流、17具遗体、仅7人获救,谁为这场缓慢死亡负责?

8天漂流、17具遗体、仅7人获救,谁为这场缓慢死亡负责?

半身Naked
2026-04-30 19:27:50
霸王茶姬风波真相大白仅一天,购买女子全网社死官方发声或将判刑

霸王茶姬风波真相大白仅一天,购买女子全网社死官方发声或将判刑

大鱼简科
2026-04-30 16:50:54
不管你信不信,男人失去老伴之后,多半会有这5种变化,很真实

不管你信不信,男人失去老伴之后,多半会有这5种变化,很真实

皓皓情感说
2026-05-01 09:15:09
34岁男子娶“少女感”新娘,女方怀孕5月,网友:老牛吃嫩草

34岁男子娶“少女感”新娘,女方怀孕5月,网友:老牛吃嫩草

辣媒专栏记录
2026-04-29 08:34:28
深圳楼市:暴风雨终于来了

深圳楼市:暴风雨终于来了

楼市诸葛
2026-04-30 10:39:03
李国庆再婚后彻底变了,聚会脚蹲椅子上吃饭,吓得张丹红赶紧去扶

李国庆再婚后彻底变了,聚会脚蹲椅子上吃饭,吓得张丹红赶紧去扶

梦醉为红颜一笑
2026-04-30 19:26:59
比白宫晚宴枪击更可怕,美国最大危机已浮现,64岁奥巴马再次出山

比白宫晚宴枪击更可怕,美国最大危机已浮现,64岁奥巴马再次出山

影孖看世界
2026-05-01 00:01:37
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
2026-05-01 09:51:00
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
448文章数 171关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

本地
旅游
手机
数码
教育

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

“跟着演出去旅行” 解锁文旅新体验

手机要闻

后智能手机时代 追觅AURORA一次关于“探索”的勇敢宣言

数码要闻

华硕准备“ROG新NUC”,预计升级CPU与GPU

教育要闻

考研数学满分!专业课满分!初试总分450!他最终圆梦985

无障碍浏览 进入关怀版