网易首页 > 网易号 > 正文 申请入驻

企业 Agent 为何多半是玩具?差的不是模型,是品味

0
分享至

全文 3,000字 | 阅读约 8 分钟


(Replit CEO Amjad Masad 访谈要点)

过去一年,AI Agent 在演示环节的表现越来越惊艳。

给它一个指令,代码自动生成,环境自动配置,产品几分钟就能上线。整个过程流畅到让人觉得,这技术已经可以替代一整个团队了。

但真正落地时,评价往往只有一句:看着挺好,用不起来。

Replit CEO Amjad Masad 最近在一场对谈中,用了一个词来评价今天的 Agent :玩具(toys)。看起来能干活,实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容,在业内有个统一称呼:slop(粗制滥造)。

问题不只出在模型本身。更大的问题是:没人教 Agent 什么叫“好”。

  • 什么内容该保留

  • 什么要删改

  • 做到什么程度才算合格。

这些判断标准,模型学不到。所以 Masad 的答案不是换更大的模型,就两个字:品味(taste)。

要让平台更有主张,让 Agent 理解好的标准。

第一节|多数 Agent 都翻车,不是不聪明,是太通用

Amjad Masad 说:

当前,除了代码和客服,其他 Agent 基本都不靠谱。

不是因为模型能力不够,而是这些 Agent 本质上就是通用输出机器。你给一句模糊提示,它就随便输出一个看起来还行的通用答案。看起来像在完成任务,实际上只是勉强交差。

所有生成的内容看起来都差不多。UI 排布雷同,语言模板僵硬,代码风格也像流水线产品。

具体来说:

  • 你让它做个营销活动规划,它会输出一个看起来还行的 Excel,但不懂品牌语调,也不清楚预算限制;

  • 你让它写代码,它给你一段跑得通的函数,但没考虑企业自己的数据库结构;

它能查资料、能回复、能填表,但始终不清楚什么才算完成得好。

它缺的不是智能,是判断标准。

在企业内部,事情往往没那么标准化。数据是混乱的,流程是断的,权限是分散的。Agent 真正难的,不是生成内容,而是在一团乱麻里还能做出靠谱判断。

所以 Amjad 强调,

信息检索是聊天机器人,行动才是 Agent 。

也就是说,光会找信息不算 Agent,得能做决定、能判断结果。

大多数 Agent 一上生产就崩溃,不是因为它太笨,而是它太通用。没有判断力,也没有判断边界。你让它做决定,它只会给你一种模糊的中等答案。

你以为你找了个助理,结果来的是个不会说不的临时工。

第二节|品味不是审美,是标准

Amjad 说:你不能指望基础模型自带品味

这里的“品味”,不是设计风格,也不是代码偏好,而是一套让模型交出可用结果的机制。

如果只用模型的默认输出,结果只会是一堆雷同的内容,和市面上其他产品没什么区别。

那 Replit 怎么做的?

第一步,给模型定规矩。

Replit 为不同类型的 App 准备了提示模板。做电商的用电商的结构,做内容的用内容的逻辑。不是让模型自由发挥,而是事先定好框架,让生成内容符合业务需求。

第二步,限定答案范围。

它不在整个互联网上随便找资料,而是从自己整理好的内容库里查。用的都是提前分类标记过的数据。这样至少能保证,每次调用的信息是可信的。

第三步,舍得花资源。

Replit 选择了不走快路。每次生成内容的长度更长,查询更深,结构更细。哪怕过程更慢,成本更高。Amjad 的态度很明确:App 贵一点、慢一点,但能用。

这套做法背后的逻辑很简单:

生成内容,不等于完成任务。

他要的是结果能被真实用户用起来,而不是模型做了什么。

所以,他对“品味”的定义,不是一种感觉,而是三个实际动作:

  • 先定好什么算完成

  • 只让模型在靠谱的范围里找答案

  • 愿意为质量多花成本

如果说大模型是原材料,Replit 给它加了三层把关:标准、范围、成本。把那些差不多就行的模糊输出,一层层卡住。

这就是 Amjad 说的品味:不是审美,而是让结果有标准、可追溯、有保障

第三节|Replit 的 Agent 为什么能交付?

有了标准,还得有人盯着。

一个 Agent 能不能用,核心不是它能不能生成内容,而是它能不能检查自己做得对不对。但大多数 Agent 做不到这一点。

大多数 Agent 只负责写,不负责看结果。它生成完代码、文档或操作指令,就直接停了。至于能不能执行、有没有问题,它自己并不知道。

Replit 最大的不同,是它让 Agent 具备了自测能力。

怎么做的?Amjad 讲了个简单但有效的办法:给每个编码 Agent 配一个测试 Agent。前者写,后者查。测试 Agent 会像用户一样打开网页、点按钮、读输出。不是看代码,而是实际操作一遍,看页面能不能正常跑、会不会崩溃、有没有做完。

如果发现问题,它会把反馈丢给主 Agent。主 Agent 改完再测,直到通过。

这套机制不靠聪明,靠的是流程。

而且 Replit 用的是两个不同模型。一个写,一个测。为什么?因为一个模型容易自圆其说,两个模型互相挑战,才更可能发现问题。

这就是 Replit 真正能用的原因:它不是生成一次,而是完成一轮。从写得出到用得上,中间差了至少一层验证。

Amjad 强调:

“我们是唯一一个让 Agent 测试自己工作成果的氛围编码平台。”

更关键的是:Replit 给了用户一个回滚机制。如果整个流程出错,点一下就能回到任务开始前的状态。代码、数据库、界面,全都恢复。

为什么这么重要?

因为 Agent 的风险不在于它不会写,而在于它出错时没人知道。如果没有验证机制,也没有回退手段,它可能一边出错,一边还在自信地推进任务。

所以 Amjad 把验收机制做成了 Agent 交付链的一部分。你不是在试一个 Agent,而是在用一整条“写—测—改—通过—上线”的闭环。

关键不是能做,而是能做对。

第四节|模型人人都能买,基础设施买不到

很多人以为,Agent 的效果好不好,关键在用什么模型。

Replit 也接了最强的模型:Claude 做主任务,Gemini 3 搜代码,GPT-5辅助对话。但 Amjad 认为:型大家都能买,差别从来不在这

真正的差距,在于有没有能力把模型用得对。

这就要讲到一个容易被忽视的事实:Replit 本质上不是一家 AI 公司,而是一家基础设施( AI Infra)公司。

举个例子,你在 Replit 的 Agent 里让它写一个 App,它会在几秒钟里开启一整套工作环境:

  • 启动一个新的沙盒,让模型在里头自由写代码、搭接口、连数据库

  • 写完后,测试 Agent 会复制一份环境来点按钮、验证结果

  • 如果失败,这个环境可以一键回到最初,不留残痕

这套流程背后,其实非常复杂:

  • 秒级生成虚拟环境

  • 数据库读写隔离,避免测试阶段误删真实数据

  • 操作系统级的文件追踪和还原机制

而这些,大多数 Agent 工具都不具备。

Amjad 特别提到:他们用了四年打磨底层文件系统,才让环境支持这么快的创建、回滚、合并。这背后是 Copy-on-write(写时复制)架构。每次操作都是带记忆的副本,随时可以清理或还原。

这套能力不是模型能学出来的,也不是提示词能写出来的,必须靠工程团队一点点构建。

这就是基础设施的价值。

一套真正能用的 Agent,必须靠这些东西托着:模型有分工、验证有环境、产品从一开始就为交付而设计。

Replit 不靠模型差异取胜,靠的是先把基础设施搭好了。别人还在讨论怎么让 Agent 输出内容,Replit 的 Agent 已经完成了写、测、改、复原、上线这整套流程。

差的不是模型,是工程。

结语|分水岭不是 AGI,是工程能力

模型越来越强,Agent 却不好用。

不是技术不行,而是没人负责交付。

Replit 没靠新模型出圈,而是靠写完要测、测完能回退、生成有标准。

Amjad 说不能等路线图,因为你得提前把基础打好,才能抓住模型突破的那一刻。

这套能力,说到底就两个字:品味。

它不是风格,而是底线。不是灵感,而是规矩。

识自AI

本文由AI深度研究院出品,内容整理自 Replit CEO Amjad Masad 在 VentureBeat 访谈等网上公开素材,包含翻译、提炼与分析。内容为合理引述与观点延伸,非原文逐字翻译。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=7i7A-Y4EMgQ

https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of

https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com

https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
媒体人:保利尼奥当年有大湾区退税政策,但看广州队没钱就没要

媒体人:保利尼奥当年有大湾区退税政策,但看广州队没钱就没要

懂球帝
2026-01-13 16:26:30
印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

李健政观察
2026-01-13 09:39:34
宜家3折起清仓所关闭门店部分商品

宜家3折起清仓所关闭门店部分商品

界面新闻
2026-01-13 20:21:35
情况有变,美国最新投票结果公布,特朗普公开承认,自己或将下台

情况有变,美国最新投票结果公布,特朗普公开承认,自己或将下台

博览历史
2026-01-13 08:49:29
大连8米高梦露雕像悄然被撤,商场人员:我也是今天上班才知道,集团有新的规划

大连8米高梦露雕像悄然被撤,商场人员:我也是今天上班才知道,集团有新的规划

极目新闻
2026-01-12 13:00:56
丰田汽车股价涨幅扩大至4.9%

丰田汽车股价涨幅扩大至4.9%

每日经济新闻
2026-01-13 08:18:06
网红口子姐熬夜猝死,年仅29岁,去年得了梅毒,最后露面胖了太多

网红口子姐熬夜猝死,年仅29岁,去年得了梅毒,最后露面胖了太多

180视角
2026-01-13 10:10:53
郭有才在央视讲《道德经》,这真不是个笑话

郭有才在央视讲《道德经》,这真不是个笑话

关尔东
2026-01-12 16:28:55
“为用优惠券,90元物品分两次结算遭嘲讽”?女子称在“零食有鸣”购物被锁店内;多方回应

“为用优惠券,90元物品分两次结算遭嘲讽”?女子称在“零食有鸣”购物被锁店内;多方回应

大风新闻
2026-01-13 18:13:32
三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

台州交通广播
2026-01-13 13:03:35
沉默5天后,高市早苗开腔了,对中国说了一句,不敢对美国说的话

沉默5天后,高市早苗开腔了,对中国说了一句,不敢对美国说的话

策略述
2026-01-13 18:37:41
基隆一甜品店“青提”甜品被疑使用“大陆用语”甚至被呛,岛内网民:庸人自扰,无聊

基隆一甜品店“青提”甜品被疑使用“大陆用语”甚至被呛,岛内网民:庸人自扰,无聊

环球网资讯
2026-01-13 09:29:09
俄驻委大使披露详情:马杜罗及妻子被控制时,身边实际上没有任何人;防空系统的远程预警站通信出了问题

俄驻委大使披露详情:马杜罗及妻子被控制时,身边实际上没有任何人;防空系统的远程预警站通信出了问题

扬子晚报
2026-01-11 11:42:19
人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

李健政观察
2026-01-13 13:34:01
宣布独立,成立一个新的:高都丽共和国!

宣布独立,成立一个新的:高都丽共和国!

百态人间
2026-01-13 16:35:22
商务部:自2026年1月14日起,对原产于美国和韩国的进口太阳能级多晶硅继续征收反倾销税,实施期限为5年

商务部:自2026年1月14日起,对原产于美国和韩国的进口太阳能级多晶硅继续征收反倾销税,实施期限为5年

每日经济新闻
2026-01-13 16:39:49
特朗普4月份访华,中国轰20会不会正式亮相?中美博弈有了新看点

特朗普4月份访华,中国轰20会不会正式亮相?中美博弈有了新看点

知鉴明史
2026-01-12 18:11:42
数百万元现金用编织袋装入医院院长后备箱!官方披露一商业贿赂案

数百万元现金用编织袋装入医院院长后备箱!官方披露一商业贿赂案

新京报
2026-01-13 14:06:09
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

天天热点见闻
2026-01-13 05:15:58
比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

潇湘晨报
2026-01-13 10:04:40
2026-01-13 20:39:00
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
359文章数 158关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

蒋超良被商人渗透式"围猎":对方拿60万给其保姆买房

头条要闻

蒋超良被商人渗透式"围猎":对方拿60万给其保姆买房

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

家居
房产
手机
健康
游戏

家居要闻

现代简逸 寻找生活的光

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

手机要闻

华为Pura 90系列提前看:Pro Max与Ultra版本差异在哪?

血常规3项异常,是身体警报!

《黑神话》今年首个更新来了!详细内容公开

无障碍浏览 进入关怀版