让AI干点长活有多烦?我深有体会。下完任务它规划7步,跑完3步停下来问"还继续吗",点完继续跑两步又问一遍。一晚上对话框里全是"继续",活没干多少,人机对话倒是练熟了。
这不是我操作问题。MiniMax在最新技术博客里管这叫"上下文焦虑"——模型对"超长任务啥时候算完"心里没底,不是不会做,是不敢做,每步都怕出错,干脆停下来求确认。
![]()
今天MiniMax Agent桌面端更新,上线了一个叫Mavis的模式(MiniMax as a Jarvis的缩写)。多Agent框架不新鲜,但MiniMax说以前的主流玩法本质是靠提示词让模型"角色扮演",撑不了多久就会撞上上下文焦虑、长程任务退化这些墙。
他们的解法是给Agent Team造了一套基础设施,取名叫Team Engine。引擎下面挂三类角色:Leader管统筹,Worker干活,Verifier验收。关键设计是Worker和Verifier之间"对抗",谁也别想糊弄。
我们拿它跑了个测试任务。5个Worker并行开工,有个跑了12分钟没动静,Leader直接发bash命令查状态。Worker全交活后,Leader生成5个Verifier(任务列表里戴"小黄帽"的图标),其中一个很快揪出数据错误,判了"失败"。对应Worker重启,思考过程里写着:"Verifier拒绝了我之前的交付,基于三个错误……需要返回核查关键事实。"
五组1v1对抗来回数十次,Mavis还"学到新东西",顺手更新了记忆。
第二个测试更复杂:基于权威数据做五一假期旅游市场多维度分析。持续对抗让耗时远比单Agent长,但交付报告确实干净,可信度也高一截。
第三个测试直接上强度——策划广州AI开发者线下沙龙,要场地报价、竞品抓取、主题策划、商业计划书、精美网页。Mavis回复"任务规模很大,需要多个Agent并行",光制定计划就比深度研究还久。我们追加需求:正式合同、财务表格、汇报PPT。Agent Team启动9个并行任务,最终交付10多个文件,包括xls、ppt、html及.md版本。
Mavis另一特性是接入聊天平台、支持多任务。通过微信或飞书扫码即可使用,把"秒回"和"执行"解耦。我们在飞书里让它研究石油涨价,任务进行中又派了硅谷AI新品研究,它没停前一个,直接回"新任务已完成",两个任务各自跑各自的。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.