网易首页 > 网易号 > 正文 申请入驻

用【M2.7 + Hermes Agent】搭了一套多Agent研究团队,说说体验

0
分享至


Agent Harness这段时间一直很火。

从MiniMax持续更新的M2系列模型开始,海外开发者的注意力,越来越多集中过来。

一直有关注到,从M2.1到M2.5再到M2.7,模型对Agent的适配能力一直在优化,工具调用的准确度再提高、指令遵循能力逐渐到位、长期运行的可靠性也日渐磨了出来。

直到M2.7和Agent Harness的深度结合,自我进化似乎有了真正的落地性。

模型开始能深度参与Agent迭代的完整闭环,具备了构建复杂Agent Harness的能力。

所谓Harness,可以理解为模型与真实计算机环境之间的操作台,包括Skills能力、记忆系统、工具检索、子代理协作这些核心组件。


以往这些能力,需要开发者手动搭建、反复调试,但在MiniMax上却是简单了很多,成本也很低。

LangChain独立评估的结论显示,在文件操作、工具调用、指令遵循等核心Agent任务上,M2.7已经达到甚至超越闭源前沿模型的水平,而成本只需它们的零头。

让Agent不仅会操作,更能学会如何操作得更好。

Agent Harness正是那只手,它把模型的知识转化成了动作——从文档编辑、代码编写到网页操作、数据分析,这些能力才是评价模型交付能力的标准。


在40个超2000 token的复杂Skills场景,仍能保持97%的遵循率,这种稳定性是Agent长期运行所必须具备的底线能力。

接下来带大家看看我做的几个案例

官网在这里:agent.minimaxi.com/max-hermes

01我用Max Hermes搭了一个团队

多Agent协作的方案在圈子里讨论了好几年,考验的不只是单个Agent的智商,还有沟通、任务分配、错误协调这些超复杂的工程化能力。

我尝试用Max Hermes,搭建了一套Agent研究团队。


结合跨会话持久化记忆、自然语言定时任务配置、多个子代理并行运行的机制,MaxHermes更接近一个真正能长期运营、不断成长的AI助手。

MaxHermes实际的响应也很迅速,很快就帮我把Agent的分工和角色定位呈现了出来。


结合多个Agent能力,最终直接给我交付了一个即开即用的分角色研究型网站。


输入话题、主题、选项等等,可以多Agent分头行动、分别为我工作。

比起之前只是一个PPT式的网站,现在背后的多Agent能力完成度高了非常多。


怪不得,随着M2.5和M2.7持续迭代,Hermes Agent都是第一时间上线了新版本支持,目前MiniMax模型已经是整个Hermes生态中使用量最高的模型之一。

我还尝试了一下,给50个Agent,做一个统一的监测面板,能实时看到各Agent的工作状态,量化看到各Agent的执行指标。


我还尝试了一下,搭建三个不同角色的子代理协作网络:

数据分析师子代理负责加载和处理数据集,研究员子代理负责进行深度分析和逻辑推理,报告撰写员子代理负责将结论整合成结构完整的文档。


整个过程非常省心,多Agent配置机制已经相当成熟,多个专门化Agent在同一台机器上并行运行,每个Agent都有独立的记忆系统、工具集和Gateway,彼此之间不会产生冲突。

准备的数据是一份近500MB的市场调研原始问卷,包含来自全国32个城市的2.3万份有效样本,光是字段就有接近三百个,涉及用户行为习惯、产品偏好、价格敏感度等多类信息。


如果完全由人工走完这份报告的完整流程,差不多需要一个三到五人的研究团队至少一周的工作量。

启动研究任务后,M2.7首先自行进行了一次全局任务拆解,将整个流程切分成数据清洗、深度分析、交叉关联、可视化、报告撰写五个主要阶段,并将每个阶段动态分配到对应的子代理。


数据分析师子代理最先开始工作,加载数据包并排除异常数据,同时识别出几个明显的录入错误进行自动修复。每完成一个节点,M2.7都会把中间结果和Log信息同步给研究员子代理。

紧接着研究员子代理接手执行交叉分析和群体画像归纳,在与数据分析师反复沟通确认逻辑后,将分析结果转换为结构清晰的洞察。

最后报告撰写员子代理自动汇集所有输出内容,按照预设大纲生成多版本文档。

全部工具调用超过150次,没有出现过因逻辑错乱导致的任务中断。


更让我开心的是,学习闭环机制在整个过程中一直默默运转,完成报告后它自动将整个流程沉淀为一个新Skill并保存起来。

我再使用这套研究团队去处理其他类似的数据分析项目时,整个操作会越来越顺滑,因为Hermes记住了上一次的经验,学会了我的工作习惯和偏好。


在专业办公场景的表现,同样值得一提。

我们最常用的办公三件套:Excel、PPT、Word,M2.7对实现了更多、更复杂的编辑。不像之前的很多AI产品,经常会出现格式不支持、无法编辑等问题。

我尝试让Agent团队根据之前生成的调研报告,自动制作一份包含数据图表的季度汇报PPT。

M2.7的数据分析师子代理负责提取关键数据,研究员子代理进行结论梳理,报告撰写员子代理则将内容按演讲逻辑编排到PPT中。

最终产出的文件可以直接用于内部汇报,图表风格和内容结构都符合预期,中间不需要我进行额外的人工插足。


不过在个别格式的调整上,会有细微问题,有的数字大小和版式还不能严丝合缝。

记得两年前行业里还在激烈争论Agent是不是伪需求,有人说大模型自身的能力都不够成熟,哪来的余力去做Agent。

今天已经比较明朗了:Agent不只不是伪需求,反而是模型能力向上突破之后最应该自然延伸的方向。

M2.7用这次完整的AI研究团队搭建,让我看到了多Agent协作的真实可能。

更重要的是,Hermes Agent的学习闭环让这种协作,从一次性任务,进化成可持续积累的生产力。

02代码自循环,让AI修复自身Harness

如果说让AI完成一个研究项目已经初步让人满意,那让模型自己优化自己运行所依赖的Harness代码,听起来就有点未来科幻的感觉了。

而这刚好是M2.7很有比较优势的进阶能力。


MiniMax内部有一个真实的工程实践,他们将一个模型的软件开发框架优化任务交给M2.7自主把控。

M2.7在没有任何人工干预的前提下,全程自行执行分析失败轨迹、规划代码改动、修改Harness代码结构、运行评测集对比、决定保留或回退的完整迭代循环流程,这个循环持续了超过100轮。


迭代告一段落后对比评测效果,M2.7让该框架的内部评测性能直接提升了30%。在部分研发场景中,M2.7可承担约三到五成的工程化工作量。

为了亲身体验M2.7在Harness自我优化方面的真实能力,我设计了一个竞赛数据集的实战测试。

选了kaggle竞赛数据库,要求运行在Hermes Agent上的M2.7以一个独立的核查角色介入,探索数据并且自主训练模型。


启动指令给出后,M2.7的第一个动作是加载目标代码库并进行完整的静态分析。

对特征工程,它识别出Title, FamilySize, IsAlone等新特征,并且指出不同模块之间的循环依赖可能会在特定情况下触发不可预期的异常。


给我印象最深的是,它还更新了迭代进度,每一轮迭代都有打分,以及改进内容的展示。


整个优化任务执行期间,M2.7一共完成了4轮自我迭代。

每轮都会基于上一轮的执行反馈调整下一个动作,动作决策完全包含代码编辑、编译测试、结果评估和回滚策略的闭环。

如果放在实验室场景里,研究者可以把实验方向给到Agent,Agent就会承担起文献调研、数据流水线对接、实验启动、日志监控和指标分析的完整链路,研究员只需要在关键节点做出决策和方向性讨论即可介入。

行业观点认为模型可能吃掉Agent,垂类Agent功能或被基座大模型逐步兼容。

从M2.7的表现来看这个过程正在进行,但表现形式不是模型单方面吞掉一切,是模型在Agent Harness层面不断扩展能力边界,让过去需要多个专用Agent配合完成的工作,渐渐被一个足够强大的模型和它的Harness所覆盖。


而Hermes Agent这种开源框架的存在,其实为这种融合过程提供了绝佳的试验场,让各种有差异化的工作流都能在同一个生态里找到自己的位置。

未来那些重复性较高的代码调试和Harness维护工作可以逐步移交给AI完成,让开发者集中精力在更高级别的架构设计和创新探索上。

03Hermes在云端,MaxHermes的流畅体验

围绕M2.7和Hermes Agent的整个生态中,MaxHermes在云端的表现是我尤其喜欢的。

尽管M2.7有着出色的表现,但Hermes Agent的本地部署仍然不是所有用户都能轻松拥抱的流程。

配置长期运行的Agent需要准备服务器、配置运行环境、设置API密钥、处理各种兼容性问题。

MaxHermes的存在恰好封堵了这个缺口。


就像之前MaxClaw给我的感觉一样,不用管服务器是什么配置,不用纠结环境变量该写什么,更不用处理Docker容器里各种奇怪的报错。

云端运行的Hermes依然保留了完整的Skills学习闭环、持久化记忆、子代理协作等核心功能,同时没有了本地机器需要一直开着、网络随时保持连接的烦恼。

实际体验下来,MaxHermes在任务执行的流畅度上,与自建的本地实例几乎没有可感知的差异。


应对数据分析、文档撰写、信息调研这些典型场景,响应速度和动作执行的准确率都非常稳定。

更重要的是,MaxHermes同样原生支持Agent Teams多角色协作机制,依然可以在Web端搭建一套研究团队,Agent团队依然能在云端自行学习和进化。

对于每天都要面对各种AI工具的从业者来说,MaxHermes节省的时间也许只是几条命令。

但对于大量核心工作不是研究AI而是用AI来提高生产力的普通用户来说,这种低门槛的体验方式可能是他们真正上手Agent的第一步。

一个小问题,就是等待时长上,MaxHermes有时候会有波动,比起普通Agent响应时间略长。

我只觉得,一代人有一代人的工具门槛。

预计未来会有越来越多的Agent应用以这种轻量级云端形式出现在大众视野中,而MaxHermes在这个方向上迈出了很扎实的一步。

使用入口在这里: agent.minimaxi.com/max-hermes

04自进化Agent是下一个风口吗

2026年的行业焦点,早就从谁的模型更强,转向了谁能结合Agent真正交付结果。

模型能力的上限,很可能不再只由预训练决定,而更多地取决于Harness的完整度和持续进化的动力。


大模型不断拉升认知的天花板,智能体则持续压实执行的地基。

M2.7的开源,给所有这些讨论提供了可实操的落脚点。

有人争论模型与Agent之间谁会更占上风,更值得关注的其实是二者边界不断在互相渗透。

M2.7的自我进化模式,给出了一个不错的解法:模型正在从静态的训练产物,演变成一个持续运行的进化主体,不再能被单一角色定义。


在专业领域,软件工程层面的端到端交付、复杂系统深层理解、机器学习全流程自我优化,正在以看得见的方式改写开发者的日常工作体验。

专业办公场景下的复杂文档多轮修改、高保真内容编辑、数据可视化自动化输出,生产力提升的感觉非常真实。

开源大模型之间的竞争还在继续,Kimi、GLM、Qwen等玩家也在推进各自的迭代。

但M2.7走出了一条很不一样的路,当别人还在努力改模型参数量时,M2.7已经把焦点转向了让模型学会自己改造自己。

接下来的故事,更精彩了……

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳这两个区,赢麻了

深圳这两个区,赢麻了

楼市诸葛
2026-04-26 13:26:22
雨雨雨!暴跌10℃!江苏最新天气预测!

雨雨雨!暴跌10℃!江苏最新天气预测!

江南晚报
2026-04-26 03:00:28
暴跌27%,恐损2.6万亿!中国拧紧“水龙头”,三个绝不震醒日本

暴跌27%,恐损2.6万亿!中国拧紧“水龙头”,三个绝不震醒日本

户外钓鱼哥阿旱
2026-04-26 16:15:07
演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

八斗小先生
2026-04-25 13:55:54
《北京人在纽约》演员现状,小龙套成名导,女N号女儿成一线女星

《北京人在纽约》演员现状,小龙套成名导,女N号女儿成一线女星

谈史论天地
2026-04-24 15:20:03
恒大集团与特朗普合作往事

恒大集团与特朗普合作往事

地产微资讯
2026-04-24 18:09:33
1967年,江青讲话的照片,注意看旁边的周总理,一脸无奈眉头紧锁

1967年,江青讲话的照片,注意看旁边的周总理,一脸无奈眉头紧锁

海佑讲史
2026-04-25 17:15:06
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
他为申花效力6年,如今定居上海,财富自由,已是申花一线教练

他为申花效力6年,如今定居上海,财富自由,已是申花一线教练

云舟史策
2026-04-26 14:48:07
未来10年最吃香的 “铁饭碗”,这6个行业,抓住一个终身躺赢!

未来10年最吃香的 “铁饭碗”,这6个行业,抓住一个终身躺赢!

细说职场
2026-04-25 19:55:42
DeepSeek联手华为掀桌子后,黄仁勋给英伟达下达了死命令

DeepSeek联手华为掀桌子后,黄仁勋给英伟达下达了死命令

南宗历史
2026-04-25 10:12:48
100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

100 日元兑 4.33 元:日本用三十年,把自己熬成了 “廉价国家”

深析古今
2026-03-31 10:10:57
64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

阅微札记
2026-04-24 14:49:10
一天4大瓜!陈晓陈妍希互撕,王思聪孩子妈被锤,一个比一个炸裂

一天4大瓜!陈晓陈妍希互撕,王思聪孩子妈被锤,一个比一个炸裂

未曾青梅
2026-04-24 22:16:00
美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

琴音缭绕回
2026-04-25 07:21:31
华晨宇抚仙湖演唱会取消,舞台已开始拆除,抚仙湖居民发声

华晨宇抚仙湖演唱会取消,舞台已开始拆除,抚仙湖居民发声

洞见小能手
2026-04-26 17:17:22
广东3消息!崔永熙罕见发声,徐杰有望拿顶薪,徐昕伤情报告出炉

广东3消息!崔永熙罕见发声,徐杰有望拿顶薪,徐昕伤情报告出炉

多特体育说
2026-04-26 10:32:32
意甲淫媒案炸了!50 多位球星名字泄露,致女模怀孕,笑气成标配

意甲淫媒案炸了!50 多位球星名字泄露,致女模怀孕,笑气成标配

橙星文娱
2026-04-26 17:30:42
年薪2000万!曝大巴黎续约恩里克,足坛第4高薪主帅,曼联别等了

年薪2000万!曝大巴黎续约恩里克,足坛第4高薪主帅,曼联别等了

夏侯看英超
2026-04-26 00:20:54
随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

侧身凌空斩
2026-04-25 21:59:26
2026-04-26 18:36:49
AI异类 incentive-icons
AI异类
从硅谷到中关村,AI信息与测评
163文章数 6关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

美国网民质疑:为什么先救万斯

头条要闻

美国网民质疑:为什么先救万斯

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

中办、国办:加强新就业群体服务管理

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

房产
家居
本地
时尚
教育

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

家居要闻

自然肌理 温润美学

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

IU的脸,真的有自己的时间线

教育要闻

四年级数学:简便计算,难住不少数学老师

无障碍浏览 进入关怀版