网易首页 > 网易号 > 正文 申请入驻

大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

0
分享至

本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。

近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面临诸多瓶颈。使用范围主要集中于专业领域,如代码生成、科研辅助等。在大众、高频、日常的应用场景(如电商、个人助理)中,普及率依然较低。这一现象引发了一个关键问题:

当前制约大模型智能体实际可用性的真正原因是什么?

上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。

  • 论文题目:The Real Barrier to LLM Agent Usability is Agentic ROI
  • 论文链接:https://arxiv.org/pdf/2505.17767

Agentic ROI:大模型智能体实现规模化应用的关键瓶颈

研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值:

  • Information Quality:指智能体所生成的信息质量,包括准确性、完整性等。
  • Quality Threshold:指最低可接受的信息质量阈值(注:根据上下文推断)。
  • Human Time和 Agent Time:分别指人类与智能体完成对应任务所需的时间。
  • Interaction Time:指用户与智能体交互所需要的时间,如用户进行任务描述、验证结果过程中所消耗的时间。
  • Expense:指用户经济成本,如模型调用、API 使用的开销。

只有当信息质量超过一定阈值,且智能体所节省的时间和成本之比足够高时,智能体才真正具备可用性。

如上图所示,当前大部分 LLM 智能体集中应用于人类任务时间成本高的信息密集型场景(如科研、编程),此类任务本身就需要大量人力投入,因此即便智能体部分替代也能显著提高效率。然而,在用户量庞大的日常场景中(如电商、搜索、助理等),任务本身较为简单,交互成本低(如点击、下滑操作),智能体提升的边际价值不明显,反而可能引入额外的交互成本和延迟,从而导致 Agentic ROI 较低。

因此,当前高用户需求与低 Agentic ROI 之间的矛盾,反映了智能体在日常应用中的实用性不足,需进一步优化信息价值、智能体任务完成时间、及交互时间以填补市场空白。

优化 Agentic ROI 智能体发展的「之字形」轨迹

研究团队提出,LLM 智能体的发展路径并非线性增长,而是呈现出一种「先规模化、后轻量化」的「之字形」发展模式:首先规模化(scaling up)参数规模、训练数据、推理能力以提升信息质量;之后在保证信息质量的前提下,轻量化(scaling down)进行模型压缩、蒸馏、推理优化以减少智能体所用时间与调用成本。我们正处于智能体规模化发展的高峰阶段,优先提升信息质量。

基础模型如 OpenAI 系列模型的发展也体现了这一「之字形」发展趋势:同系列模型如 o1-mini 到 o1 模型表现显著增强,而新一代小模型如 o3-mini 则在持平 o1 性能的同时显著降低了推理费用和延迟。

规模化提升信息质量(Scaling Up)

预训练规模化(Pre-training Scaling)

预训练阶段通过扩大模型规模、数据量和计算资源,使智能体在语言理解、推理和世界知识等基础能力方面获得稳步提升。而规模化使用包含任务结构和操作流程的文档数据(如操作手册、工作流程指南)能够帮助模型学习实际任务的分解逻辑和执行顺序。此外,随着上下文窗口的扩展和记忆机制的引入,智能体可以处理更长的交互历史和用户偏好,从而提升多轮任务执行的能力。

后训练规模化(Post-training Scaling)

后训练阶段(如监督微调和强化学习)使智能体更贴近人类的需求与价值观。同时,智能体性能提升还依赖于大规模复杂环境(网页、API 接口)交互轨迹数据,使用外部工具进行操作决策。此外,在真实部署中积累的用户反馈、任务完成记录和错误修复数据,构成了智能体持续学习与演化的基础,形成智能体的数据飞轮,使其在真实使用中不断优化行为。

推理时规模化(Test-time Scaling)

推理时规模化包括:

  • 规模化推理步骤(Scaling reasoning process),以应对复杂任务并生成更可靠的输出;
  • 规模化多智能体系统(Scaling multi-agent system),通过协作完成任务分解与执行;
  • 扩展工具调用(Scaling tool calling),通过多次工具调用使智能体能够逐步验证中间结果;
  • 扩展推理时训练(Scaling test-time training),通过利用无标签测试数据实时更新快速适应新任务或用户需求
  • 有约束条件下直接优化 Agentic ROI(Scaling towards Agentic ROI under budget constraints),智能体可在给定预算约束(如时间、API 成本)下动态评估每一步操作信息收益,直接整体优化 Agentic ROI。

构建世界模型(Building World Model)

构建真实的「世界模型」对于实现真正规模化数据合成、智能体评估至关重要。世界模型应支持多模态交互(语言、图像、文档、音频),具备处理多步骤、长时程任务的能力,并能模拟用户的多样化偏好与反馈机制。此外,它还应反映现实世界中的不确定性,例如信息不完全、用户意图变化、环境干扰等。

确保鲁棒性与安全性(Ensuring Robustness & Security)

确保智能体行为的稳健性与安全性也是提升信息质量的重要一环。鲁棒性方面,智能体应防止奖励机制被利用,避免出现「奖励黑客」现象;安全性方面,需要防范训练数据污染、防止反馈被篡改和后门攻击等。在运行过程中,智能体应配备异常检测和事实核查能力,确保输出内容的准确性与一致性。同时,构建行为审计机制和可解释性工具,可以提升智能体的可控性和可靠性。

轻量化降低智能体时间与成本(Scaling Down)

减少智能体任务完成时间

引入记忆机制:引入记忆机制是提高效率的重要手段。具备记忆能力的智能体可以跳过重复计算,直接调用以往任务中积累的知识,从而加快处理速度。这种方式模拟人类专家的行为,依靠经验而非实时推理来完成任务。

模型压缩:通过模型压缩或蒸馏来减少计算资源和推理延迟,是另一个核心方向。借助模型蒸馏等技术,可以将大模型的能力迁移到更小的模型中,从而在不显著降低性能的前提下,显著缩短响应时间、减少部署成本。

优化推理策略:智能体的时间消耗不仅来源于计算,还受到推理链条长度的影响。如果推理过程过于复杂或冗余,例如频繁的自我反思、递归规划等,可能会延长任务完成时间而未带来质的提升。因此,更高效的智能体应具备「少而精」的思维能力,能够通过最短路径达成最优解。

基础设施优化:硬件层面的升级,如 Groq 和 Cerebras 等新型 AI 芯片,以及软件层面的优化,如 vLLM 和 FlashAttention 等推理引擎,都能显著提升模型运行速度。只有软硬件协同进化,才能真正满足低延迟、实时响应的实际需求,从而提升智能体的整体可用性。

降低成本

降低交互时间:当前的智能体往往要求用户提供冗长、明确的指令,这带来了较高的使用门槛与认知负担。为此,智能体的交互方式应从被动解析输入,转向主动理解用户意图,具备一定程度的目标推理与任务自完成能力。这种转变不仅可以减少用户的操作负担,也有助于提升整体使用体验。此外,产品设计上的新范式也有助于进一步降低用户交互时间。

降低开销:智能体的运行费用可能因模型规模、推理深度、调用外部工具等因素而迅速上升。尤其在大规模部署或持续运行场景下,成本问题尤为突出。因此,未来的智能体需要更智能地管理上下文,合理控制推理复杂度与工具调用频率,确保在保证性能的前提下,尽可能降低资源消耗与使用开销。

Agentic ROI 提供了一个衡量智能体真实可用性的系统框架,帮助我们超越模型性能的单一维度,转向「实际效益」导向的设计与评价逻辑。智能体的「可用性」不应仅以模型性能定义,而应以综合效益衡量。在实际部署中,Agentic ROI 为我们提供了一个更贴近真实世界的评价维度,帮助我们识别系统中被忽视的「隐藏成本」,并指导我们构建真正高效、可用、可负担的智能体系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

里芃芃体育
2026-03-26 16:00:06
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

寻墨阁
2026-03-25 12:40:35
感谢监管,为量化戴上紧箍咒,散户终见曙光

感谢监管,为量化戴上紧箍咒,散户终见曙光

风风顺
2026-03-26 10:28:39
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

科学发掘
2026-03-26 17:46:48
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

界面新闻
2026-03-25 15:50:08
瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

阿凫爱吐槽
2026-03-24 00:54:18
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
网易开了个坏头?

网易开了个坏头?

虎嗅APP
2026-03-26 19:40:05
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
2026-03-26 23:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
艺术
时尚
军事航空

教育要闻

骂人没有杀伤力?那不是白忙活吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版