网易首页 > 网易号 > 正文 申请入驻

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

0
分享至


新智元报道

编辑:LRS

【新智元导读】Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!

如何用AI赚钱,可能是这个时代最常见的问题。

有些人选择用大模型写小说、写报告、写文案等等,但这些场景只是让模型在执行一些「短期且孤立」的任务。

如果能找到合适的应用场景,比如「用自动驾驶跑网约车」,并且模型还能够在长时间内保持连贯的输出,再那岂不是就能躺赚了?

最近,有研究人员提出了一个自动售货机运营模拟环境Vending-Bench,专门用来测试基于大模型的智能体管理一个简单、长期运行业务场景的能力。

智能体必须平衡库存、下订单、设定价格以及处理日常费用,这些任务单个执行都非常简单,但综合起来,在长时间运行(每次运行超过两千万个token)的情况下,对大模型持续、连贯决策的能力来说是个很大的挑战。


论文链接: https://arxiv.org/pdf/2502.15840

实验结果也显示了不同大模型之间的性能方差很大:Claude 3.5 Sonnet和o3-mini在大多数运行中能很好地管理机器并盈利,但所有模型都出现过运营失误:

要么是由于误解配送时间表、忘记订单,要么是陷入细枝末节的「崩溃」循环,并且很少有模型能解决这些问题,也无法恢复运营。


而且,运营失败与模型上下文窗口溢出时间没有明显的相关性,表明运营失败并非源于内存限制。

Vending-Bench设计理念

智能体(agent)可以让生成式AI自主地采取行动来完成指定任务,最简单的实现方式是「循环」,根据之前的迭代结果和任务目标反复调用工具。


Vending-Bench框架下设计的智能体具有以下特点:

上下文管理:在每次迭代中,智能体都会将历史记录中的最后N个(实验设置为30,000个)token作为输入传递给生成式人工智能进行推理。

记忆工具:智能体可以对三种数据库(草稿区、键值存储和向量)进行读取、写入和删除,以弥补其记忆能力的限制。其中,向量数据库基于OpenAI的「text-embedding-3-small」模型计算文本和嵌入向量,并使用余弦相似度进行搜索。

任务相关工具:与自动售货机业务的运营相关。

一些可以通过远程操作完成的任务可以直接调用相关工具,比如阅读和撰写电子邮件、使用搜索引擎查找产品信息、查看当前的库存情况以及检查资金余额等。

对于需要在现实世界中进行物理操作的部分操作,研究人员实现了一个子智能体,模拟了与现实世界中人类的互动,可以完成从仓库向自动售货机补充商品、收取现金、设置价格以及获取自动售货机的库存信息。

在技术实现上,研究人员开发了inspect-ai框架的一个扩展模块,可以让主智能体将任务委托给子智能体,具体工具包括:

sub_agent_specs:返回子智能体的相关信息,包括可用工具的列表。

run_sub_agent:以字符串形式向子智能体发出指令并执行。

chat_with_sub_agent:向子智能体提问,了解运行过程中完成了什么操作。

系统中也有时间概念,智能体每次采取行动都会推动时间线,也可以选择使用「wait_for_next_day」工具加速时间流逝。

每天早上,智能体会收到通知,告知购买到哪些商品,以及是否收到了新的电子邮件。

为了成功完成售货机运营任务,智能体需要做到:

  • 发送电子邮件从供应商处购买商品

  • 将商品补充到自动售货机中

  • 设置的价格必须在市场上有竞争力

  • 定期收取收入

  • 控制日常运营成本

任务环境还要求智能体模拟人类行为,包括与批发供应商的沟通,以及顾客购买等。

供应商交流


在寻找供应商前,智能体需要使用搜索引擎查找流行的自动售货机商品,然后寻找地址附近的批发商联系方式并发送电子邮件,询问商品信息。

当新的一天开始时,批发商会回复一封由AI生成的电子邮件,回复内容取决于真实数据和请求内容。

决定购买商品后,智能体必须在电子邮件中明确指定要购买的商品名称和数量、送货地址以及批发商可以扣款的账户号码。

商品发货后,几天就会到达库存,并收到一封电子邮件通知。

根据预定价格,经济系统会弹性模拟每天顾客的购买行为,如果商品价格定得过高,销量就会下降。

环境配置

智能体一开始有500美元的初始资金,并且每天需要支付2美元的费用来运营自动售货机。

自动售货机有四排,每排有三个格子,其中两排用于放置小件商品,另外两排用于放置大件商品,商品尺寸由GPT-4o在订购产品时确定。

智能体使用一个工具时,环境中的时间会向前推进5分钟、25分钟、75分钟或5小时,取决于所使用的工具;记忆容量为3万个token

智能体每天运行2000条消息,如果模型连续10天无法支付每日费用而破产,运营就会提前结束。

评分方法

智能体的主要评分标准是游戏结束时的净资产,即手头现金、自动售货机中尚未取出的现金、已购买但尚未售出的商品的价值。

除了净资产之外,研究人员还会跟踪智能体的资金余额、售出的商品数量以及对工具的使用情况。

实验结果

为了将不同模型的结果与人类表现进行对比,研究人员搭建了一个基于聊天的界面,然后安排了一位人类参与者用五个小时来完成运营任务,参与者在开始之前对任务没有任何预先了解,仅通过任务提示和与环境的互动来理解任务的运作方式。


每个模型运行五次后,从结果中可以看出,Claude 3.5 Sonnet的净资产表现最为出色,遥遥领先,而o3-mini则位居第二

在可靠性上,只对模型最差的一次运行进行评估后,发现人类基线表现最好,其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品数量进行的排名通常与净资产排名一致,但即使是排名靠前的模型,有时也会出现一件商品都卖不出去的情况,凸显了模型在长周期内的表现波动很大。

研究人员还测量了模型在停滞之前能够运行的天数,即停止销售商品的时间。

Claude 3.5 Sonnet在这个指标上排名最高,可以看到如果自动售货机始终保持有货,那么运行时间越长,销售的机会就越多,不过所有模型最终都会停止。

为了更详细地分析模型在模拟天数上的表现,研究人员主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表现。


当把评估限制在2000条消息,可以发现o3-mini在模拟中持续时间最长,达到了222天。

从图中阴影部分的不确定性区域(±1个标准差)可以看出,模型在五次运行中都表现出非常高的波动性。


对于所有模型,可以观察到,随着时间推移,在大约120天后,每日工具的使用频率都在下降,其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最为明显。

工具使用频率降低通常意味着经济活动的减少,在净资产图表中表现得尤为明显:o3-mini在初期表现良好,但随后其净资产开始停滞甚至下降(没有销售且每天仍有费用),与其工具使用频率的下降模式相似。

相比之下,Gemini 1.5 Pro和GPT-4o在净资产表现上最差,使用电子邮件功能的频率也最低。

参考资料:

https://andonlabs.com/evals/vending-bench

https://x.com/emollick/status/1921048218353197470

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
弘一法师:你最大的修行,是无论别人如何,都要善待自己

弘一法师:你最大的修行,是无论别人如何,都要善待自己

清风拂心
2025-10-25 11:15:03
门头沟区雁翅镇大村村党支部书记、村委会主任李占森接受审查调查

门头沟区雁翅镇大村村党支部书记、村委会主任李占森接受审查调查

鲁中晨报
2025-11-12 16:19:02
64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片。

64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片。

科学发掘
2025-11-11 13:33:40
C罗到沙特的动态点赞历史前十,被梅西去诺坎普不断逼近!

C罗到沙特的动态点赞历史前十,被梅西去诺坎普不断逼近!

氧气是个地铁
2025-11-12 19:13:00
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

兴趣知识
2025-11-11 21:20:51
中国还没来得及对黄岩岛吹填,就有人捷足先登,对南海三大岛下手

中国还没来得及对黄岩岛吹填,就有人捷足先登,对南海三大岛下手

阿策聊实事
2025-11-12 16:17:23
陈布雷得知地下党女儿被捕后,竟要毛人凤立即枪毙,此举反救她一命

陈布雷得知地下党女儿被捕后,竟要毛人凤立即枪毙,此举反救她一命

睡前讲故事
2025-11-08 13:28:15
祝贺!上海U20男足夺得十五运会铜牌

祝贺!上海U20男足夺得十五运会铜牌

上海体育
2025-11-12 19:00:14
全运体操男团江苏夺金湖南摘银

全运体操男团江苏夺金湖南摘银

体坛周报
2025-11-12 22:11:10
你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

老谢谈史
2025-11-09 04:34:28
男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

红星新闻
2025-11-12 15:52:13
特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

每日经济新闻
2025-11-11 20:50:40
什么时候吃降压药合适?早上空腹能吃吗?告诉你答案

什么时候吃降压药合适?早上空腹能吃吗?告诉你答案

泠泠说史
2025-11-06 15:45:43
检察机关依法对王中和涉嫌受贿、行贿案提起公诉

检察机关依法对王中和涉嫌受贿、行贿案提起公诉

新华社
2025-11-12 10:01:02
九成“地补”暂停、北京置换补贴“余额不足” 2026年汽车“两新”政策亟待出炉

九成“地补”暂停、北京置换补贴“余额不足” 2026年汽车“两新”政策亟待出炉

财联社
2025-11-12 15:24:09
男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

荷兰豆爱健康
2025-10-31 14:56:32
表面上"黄花大闺女",实际未婚当妈的几位女星,最后一位人人喊打

表面上"黄花大闺女",实际未婚当妈的几位女星,最后一位人人喊打

丰谭笔录
2025-11-10 10:28:39
证监会:坚决防止市场大起大落、急涨急跌!接下来股市行情怎么走

证监会:坚决防止市场大起大落、急涨急跌!接下来股市行情怎么走

有料财经
2025-11-12 18:56:28
2025-11-13 05:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

教育
亲子
家居
数码
本地

教育要闻

2025年中国教育科学研究院实验区(校)教育成果展示交流活动即将拉开序幕

亲子要闻

男孩总是躁怒崩溃,送去医院就诊,被确诊的却是孩子父母

家居要闻

情感之所 生活教会设计

数码要闻

京东11.11办公平板成交额同比增150% 游戏平板表现亮眼

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

无障碍浏览 进入关怀版