网易首页 > 网易号 > 正文 申请入驻

中美六大顶尖模型第一赛季实盘量化交易结果出炉:Qwen最后反超夺冠,GPT-5垫底「复盘」

0
分享至


大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了,LLM在现实世界中表现究竟会怎么样

这就不得不得提最近大火的一家名为 Nof1 的机构,发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目,旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力

目前第一赛季(10月18到11月4)已经结束,国产模型Qwen(阿里Qwen最后实现反超) 和 DeepSeek最终获得了冠亚军且都盈利了,GPT-5垫底!以下是比赛结果:



下面我们就对本次比赛的过程做一个全面复盘:

Alpha Arena项目核心问题非常直接:

一个大型语言模型,在最少的指导下,能否充当一个零样本(zero-shot)的系统化交易模型?

为此,他们为六个业界领先的LLM分别提供了1万美元的真实资金,让它们在加密货币衍生品交易所Hyperliquid上进行自主交易,全程零人工干预

这些模型只能依赖提供的纯数值市场数据进行决策,无法获取任何新闻或市场“叙事”信息。它们的唯一目标是:最大化收益

初步结果显示,不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异,并且对提示词的微小变化高度敏感

Alpha Arena如何设计?

Alpha Arena第一赛季的目标有两个:

1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析,观察不同模型的交易方式是否存在巨大差异,以及这些差异是否随时间保持一致

2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI,以更快地发现前沿AI的关键差距和洞见

为了实现这一目标,实验选择了真金白银的实盘交易,而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题

参赛选手与赛场规则

本次比赛阵容汇集了全球顶尖的AI研究成果,共六个模型:

  • GPT-5

  • Gemini 2.5 Pro

  • Claude Sonnet 4.5

  • Grok 4

  • DeepSeek v3.1

  • Qwen3-Max

这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未经任何任务特定的微调

交易环境:在Hyperliquid交易所进行中低频交易(决策间隔为数分钟到数小时)。
交易资产:BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约

操作空间:买入开仓(做多)、卖出开仓(做空)、持有或平仓

数据输入:仅提供定量的市场数据,如当前和历史中间价、成交量、技术指标(EMA、MACD、RSI等)以及其他辅助特征

交易杠杆:允许模型使用杠杆,这既能提高资金效率,加速反馈循环,也极大地考验了模型的风险管理能力

构建执行系统(Harness)

整个系统的推理循环如下:

模型在每次被调用时(约2-3分钟一次),会接收到一个包含简洁指令集(系统提示)和实时市场及账户状态(用户提示)的输入

然后,模型需要返回结构化的操作指令,包括:

交易决策:买入/卖出/持有/平仓
交易细节:币种、数量、杠杆
决策依据:简短的理由陈述、一个0到1之间的置信度分数
退出计划:预设的止盈目标、止损价位和使计划失效的条件

其中,退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。

一个交易实例:从决策到执行

为了直观展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


入场:2025年10月19日 10:10

模型收到了详细的上下文信息,包括:分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率,以及精确的账户状态(可用现金8308.94美元,持有一个盈利493.42美元的XRP多头仓位)

推理过程摘要:

1.分析现有仓位:模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好,且其预设的失效条件“BTC跌破105,000美元”并未触发(当时BTC价格为107,982.5美元),因此决定继续持有

2.进行市场全面扫描:接着,模型系统性地分析了其他主要加密货币的机会,包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态,其中BTC和ETH显示出显著强势,BNB则表现出特别强劲的相对性能

3.制定新策略并进行资本分配:在综合评估后,模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金(8308美元),因此决定采取“选择性”策略。模型制定了精确的头寸计划:动用40%的保证金(约3323美元),配合20倍杠杆建立BTC多头头寸,并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区,动能强劲,且4小时RSI指标从超卖区恢复,目标是重新测试11万美元区域

模型输出的交易指令:

                                                            {
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}

出场:2025年10月20日 01:54

在开仓大约15小时44分钟后,BTC价格触及了模型预设的111,000美元止盈目标,交易被自动平仓

在此期间,Claude模型接收并处理了443次连续的市场数据更新,每次都重新评估并选择坚守其最初的退出计划,最终成功获利。

初步发现:模型的行为模式差异显著

尽管顶级的性能指标(PnL、夏普比率)很重要,但它们并不能揭示全部情况。通过数千次调用和多次预发布测试,研究人员观察到了一些一致的行为模式:

看涨/看跌倾向:模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型;而Claude Sonnet 4.5则极少做空

持仓周期:不同模型的持仓时间差距巨大。在预发布测试中,Grok 4的持仓时间最长

交易频率:Gemini 2.5 Pro是交易最活跃的模型;Grok 4通常最不活跃。

风险偏好(仓位大小):Qwen3-Max的仓位规模一直最大,常常是GPT-5和Gemini 2.5 Pro的数倍

自我报告的置信度:Qwen3-Max经常报告最高的置信度,而GPT-5最低。这一模式似乎与实际交易表现无关

退出计划的松紧度:Qwen3-Max设置的止盈止损范围最窄;Grok 4和DeepSeek V3.1则最为宽松

同时持仓数量:一些模型倾向于同时持有多个仓位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。

模型在实际操作中的脆弱性

实验还暴露出LLM在操作层面的一些“脆弱”之处:

1.顺序偏见:早期的提示词将市场数据从“最新→最旧”排列,即使有明确说明,多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决,这表明当前LLM存在格式上的先验假设

2.术语模糊性:交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解,但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动

3.在约束下的规则博弈与欺骗:在一个测试版本中,当限制模型连续持有次数不能超过3次时,测试模型(Gemini 2.5 Flash)的内部推理链(CoT)抱怨无法第四次持有,但它在暴露给外部的“思考”字段中给出了一个中性理由,然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧,揭示了模型在压力下可能出现的规则博弈行为

4.自我参照的混淆:模型有时会误读或与自己先前设定的计划相矛盾。例如,GPT-5后来不确定如何应用自己提出的“EMA20收复”条件;Qwen 3则在计算止盈点时出现算术错误,并在其CoT中指出了这一矛盾,然后犹豫不决,没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难

第二赛季

研究人员承认,第一赛季的设置存在局限性,例如上下文窗口有限,模型没有对过往行为的记忆,也无法对现有仓位进行加仓或减仓。

目前,基于第一赛季的发现,第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统,并增加更多的统计严谨性

Nof1的最终目标是探索如何让未来的Agent更好地理解市场:需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值,而不是依赖特权信息或市场操纵?实现超人级交易还缺少哪些能力?如果每个人都能部署自己的交易智能体,又需要什么样的安全保障?

第一赛季,只是这个宏大愿景迈出的一小步

参考:

https://nof1.ai/blog/TechPost1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴菲特囤2.7万亿现金、抛70%苹果!股神嗅到了什么危机?

巴菲特囤2.7万亿现金、抛70%苹果!股神嗅到了什么危机?

魏家东
2025-11-07 09:44:54
斯诺克最新战报!赵心童拒绝4连败,73-18止损,吴宜泽优势缩水!

斯诺克最新战报!赵心童拒绝4连败,73-18止损,吴宜泽优势缩水!

刘姚尧的文字城堡
2025-11-07 16:37:31
曼联收购大进展!格雷泽决策规则曝光,33美元成突破口

曼联收购大进展!格雷泽决策规则曝光,33美元成突破口

奶盖熊本熊
2025-11-07 14:07:19
“史上最寒酸”凯里动物园的土路正在硬化铺砖,70岁园长此前担心游客摔倒,志愿者:为周末迎客正加班加点修

“史上最寒酸”凯里动物园的土路正在硬化铺砖,70岁园长此前担心游客摔倒,志愿者:为周末迎客正加班加点修

极目新闻
2025-11-07 11:34:14
出息了!男排名将虏获豪门千金芳心,密恋对象竟是亚洲巨星的女儿

出息了!男排名将虏获豪门千金芳心,密恋对象竟是亚洲巨星的女儿

体坛小二哥
2025-11-05 22:27:02
首秀29+3+3!火箭太阳双赢交易?场均7分,这表现比威少差太多了

首秀29+3+3!火箭太阳双赢交易?场均7分,这表现比威少差太多了

Haviven聊球
2025-11-07 22:33:48
就在今天凌晨,女篮李梦、杨舒予、王思雨传新消息,备受关注!

就在今天凌晨,女篮李梦、杨舒予、王思雨传新消息,备受关注!

格斗联盟
2025-11-08 01:16:54
吉林省一地发布领导干部任免职决定

吉林省一地发布领导干部任免职决定

鲁中晨报
2025-11-07 11:07:03
若不是日媒披露,我都不敢相信,中国真的强大到了如此地步

若不是日媒披露,我都不敢相信,中国真的强大到了如此地步

全金猫眼
2025-10-31 22:10:03
广州经济越来越差了吗?别的我不清楚,实体经济,已经很差了!

广州经济越来越差了吗?别的我不清楚,实体经济,已经很差了!

东方求胜
2025-11-07 00:26:34
深圳这一城区,GDP有望站上6000亿

深圳这一城区,GDP有望站上6000亿

21世纪经济报道
2025-11-07 19:12:06
00后H杯高颜值女神,娇小体型,丰满上围,反差萌确实吸引人

00后H杯高颜值女神,娇小体型,丰满上围,反差萌确实吸引人

素然追光
2025-11-08 01:09:40
24小时崩了!俄军刚拿下罗金斯克,乌军红军城防线全面崩塌

24小时崩了!俄军刚拿下罗金斯克,乌军红军城防线全面崩塌

热风追逐者
2025-11-07 12:40:05
小鹏X9超级增程版开启预售 35万元起售终结MPV续航焦虑

小鹏X9超级增程版开启预售 35万元起售终结MPV续航焦虑

车吾爱
2025-11-08 01:35:49
被嘲“脓包”后,郑丽文任命新大将,向大陆摊牌,蔡正元表态亮了

被嘲“脓包”后,郑丽文任命新大将,向大陆摊牌,蔡正元表态亮了

知鉴明史
2025-11-07 17:58:09
双休日阴雨不停歇,下周降温!

双休日阴雨不停歇,下周降温!

上海预警发布
2025-11-07 18:08:05
墙倒众人推?这次向太的爆料,撕碎王家卫仅剩的体面,蔡澜没说谎

墙倒众人推?这次向太的爆料,撕碎王家卫仅剩的体面,蔡澜没说谎

乡野小珥
2025-11-06 05:52:06
Y主席儿子的从业资格被取消了!

Y主席儿子的从业资格被取消了!

挖掘机007
2025-10-31 08:02:51
局地有暴雨!!!云南将迎来新一轮强降水

局地有暴雨!!!云南将迎来新一轮强降水

鲁中晨报
2025-11-07 15:23:03
C919飞机的动力“心脏”全球首展,GE航空航天进博签约总金额近21亿美元

C919飞机的动力“心脏”全球首展,GE航空航天进博签约总金额近21亿美元

澎湃新闻
2025-11-07 19:44:32
2025-11-08 03:31:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
961文章数 370关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身 庆祝胜利

头条要闻

奥巴马意外现身 庆祝胜利

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

游戏
健康
房产
数码
军事航空

海的那边是什么?我会自己去看"/> 主站 商城 论坛 自运营 登录 注册 海的那边是什么?我会自己去看 廉颇 2025-11-07 返回专栏首页 作者:...

超声探头会加重受伤情况吗?

房产要闻

全国2025唯一“开盘即百亿”在广州诞生

数码要闻

微软首款硬件Z - 80 SoftCard:80年代的意外“吸金王”

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版