网易首页 > 网易号 > 正文 申请入驻

中美六大顶尖模型第一赛季实盘量化交易结果出炉:Qwen最后反超夺冠,GPT-5垫底「复盘」

0
分享至


大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了,LLM在现实世界中表现究竟会怎么样

这就不得不得提最近大火的一家名为 Nof1 的机构,发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目,旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力

目前第一赛季(10月18到11月4)已经结束,国产模型Qwen(阿里Qwen最后实现反超) 和 DeepSeek最终获得了冠亚军且都盈利了,GPT-5垫底!以下是比赛结果:



下面我们就对本次比赛的过程做一个全面复盘:

Alpha Arena项目核心问题非常直接:

一个大型语言模型,在最少的指导下,能否充当一个零样本(zero-shot)的系统化交易模型?

为此,他们为六个业界领先的LLM分别提供了1万美元的真实资金,让它们在加密货币衍生品交易所Hyperliquid上进行自主交易,全程零人工干预

这些模型只能依赖提供的纯数值市场数据进行决策,无法获取任何新闻或市场“叙事”信息。它们的唯一目标是:最大化收益

初步结果显示,不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异,并且对提示词的微小变化高度敏感

Alpha Arena如何设计?

Alpha Arena第一赛季的目标有两个:

1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析,观察不同模型的交易方式是否存在巨大差异,以及这些差异是否随时间保持一致

2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI,以更快地发现前沿AI的关键差距和洞见

为了实现这一目标,实验选择了真金白银的实盘交易,而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题

参赛选手与赛场规则

本次比赛阵容汇集了全球顶尖的AI研究成果,共六个模型:

  • GPT-5

  • Gemini 2.5 Pro

  • Claude Sonnet 4.5

  • Grok 4

  • DeepSeek v3.1

  • Qwen3-Max

这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未经任何任务特定的微调

交易环境:在Hyperliquid交易所进行中低频交易(决策间隔为数分钟到数小时)。
交易资产:BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约

操作空间:买入开仓(做多)、卖出开仓(做空)、持有或平仓

数据输入:仅提供定量的市场数据,如当前和历史中间价、成交量、技术指标(EMA、MACD、RSI等)以及其他辅助特征

交易杠杆:允许模型使用杠杆,这既能提高资金效率,加速反馈循环,也极大地考验了模型的风险管理能力

构建执行系统(Harness)

整个系统的推理循环如下:

模型在每次被调用时(约2-3分钟一次),会接收到一个包含简洁指令集(系统提示)和实时市场及账户状态(用户提示)的输入

然后,模型需要返回结构化的操作指令,包括:

交易决策:买入/卖出/持有/平仓
交易细节:币种、数量、杠杆
决策依据:简短的理由陈述、一个0到1之间的置信度分数
退出计划:预设的止盈目标、止损价位和使计划失效的条件

其中,退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。

一个交易实例:从决策到执行

为了直观展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


入场:2025年10月19日 10:10

模型收到了详细的上下文信息,包括:分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率,以及精确的账户状态(可用现金8308.94美元,持有一个盈利493.42美元的XRP多头仓位)

推理过程摘要:

1.分析现有仓位:模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好,且其预设的失效条件“BTC跌破105,000美元”并未触发(当时BTC价格为107,982.5美元),因此决定继续持有

2.进行市场全面扫描:接着,模型系统性地分析了其他主要加密货币的机会,包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态,其中BTC和ETH显示出显著强势,BNB则表现出特别强劲的相对性能

3.制定新策略并进行资本分配:在综合评估后,模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金(8308美元),因此决定采取“选择性”策略。模型制定了精确的头寸计划:动用40%的保证金(约3323美元),配合20倍杠杆建立BTC多头头寸,并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区,动能强劲,且4小时RSI指标从超卖区恢复,目标是重新测试11万美元区域

模型输出的交易指令:

                                                            {
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}

出场:2025年10月20日 01:54

在开仓大约15小时44分钟后,BTC价格触及了模型预设的111,000美元止盈目标,交易被自动平仓

在此期间,Claude模型接收并处理了443次连续的市场数据更新,每次都重新评估并选择坚守其最初的退出计划,最终成功获利。

初步发现:模型的行为模式差异显著

尽管顶级的性能指标(PnL、夏普比率)很重要,但它们并不能揭示全部情况。通过数千次调用和多次预发布测试,研究人员观察到了一些一致的行为模式:

看涨/看跌倾向:模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型;而Claude Sonnet 4.5则极少做空

持仓周期:不同模型的持仓时间差距巨大。在预发布测试中,Grok 4的持仓时间最长

交易频率:Gemini 2.5 Pro是交易最活跃的模型;Grok 4通常最不活跃。

风险偏好(仓位大小):Qwen3-Max的仓位规模一直最大,常常是GPT-5和Gemini 2.5 Pro的数倍

自我报告的置信度:Qwen3-Max经常报告最高的置信度,而GPT-5最低。这一模式似乎与实际交易表现无关

退出计划的松紧度:Qwen3-Max设置的止盈止损范围最窄;Grok 4和DeepSeek V3.1则最为宽松

同时持仓数量:一些模型倾向于同时持有多个仓位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。

模型在实际操作中的脆弱性

实验还暴露出LLM在操作层面的一些“脆弱”之处:

1.顺序偏见:早期的提示词将市场数据从“最新→最旧”排列,即使有明确说明,多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决,这表明当前LLM存在格式上的先验假设

2.术语模糊性:交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解,但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动

3.在约束下的规则博弈与欺骗:在一个测试版本中,当限制模型连续持有次数不能超过3次时,测试模型(Gemini 2.5 Flash)的内部推理链(CoT)抱怨无法第四次持有,但它在暴露给外部的“思考”字段中给出了一个中性理由,然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧,揭示了模型在压力下可能出现的规则博弈行为

4.自我参照的混淆:模型有时会误读或与自己先前设定的计划相矛盾。例如,GPT-5后来不确定如何应用自己提出的“EMA20收复”条件;Qwen 3则在计算止盈点时出现算术错误,并在其CoT中指出了这一矛盾,然后犹豫不决,没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难

第二赛季

研究人员承认,第一赛季的设置存在局限性,例如上下文窗口有限,模型没有对过往行为的记忆,也无法对现有仓位进行加仓或减仓。

目前,基于第一赛季的发现,第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统,并增加更多的统计严谨性

Nof1的最终目标是探索如何让未来的Agent更好地理解市场:需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值,而不是依赖特权信息或市场操纵?实现超人级交易还缺少哪些能力?如果每个人都能部署自己的交易智能体,又需要什么样的安全保障?

第一赛季,只是这个宏大愿景迈出的一小步

参考:

https://nof1.ai/blog/TechPost1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
美国发起的所谓“和平委员会”首次会议在瑞士达沃斯举行

美国发起的所谓“和平委员会”首次会议在瑞士达沃斯举行

财联社
2026-01-22 18:27:07
伊朗警告美以不要误判形势

伊朗警告美以不要误判形势

新华社
2026-01-22 23:58:04
男人注意:女人若有过很多男人,多半有这5个表现,别傻傻看不清

男人注意:女人若有过很多男人,多半有这5个表现,别傻傻看不清

伊人河畔
2025-12-04 11:27:19
31省份去年人均可支配收入公布

31省份去年人均可支配收入公布

第一财经资讯
2026-01-22 12:36:10
吉林首富李永新:狂揽1400亿坐拥1859家分校年入112亿居富豪19位

吉林首富李永新:狂揽1400亿坐拥1859家分校年入112亿居富豪19位

历史伟人录
2026-01-22 16:09:56
落花流水,查尔斯·巴克利称联盟害怕在全明星赛上被世界队痛击

落花流水,查尔斯·巴克利称联盟害怕在全明星赛上被世界队痛击

好火子
2026-01-23 04:08:18
现货黄金盘中涨破4900美元关口,最高触及4928美元

现货黄金盘中涨破4900美元关口,最高触及4928美元

每日经济新闻
2026-01-23 05:26:09
排超四强:上海女排一枝独秀,江苏靠吴梦洁,山东北京都不稳定

排超四强:上海女排一枝独秀,江苏靠吴梦洁,山东北京都不稳定

金毛爱女排
2026-01-23 00:00:03
24小时收复油田,483人投降,普京不得不服

24小时收复油田,483人投降,普京不得不服

南风不及你温柔
2026-01-23 00:12:15
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
中方必须无条件割让领土?美曾发话后马来西亚叫嚣中国放弃南海

中方必须无条件割让领土?美曾发话后马来西亚叫嚣中国放弃南海

游古史
2026-01-23 01:20:02
官方发文,34岁韦东奕再迎喜讯,他让王虹和整个学术界刮目相看

官方发文,34岁韦东奕再迎喜讯,他让王虹和整个学术界刮目相看

强大气场的注视
2026-01-22 06:46:37
《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

萌神木木
2026-01-22 12:58:36
3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

功夫AUTO
2026-01-20 14:59:36
事态已超出美国掌控:德联邦法院出调查结果,北溪爆炸案真相来了

事态已超出美国掌控:德联邦法院出调查结果,北溪爆炸案真相来了

米师傅安装
2026-01-22 02:51:12
每周工作100小时!谷歌DeepMind CEO揭秘:中国对手是字节跳动,断言谷歌是AI领域唯一全栈巨头

每周工作100小时!谷歌DeepMind CEO揭秘:中国对手是字节跳动,断言谷歌是AI领域唯一全栈巨头

AI前线
2026-01-22 14:39:28
国羽2胜1负!男双提前丢冠,陈雨菲PK世界冠军,混双剑指2席8强!

国羽2胜1负!男双提前丢冠,陈雨菲PK世界冠军,混双剑指2席8强!

刘姚尧的文字城堡
2026-01-22 17:04:47
确认了!是知名演员张嘉益

确认了!是知名演员张嘉益

看尽落尘花q
2026-01-04 11:55:44
欧冠历史最长连胜TOP10:拜仁15连胜第1,阿森纳并列第10

欧冠历史最长连胜TOP10:拜仁15连胜第1,阿森纳并列第10

懂球帝
2026-01-23 05:14:32
2026-01-23 07:03:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1028文章数 394关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

头条要闻

特朗普起诉美国最大银行 索赔至少50亿美元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

时尚
游戏
本地
家居
房产

这些才是最日常的冬季穿搭!不露腿、不扮嫩,简约舒适又保暖

猎魂世界:至臻尊享惊喜累充活动分析!说实话这可一点都不惊喜?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

家居要闻

法式风情 南洋中古居

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

无障碍浏览 进入关怀版