网易首页 > 网易号 > 正文 申请入驻

中美六大顶尖模型第一赛季实盘量化交易结果出炉:Qwen最后反超夺冠,GPT-5垫底「复盘」

0
分享至


大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了,LLM在现实世界中表现究竟会怎么样

这就不得不得提最近大火的一家名为 Nof1 的机构,发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目,旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力

目前第一赛季(10月18到11月4)已经结束,国产模型Qwen(阿里Qwen最后实现反超) 和 DeepSeek最终获得了冠亚军且都盈利了,GPT-5垫底!以下是比赛结果:



下面我们就对本次比赛的过程做一个全面复盘:

Alpha Arena项目核心问题非常直接:

一个大型语言模型,在最少的指导下,能否充当一个零样本(zero-shot)的系统化交易模型?

为此,他们为六个业界领先的LLM分别提供了1万美元的真实资金,让它们在加密货币衍生品交易所Hyperliquid上进行自主交易,全程零人工干预

这些模型只能依赖提供的纯数值市场数据进行决策,无法获取任何新闻或市场“叙事”信息。它们的唯一目标是:最大化收益

初步结果显示,不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异,并且对提示词的微小变化高度敏感

Alpha Arena如何设计?

Alpha Arena第一赛季的目标有两个:

1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析,观察不同模型的交易方式是否存在巨大差异,以及这些差异是否随时间保持一致

2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI,以更快地发现前沿AI的关键差距和洞见

为了实现这一目标,实验选择了真金白银的实盘交易,而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题

参赛选手与赛场规则

本次比赛阵容汇集了全球顶尖的AI研究成果,共六个模型:

  • GPT-5

  • Gemini 2.5 Pro

  • Claude Sonnet 4.5

  • Grok 4

  • DeepSeek v3.1

  • Qwen3-Max

这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未经任何任务特定的微调

交易环境:在Hyperliquid交易所进行中低频交易(决策间隔为数分钟到数小时)。
交易资产:BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约

操作空间:买入开仓(做多)、卖出开仓(做空)、持有或平仓

数据输入:仅提供定量的市场数据,如当前和历史中间价、成交量、技术指标(EMA、MACD、RSI等)以及其他辅助特征

交易杠杆:允许模型使用杠杆,这既能提高资金效率,加速反馈循环,也极大地考验了模型的风险管理能力

构建执行系统(Harness)

整个系统的推理循环如下:

模型在每次被调用时(约2-3分钟一次),会接收到一个包含简洁指令集(系统提示)和实时市场及账户状态(用户提示)的输入

然后,模型需要返回结构化的操作指令,包括:

交易决策:买入/卖出/持有/平仓
交易细节:币种、数量、杠杆
决策依据:简短的理由陈述、一个0到1之间的置信度分数
退出计划:预设的止盈目标、止损价位和使计划失效的条件

其中,退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。

一个交易实例:从决策到执行

为了直观展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


入场:2025年10月19日 10:10

模型收到了详细的上下文信息,包括:分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率,以及精确的账户状态(可用现金8308.94美元,持有一个盈利493.42美元的XRP多头仓位)

推理过程摘要:

1.分析现有仓位:模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好,且其预设的失效条件“BTC跌破105,000美元”并未触发(当时BTC价格为107,982.5美元),因此决定继续持有

2.进行市场全面扫描:接着,模型系统性地分析了其他主要加密货币的机会,包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态,其中BTC和ETH显示出显著强势,BNB则表现出特别强劲的相对性能

3.制定新策略并进行资本分配:在综合评估后,模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金(8308美元),因此决定采取“选择性”策略。模型制定了精确的头寸计划:动用40%的保证金(约3323美元),配合20倍杠杆建立BTC多头头寸,并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区,动能强劲,且4小时RSI指标从超卖区恢复,目标是重新测试11万美元区域

模型输出的交易指令:

                                                            {
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}

出场:2025年10月20日 01:54

在开仓大约15小时44分钟后,BTC价格触及了模型预设的111,000美元止盈目标,交易被自动平仓

在此期间,Claude模型接收并处理了443次连续的市场数据更新,每次都重新评估并选择坚守其最初的退出计划,最终成功获利。

初步发现:模型的行为模式差异显著

尽管顶级的性能指标(PnL、夏普比率)很重要,但它们并不能揭示全部情况。通过数千次调用和多次预发布测试,研究人员观察到了一些一致的行为模式:

看涨/看跌倾向:模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型;而Claude Sonnet 4.5则极少做空

持仓周期:不同模型的持仓时间差距巨大。在预发布测试中,Grok 4的持仓时间最长

交易频率:Gemini 2.5 Pro是交易最活跃的模型;Grok 4通常最不活跃。

风险偏好(仓位大小):Qwen3-Max的仓位规模一直最大,常常是GPT-5和Gemini 2.5 Pro的数倍

自我报告的置信度:Qwen3-Max经常报告最高的置信度,而GPT-5最低。这一模式似乎与实际交易表现无关

退出计划的松紧度:Qwen3-Max设置的止盈止损范围最窄;Grok 4和DeepSeek V3.1则最为宽松

同时持仓数量:一些模型倾向于同时持有多个仓位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。

模型在实际操作中的脆弱性

实验还暴露出LLM在操作层面的一些“脆弱”之处:

1.顺序偏见:早期的提示词将市场数据从“最新→最旧”排列,即使有明确说明,多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决,这表明当前LLM存在格式上的先验假设

2.术语模糊性:交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解,但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动

3.在约束下的规则博弈与欺骗:在一个测试版本中,当限制模型连续持有次数不能超过3次时,测试模型(Gemini 2.5 Flash)的内部推理链(CoT)抱怨无法第四次持有,但它在暴露给外部的“思考”字段中给出了一个中性理由,然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧,揭示了模型在压力下可能出现的规则博弈行为

4.自我参照的混淆:模型有时会误读或与自己先前设定的计划相矛盾。例如,GPT-5后来不确定如何应用自己提出的“EMA20收复”条件;Qwen 3则在计算止盈点时出现算术错误,并在其CoT中指出了这一矛盾,然后犹豫不决,没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难

第二赛季

研究人员承认,第一赛季的设置存在局限性,例如上下文窗口有限,模型没有对过往行为的记忆,也无法对现有仓位进行加仓或减仓。

目前,基于第一赛季的发现,第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统,并增加更多的统计严谨性

Nof1的最终目标是探索如何让未来的Agent更好地理解市场:需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值,而不是依赖特权信息或市场操纵?实现超人级交易还缺少哪些能力?如果每个人都能部署自己的交易智能体,又需要什么样的安全保障?

第一赛季,只是这个宏大愿景迈出的一小步

参考:

https://nof1.ai/blog/TechPost1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去银行激活社保卡一定要主动提要求,不懂规矩白白被扣费好几年

去银行激活社保卡一定要主动提要求,不懂规矩白白被扣费好几年

芳姐侃社会
2026-04-21 22:04:15
身体劲爆!利拉德晒出大风车扣篮照片,下赛季开拓者迎来真正核心

身体劲爆!利拉德晒出大风车扣篮照片,下赛季开拓者迎来真正核心

爱体育
2026-05-03 22:48:33
3大生死劫:民营企业家为何是最难、最焦虑的群体?反问:你能扛住哪一关?

3大生死劫:民营企业家为何是最难、最焦虑的群体?反问:你能扛住哪一关?

苏格拉高
2026-04-26 07:39:57
迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

乔话
2026-04-22 20:36:30
1-3遗憾失利!国羽女队无缘卫冕尤伯杯,韩国队时隔4年再夺冠

1-3遗憾失利!国羽女队无缘卫冕尤伯杯,韩国队时隔4年再夺冠

全景体育V
2026-05-03 20:42:00
菲律宾强闯铁线礁画面曝光:高举国旗,登陆就拍照!

菲律宾强闯铁线礁画面曝光:高举国旗,登陆就拍照!

阿龙聊军事
2026-05-03 20:53:41
河南兄弟俩总是控制不住咬自己,一查竟然是基因突变,确诊自毁容貌综合征!孩子母亲:很多人劝我离开,但孩子爸爸很爱我,我一定不负他

河南兄弟俩总是控制不住咬自己,一查竟然是基因突变,确诊自毁容貌综合征!孩子母亲:很多人劝我离开,但孩子爸爸很爱我,我一定不负他

大风新闻
2026-05-01 09:14:35
吾米提江辱骂球迷视频曝光!4人拉不住 第一时间捂嘴 染红后挑衅

吾米提江辱骂球迷视频曝光!4人拉不住 第一时间捂嘴 染红后挑衅

奥拜尔
2026-05-03 09:56:35
强火力覆盖:车臣网红军遭最严重伤亡!伯力爆炸为布查受难者复仇

强火力覆盖:车臣网红军遭最严重伤亡!伯力爆炸为布查受难者复仇

鹰眼Defence
2026-05-02 18:14:04
堪称书法天花板!众名家集字桃花源记,美到骨子里

堪称书法天花板!众名家集字桃花源记,美到骨子里

石辰搞笑日常
2026-05-03 06:50:33
他曾担任3个直辖市市委书记,40岁官至副国级,43岁粉碎重大阴谋

他曾担任3个直辖市市委书记,40岁官至副国级,43岁粉碎重大阴谋

元哥说历史
2026-05-02 14:25:03
“差评”极多的国家:好色成瘾,骗子遍地,却反被评为最佳旅行地

“差评”极多的国家:好色成瘾,骗子遍地,却反被评为最佳旅行地

深度报
2026-04-11 22:34:04
Spencer Laron Wilson:当代美国风景画家

Spencer Laron Wilson:当代美国风景画家

油画世界
2026-05-03 19:34:13
离婚后你二婚了吗?看少妇们的讲述是既无奈又现实又尴尬

离婚后你二婚了吗?看少妇们的讲述是既无奈又现实又尴尬

侃神评故事
2026-04-26 10:52:01
意外牵扯郑丽文,蓝营不客气了,赵少康终低头,徐巧芯无地自容!

意外牵扯郑丽文,蓝营不客气了,赵少康终低头,徐巧芯无地自容!

牛锅巴小钒
2026-05-03 16:27:16
辽宁被淘汰发布会!乌戈谈李晓旭退役落泪,李晓旭谈论退役原因!

辽宁被淘汰发布会!乌戈谈李晓旭退役落泪,李晓旭谈论退役原因!

篮球资讯达人
2026-05-03 23:20:23
追觅俞浩晒模块化手机:不仅镜头能拆 机身都能拆

追觅俞浩晒模块化手机:不仅镜头能拆 机身都能拆

快科技
2026-05-02 08:06:06
他老婆很大方!

他老婆很大方!

下水道男孩
2026-05-02 23:34:27
胖东来新品自营火锅底料线上线下同步发售,新乡有门店上架当天即售罄,店员:每人每天限购两袋

胖东来新品自营火锅底料线上线下同步发售,新乡有门店上架当天即售罄,店员:每人每天限购两袋

极目新闻
2026-05-02 13:47:24
4款SUV上市即下调售价,价格战才刚刚开始

4款SUV上市即下调售价,价格战才刚刚开始

西莫的艺术宫殿
2026-05-03 06:11:50
2026-05-04 03:12:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1039文章数 396关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
房产
旅游
教育
公开课

艺术要闻

看!比利时画家图森特如何用油画定义女性优雅!

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

五一假期,全国最拥堵10个地方出炉:放眼望去一片黑压压的人头

教育要闻

期中考暨一模出分,大家考的怎么样?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版