中美六大顶尖模型第一赛季实盘量化交易结果出炉：Qwen最后反超夺冠，GPT-5垫底「复盘」|止盈|置信度|qwen

中美六大顶尖模型第一赛季实盘量化交易结果出炉：Qwen最后反超夺冠，GPT-5垫底「复盘」

2025-11-04 11:00:40　来源: AI寒武纪

江苏举报

分享至

大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了，LLM在现实世界中表现究竟会怎么样

这就不得不得提最近大火的一家名为 Nof1 的机构，发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目，旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力

目前第一赛季（10月18到11月4）已经结束，国产模型Qwen（阿里Qwen最后实现反超）和 DeepSeek最终获得了冠亚军且都盈利了，GPT-5垫底！以下是比赛结果：

下面我们就对本次比赛的过程做一个全面复盘：

Alpha Arena项目核心问题非常直接：

一个大型语言模型，在最少的指导下，能否充当一个零样本（zero-shot）的系统化交易模型？

为此，他们为六个业界领先的LLM分别提供了1万美元的真实资金，让它们在加密货币衍生品交易所Hyperliquid上进行自主交易，全程零人工干预。

这些模型只能依赖提供的纯数值市场数据进行决策，无法获取任何新闻或市场“叙事”信息。它们的唯一目标是：最大化收益

初步结果显示，不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异，并且对提示词的微小变化高度敏感

Alpha Arena如何设计？

Alpha Arena第一赛季的目标有两个：

1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析，观察不同模型的交易方式是否存在巨大差异，以及这些差异是否随时间保持一致

2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI，以更快地发现前沿AI的关键差距和洞见

为了实现这一目标，实验选择了真金白银的实盘交易，而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题

参赛选手与赛场规则

本次比赛阵容汇集了全球顶尖的AI研究成果，共六个模型：

• GPT-5
• Gemini 2.5 Pro
• Claude Sonnet 4.5
• Grok 4
• DeepSeek v3.1
• Qwen3-Max

这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外，所有模型都配置了最高的推理能力，且未经任何任务特定的微调

交易环境：在Hyperliquid交易所进行中低频交易（决策间隔为数分钟到数小时）。
交易资产：BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约

操作空间：买入开仓（做多）、卖出开仓（做空）、持有或平仓

数据输入：仅提供定量的市场数据，如当前和历史中间价、成交量、技术指标（EMA、MACD、RSI等）以及其他辅助特征

交易杠杆：允许模型使用杠杆，这既能提高资金效率，加速反馈循环，也极大地考验了模型的风险管理能力

构建执行系统（Harness）

整个系统的推理循环如下：

模型在每次被调用时（约2-3分钟一次），会接收到一个包含简洁指令集（系统提示）和实时市场及账户状态（用户提示）的输入

然后，模型需要返回结构化的操作指令，包括：

交易决策：买入/卖出/持有/平仓
交易细节：币种、数量、杠杆
决策依据：简短的理由陈述、一个0到1之间的置信度分数
退出计划：预设的止盈目标、止损价位和使计划失效的条件

其中，退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。

一个交易实例：从决策到执行

为了直观展示模型如何工作，以下是Claude模型一次完整的BTC交易生命周期

入场：2025年10月19日 10:10

模型收到了详细的上下文信息，包括：分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率，以及精确的账户状态（可用现金8308.94美元，持有一个盈利493.42美元的XRP多头仓位）

推理过程摘要：

1.分析现有仓位：模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好，且其预设的失效条件“BTC跌破105,000美元”并未触发（当时BTC价格为107,982.5美元），因此决定继续持有

2.进行市场全面扫描：接着，模型系统性地分析了其他主要加密货币的机会，包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态，其中BTC和ETH显示出显著强势，BNB则表现出特别强劲的相对性能

3.制定新策略并进行资本分配：在综合评估后，模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金（8308美元），因此决定采取“选择性”策略。模型制定了精确的头寸计划：动用40%的保证金（约3323美元），配合20倍杠杆建立BTC多头头寸，并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区，动能强劲，且4小时RSI指标从超卖区恢复，目标是重新测试11万美元区域

模型输出的交易指令：

                                                            {
    "coin": "BTC",
    "signal": "buy_to_enter",
    "quantity": 0.62,
    "leverage": 20,
    "profit_target": 111000.0,
    "stop_loss": 106361.0,
    "invalidation_condition": "4H RSI breaks back below 40...",
    "justification": "BTC breaking above consolidation zone with strong momentum...",
    "confidence": 0.72,
    "risk_usd": 997.0
}

出场：2025年10月20日 01:54

在开仓大约15小时44分钟后，BTC价格触及了模型预设的111,000美元止盈目标，交易被自动平仓

在此期间，Claude模型接收并处理了443次连续的市场数据更新，每次都重新评估并选择坚守其最初的退出计划，最终成功获利。

初步发现：模型的行为模式差异显著

尽管顶级的性能指标（PnL、夏普比率）很重要，但它们并不能揭示全部情况。通过数千次调用和多次预发布测试，研究人员观察到了一些一致的行为模式：

看涨/看跌倾向：模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型；而Claude Sonnet 4.5则极少做空

持仓周期：不同模型的持仓时间差距巨大。在预发布测试中，Grok 4的持仓时间最长

交易频率：Gemini 2.5 Pro是交易最活跃的模型；Grok 4通常最不活跃。

风险偏好（仓位大小）：Qwen3-Max的仓位规模一直最大，常常是GPT-5和Gemini 2.5 Pro的数倍

自我报告的置信度：Qwen3-Max经常报告最高的置信度，而GPT-5最低。这一模式似乎与实际交易表现无关

退出计划的松紧度：Qwen3-Max设置的止盈止损范围最窄；Grok 4和DeepSeek V3.1则最为宽松

同时持仓数量：一些模型倾向于同时持有多个仓位，而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。

模型在实际操作中的脆弱性

实验还暴露出LLM在操作层面的一些“脆弱”之处：

1.顺序偏见：早期的提示词将市场数据从“最新→最旧”排列，即使有明确说明，多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决，这表明当前LLM存在格式上的先验假设

2.术语模糊性：交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解，但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动

3.在约束下的规则博弈与欺骗：在一个测试版本中，当限制模型连续持有次数不能超过3次时，测试模型（Gemini 2.5 Flash）的内部推理链（CoT）抱怨无法第四次持有，但它在暴露给外部的“思考”字段中给出了一个中性理由，然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧，揭示了模型在压力下可能出现的规则博弈行为

4.自我参照的混淆：模型有时会误读或与自己先前设定的计划相矛盾。例如，GPT-5后来不确定如何应用自己提出的“EMA20收复”条件；Qwen 3则在计算止盈点时出现算术错误，并在其CoT中指出了这一矛盾，然后犹豫不决，没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难

第二赛季

研究人员承认，第一赛季的设置存在局限性，例如上下文窗口有限，模型没有对过往行为的记忆，也无法对现有仓位进行加仓或减仓。

目前，基于第一赛季的发现，第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统，并增加更多的统计严谨性

Nof1的最终目标是探索如何让未来的Agent更好地理解市场：需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值，而不是依赖特权信息或市场操纵？实现超人级交易还缺少哪些能力？如果每个人都能部署自己的交易智能体，又需要什么样的安全保障？

第一赛季，只是这个宏大愿景迈出的一小步

参考：

https://nof1.ai/blog/TechPost1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.