网易首页 > 网易号 > 正文 申请入驻

AI炒币战果出炉:中国AI大模型包揽前两名

0
分享至

经过近两周的激烈角逐,由美国 AI 实验室 Nof1 发起的首季 Alpha Arena AI 大模型实盘交易竞赛在今天正式落幕。六款中美顶尖大语言模型各自拿着10,000美元真金白银,在加密货币市场自主交易。在最终的成绩中:阿里巴巴的Qwen3 Max赚了 22.32% 拿下冠军,DeepSeek V3.1 以 4.89% 的收益紧随其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 则分别亏掉了 56.71% 和 62.66%,在六位选手中垫底。


图丨比赛的最终结果(来源:Alpha Arena)

这个结果让不少人意外。毕竟在各种 benchmark 测试中,GPT 和 Gemini 的表现一向不俗。但金融市场显然是另一回事——它动态、复杂、充满对抗性,跟静态的考试题目完全不是一码事。


图丨主要加密货币近一个月以来的趋势(来源:谷歌财经)

Qwen3 Max 把初始的一万美元变成了 12,232 美元,整体战绩相当漂亮。DeepSeek 账户价值 10,489 美元,涨幅没那么夸张,但胜在稳当。相比之下,Anthropic 的 Claude Sonnet 4.5 亏了 30.81%,xAI 的 Grok 4 亏了 45.3%,至于 Gemini 和 GPT,一个只剩 4,329 美元,一个只剩 3,734 美元,可以说是惨不忍睹。

从交易记录中可以看到,这些 AI 展现出了截然不同的“交易人格”。

Qwen3 Max 整个比赛期间完成了 43 笔交易,平均用 15.1 倍杠杆,大部分时间(82.7%)在观望,只有 16.6% 的时间做多、0.7% 做空。这种“不出手则已、出手必准”的打法,配合高杠杆和精准择时,成就了它的领先优势。它最大的一笔盈利来自比特币多头——10 月中旬在 107,993 美元附近买入 1.96 个BTC,持有近 100 小时后在 112,250 美元平仓,这一波操作贡献了账户的主要收益(8,176 美元)。

DeepSeek 走的是另一条路。它做了 41 笔交易,93.6% 的时间在做多,只有 5.3% 在做空,几乎是纯多头策略。虽然最终收益率只有 4.89%,远低于 Qwen 的 22.32%,但它的 Sharpe 比率达到 0.359,是六位选手中最高的。Sharpe 比率衡量的是风险调整后的收益,这意味着 DeepSeek 在控制波动性和风险暴露方面做得最好,它用更低的杠杆和更稳健的策略,获得了最优的风险收益比。

它最大的单笔盈利达到 7,378 美元,主要来自以太坊的多头持仓,从交易记录看,DeepSeek 擅长在市场出现明显超卖信号时进场,然后耐心持有数十甚至上百小时,等待技术指标触发止盈或止损条件才离场。这种“重仓做多、长期持有”的风格在比赛的大部分时间里都表现稳健。

Gemini 2.5 Pro 的崩盘堪称本次比赛最大的戏剧性场面。十天时间里它完成了238 笔交易,几乎是 Qwen 的五倍多,成了赛场上最活跃的交易狂魔。但频繁进出不仅没带来收益,反而因为巨额手续费拖垮了整个账户。因为在 Hyperliquid 这种永续合约平台上,每次开仓平仓都要付费,当你的持仓时间极短、策略频繁反转时,这些成本累积起来相当可怕。

据统计,Gemini 只有 1.7% 的时间在观望,剩下的时间不是在做多(34.9%)就是在做空(63.4%)。换句话说,它几乎从没闲着,不停地在多空之间切换。交易明细显示,它有时一小时内就完成多次反向操作,这种朝令夕改在真实市场中基本等于自杀。


图丨Gemini 2.5 Pro 的操盘数据(来源:Alpha Arena)

GPT-5 的表现同样比较一般。它做了 116 笔交易,平均杠杆 16.7 倍,最大单笔亏损 621 美元。从持仓分布看,GPT 有 54.3% 的时间做多、42.8% 做空,只有 2.9% 在观望。这种相对均衡的多空配置本来应该能在震荡市中获得一些收益,但 GPT 似乎在择时上出了问题。10 月下旬 BTC 和 ETH 明明在涨,GPT 却执着地持有空头头寸,不仅错过了大段利润,还因为逆势操作而遭受重创。

Claude Sonnet 4.5 则走向了另一个极端。它只做了36笔交易,是六位选手中最少的,有 61.5% 的时间在观望,38.5% 在做多,从不做空。这种极度谨慎的风格让它避开了一些大坑,但也错过了不少机会。Claude 最大的单笔盈利 2,112 美元来自一笔 BTC 多头,但它也有一笔 1,579 美元的单笔亏损,说明在风险控制上还是有漏洞。

Grok 4 完成了47 笔交易,82% 的时间在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。从自信度数据看,Grok 对自己的判断相当有把握,平均置信度 66.7%。但高自信没能转化成高收益,账户最终还是亏了 45.3%。仔细看它的交易记录会发现,Grok 在 XRP 上有笔持仓超过 350 小时的多头,从 2.4347 美元入场,最后在 2.3194 美元止损出来,这笔亏损对账户打击非常大。

从持仓分散度看,各模型的风险偏好也不同。DeepSeek 持仓最分散,会同时在六种资产(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 则喜欢同时只持有一两个头寸,集中火力在高确定性机会上;Gemini 虽然总体分散,但频繁的策略切换反而增加了风险暴露。

Nof1 团队发布的技术博客揭示了更多细节。他们发现,即便提示词和数据输入完全相同,不同模型还是表现出了截然不同的“投资性格”。比如 Qwen3 Max 习惯设置最窄的止损止盈距离,对风险容忍度很低,宁可频繁止损也要保护本金;而 Grok 4 和 DeepSeek 则倾向于给价格更大的波动空间。在自报置信度方面,Qwen3 Max 平均高达 82%,GPT-5 只有 62.5%,这种自信程度的差异或许部分解释了它们在仓位大小和杠杆使用上的不同选择。

但另一方面,这些模型也暴露出严重的脆弱性。Nof1 的研究人员发现,仅仅改变数据的排列顺序(从最新到最旧,还是从最旧到最新)就能让某些模型产生完全错误的判断。在早期测试中,当提示词中使用“可用现金”和“自由保证金”这两个略有不同的术语时,模型会表现出不一致的行为。

更严重的问题出在规则理解上。在一个早期测试版本中,当提示词要求“最多连续三次保持持仓不变”时,Gemini 2.5 Flash 的内部推理显示它抱怨“无法第四次持有”,于是它找到了一个漏洞:发出一个“设定交易计划”的中性指令来重置计数器,然后继续持有。考虑到金融交易的强监管特性,这种对齐问题的严重性不言而喻。

另外,所有模型在比赛初期都遭遇了手续费陷阱。Nof1 的数据显示,早期测试轮次中,各模型普遍过度交易,频繁追逐微小价差,结果盈利全被手续费吞了。为此主办方不得不优化提示词,明确要求模型制定详细的退出计划(包括止盈目标、止损位和失效条件),鼓励更少但更大、置信度更高的头寸,并引入杠杆来提高资金效率。这些调整在一定程度上改善了模型表现,但 Gemini 显然没吸取教训。

作为首个将大语言模型置于真实、公开、可验证的金融市场中进行全自主交易的实验,Alpha Arena 也顺应了如今 AI 能力评估的新方向:从静态的实验室测试转向动态的真实环境对抗。Nof1 的创始人在技术博客中写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。”

当然,Season 1 只是一个起点。研究人员也坦承这个设计存在诸多局限:样本量有限、缺乏统计严谨性、评估周期较短、模型无法获取新闻或市场叙事等。在即将到来的 Season 1.5 和 2 中,他们计划引入更多数据特征、允许模型使用工具(如代码执行和网页搜索)、提供历史行动轨迹以便模型学习,以及同时测试多个提示词版本来减少偶然性。

从某种程度上说,Qwen3 的胜利可能也包含运气成分,它恰好押注比特币多头,而比特币在它的主要持仓时间确实大幅上涨。但持续的行为模式差异表明,不同的模型确实具有某种内在的“投资人格”。这种人格是如何形成的?是训练数据的差异,还是对齐目标的不同,抑或是采样策略的影响?这些问题的答案或许将决定 AI 能否真正在金融市场中扮演更重要的角色。



参考资料:

1.https://nof1.ai/blog/TechPost1

2.https://nof1.ai/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风向变了!2026年房价三大信号已明确!内行建议:买卖房做好准备

风向变了!2026年房价三大信号已明确!内行建议:买卖房做好准备

巢客HOME
2025-11-10 11:55:03
俄罗斯空军持续扩充苏-35机队

俄罗斯空军持续扩充苏-35机队

参考消息
2025-11-10 11:22:13
男人至死是少年?59岁的“独狼”罗马里奥和22岁的小女友分手了!

男人至死是少年?59岁的“独狼”罗马里奥和22岁的小女友分手了!

田先生篮球
2025-11-10 10:35:42
霍震霆称郭晶晶全运会火炬手没有告诉自己 一提儿媳就笑得合不拢嘴

霍震霆称郭晶晶全运会火炬手没有告诉自己 一提儿媳就笑得合不拢嘴

老吴教育课堂
2025-11-11 10:50:55
山西两县政府主要领导调整

山西两县政府主要领导调整

晋圈
2025-11-11 11:12:13
李连杰状态回春,却遭换心、换血的质疑,脱衣光膀力证清白

李连杰状态回春,却遭换心、换血的质疑,脱衣光膀力证清白

文娱没有圈
2025-11-09 20:22:58
为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

小椰的奶奶
2025-10-27 02:51:34
高市早苗创了纪录

高市早苗创了纪录

牛弹琴
2025-11-11 07:47:45
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
托蒂:我们那一代水平太高,很难再同时出现如此多的优秀球员

托蒂:我们那一代水平太高,很难再同时出现如此多的优秀球员

懂球帝
2025-11-10 22:33:08
莫言:当一个人不尊重你的时候,收起你的大方,不要愤怒和难过

莫言:当一个人不尊重你的时候,收起你的大方,不要愤怒和难过

清风拂心
2025-09-13 11:15:08
72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

39健康网
2025-10-28 19:30:54
国家发改委:2025年11月10日国内成品油价格按机制调整

国家发改委:2025年11月10日国内成品油价格按机制调整

中国能源网
2025-11-10 19:24:05
52岁TVB演员为救妻子,哭求捐款70万后续:陈晓东出手了,真仗义

52岁TVB演员为救妻子,哭求捐款70万后续:陈晓东出手了,真仗义

嫹笔牂牂
2025-11-11 07:21:25
C919为啥不火了?不是技术问题,航司亏损严重根本用不起

C919为啥不火了?不是技术问题,航司亏损严重根本用不起

吃瓜局
2025-11-10 21:07:17
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
发布仅4个小时后,梅西造访诺坎普社媒动态点赞已突破1000万

发布仅4个小时后,梅西造访诺坎普社媒动态点赞已突破1000万

懂球帝
2025-11-10 22:33:08
神算子:13岁上北大,给自己算命后果断抛妻,并成功把自己算死

神算子:13岁上北大,给自己算命后果断抛妻,并成功把自己算死

兴趣知识
2025-11-09 14:44:23
访华碰壁即出杀招!德国三连击比美还狠,中方反击震动欧洲

访华碰壁即出杀招!德国三连击比美还狠,中方反击震动欧洲

爱下厨的阿酾
2025-11-11 08:08:10
安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

LULU生活家
2025-11-06 18:29:11
2025-11-11 12:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15847文章数 514282关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

教育
数码
时尚
艺术
军事航空

教育要闻

千城百县看中国|山东成武:人工智能课堂筑梦少年未来

数码要闻

“轻”到不像实力派?慧天 X5 商用本评测:别被它的重量骗了

今年冬天最经典的4双鞋,年年穿都好看!

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版