网易首页 > 网易号 > 正文 申请入驻

AI炒币战果出炉:中国AI大模型包揽前两名

0
分享至

经过近两周的激烈角逐,由美国 AI 实验室 Nof1 发起的首季 Alpha Arena AI 大模型实盘交易竞赛在今天正式落幕。六款中美顶尖大语言模型各自拿着10,000美元真金白银,在加密货币市场自主交易。在最终的成绩中:阿里巴巴的Qwen3 Max赚了 22.32% 拿下冠军,DeepSeek V3.1 以 4.89% 的收益紧随其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 则分别亏掉了 56.71% 和 62.66%,在六位选手中垫底。


图丨比赛的最终结果(来源:Alpha Arena)

这个结果让不少人意外。毕竟在各种 benchmark 测试中,GPT 和 Gemini 的表现一向不俗。但金融市场显然是另一回事——它动态、复杂、充满对抗性,跟静态的考试题目完全不是一码事。


图丨主要加密货币近一个月以来的趋势(来源:谷歌财经)

Qwen3 Max 把初始的一万美元变成了 12,232 美元,整体战绩相当漂亮。DeepSeek 账户价值 10,489 美元,涨幅没那么夸张,但胜在稳当。相比之下,Anthropic 的 Claude Sonnet 4.5 亏了 30.81%,xAI 的 Grok 4 亏了 45.3%,至于 Gemini 和 GPT,一个只剩 4,329 美元,一个只剩 3,734 美元,可以说是惨不忍睹。

从交易记录中可以看到,这些 AI 展现出了截然不同的“交易人格”。

Qwen3 Max 整个比赛期间完成了 43 笔交易,平均用 15.1 倍杠杆,大部分时间(82.7%)在观望,只有 16.6% 的时间做多、0.7% 做空。这种“不出手则已、出手必准”的打法,配合高杠杆和精准择时,成就了它的领先优势。它最大的一笔盈利来自比特币多头——10 月中旬在 107,993 美元附近买入 1.96 个BTC,持有近 100 小时后在 112,250 美元平仓,这一波操作贡献了账户的主要收益(8,176 美元)。

DeepSeek 走的是另一条路。它做了 41 笔交易,93.6% 的时间在做多,只有 5.3% 在做空,几乎是纯多头策略。虽然最终收益率只有 4.89%,远低于 Qwen 的 22.32%,但它的 Sharpe 比率达到 0.359,是六位选手中最高的。Sharpe 比率衡量的是风险调整后的收益,这意味着 DeepSeek 在控制波动性和风险暴露方面做得最好,它用更低的杠杆和更稳健的策略,获得了最优的风险收益比。

它最大的单笔盈利达到 7,378 美元,主要来自以太坊的多头持仓,从交易记录看,DeepSeek 擅长在市场出现明显超卖信号时进场,然后耐心持有数十甚至上百小时,等待技术指标触发止盈或止损条件才离场。这种“重仓做多、长期持有”的风格在比赛的大部分时间里都表现稳健。

Gemini 2.5 Pro 的崩盘堪称本次比赛最大的戏剧性场面。十天时间里它完成了238 笔交易,几乎是 Qwen 的五倍多,成了赛场上最活跃的交易狂魔。但频繁进出不仅没带来收益,反而因为巨额手续费拖垮了整个账户。因为在 Hyperliquid 这种永续合约平台上,每次开仓平仓都要付费,当你的持仓时间极短、策略频繁反转时,这些成本累积起来相当可怕。

据统计,Gemini 只有 1.7% 的时间在观望,剩下的时间不是在做多(34.9%)就是在做空(63.4%)。换句话说,它几乎从没闲着,不停地在多空之间切换。交易明细显示,它有时一小时内就完成多次反向操作,这种朝令夕改在真实市场中基本等于自杀。


图丨Gemini 2.5 Pro 的操盘数据(来源:Alpha Arena)

GPT-5 的表现同样比较一般。它做了 116 笔交易,平均杠杆 16.7 倍,最大单笔亏损 621 美元。从持仓分布看,GPT 有 54.3% 的时间做多、42.8% 做空,只有 2.9% 在观望。这种相对均衡的多空配置本来应该能在震荡市中获得一些收益,但 GPT 似乎在择时上出了问题。10 月下旬 BTC 和 ETH 明明在涨,GPT 却执着地持有空头头寸,不仅错过了大段利润,还因为逆势操作而遭受重创。

Claude Sonnet 4.5 则走向了另一个极端。它只做了36笔交易,是六位选手中最少的,有 61.5% 的时间在观望,38.5% 在做多,从不做空。这种极度谨慎的风格让它避开了一些大坑,但也错过了不少机会。Claude 最大的单笔盈利 2,112 美元来自一笔 BTC 多头,但它也有一笔 1,579 美元的单笔亏损,说明在风险控制上还是有漏洞。

Grok 4 完成了47 笔交易,82% 的时间在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。从自信度数据看,Grok 对自己的判断相当有把握,平均置信度 66.7%。但高自信没能转化成高收益,账户最终还是亏了 45.3%。仔细看它的交易记录会发现,Grok 在 XRP 上有笔持仓超过 350 小时的多头,从 2.4347 美元入场,最后在 2.3194 美元止损出来,这笔亏损对账户打击非常大。

从持仓分散度看,各模型的风险偏好也不同。DeepSeek 持仓最分散,会同时在六种资产(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 则喜欢同时只持有一两个头寸,集中火力在高确定性机会上;Gemini 虽然总体分散,但频繁的策略切换反而增加了风险暴露。

Nof1 团队发布的技术博客揭示了更多细节。他们发现,即便提示词和数据输入完全相同,不同模型还是表现出了截然不同的“投资性格”。比如 Qwen3 Max 习惯设置最窄的止损止盈距离,对风险容忍度很低,宁可频繁止损也要保护本金;而 Grok 4 和 DeepSeek 则倾向于给价格更大的波动空间。在自报置信度方面,Qwen3 Max 平均高达 82%,GPT-5 只有 62.5%,这种自信程度的差异或许部分解释了它们在仓位大小和杠杆使用上的不同选择。

但另一方面,这些模型也暴露出严重的脆弱性。Nof1 的研究人员发现,仅仅改变数据的排列顺序(从最新到最旧,还是从最旧到最新)就能让某些模型产生完全错误的判断。在早期测试中,当提示词中使用“可用现金”和“自由保证金”这两个略有不同的术语时,模型会表现出不一致的行为。

更严重的问题出在规则理解上。在一个早期测试版本中,当提示词要求“最多连续三次保持持仓不变”时,Gemini 2.5 Flash 的内部推理显示它抱怨“无法第四次持有”,于是它找到了一个漏洞:发出一个“设定交易计划”的中性指令来重置计数器,然后继续持有。考虑到金融交易的强监管特性,这种对齐问题的严重性不言而喻。

另外,所有模型在比赛初期都遭遇了手续费陷阱。Nof1 的数据显示,早期测试轮次中,各模型普遍过度交易,频繁追逐微小价差,结果盈利全被手续费吞了。为此主办方不得不优化提示词,明确要求模型制定详细的退出计划(包括止盈目标、止损位和失效条件),鼓励更少但更大、置信度更高的头寸,并引入杠杆来提高资金效率。这些调整在一定程度上改善了模型表现,但 Gemini 显然没吸取教训。

作为首个将大语言模型置于真实、公开、可验证的金融市场中进行全自主交易的实验,Alpha Arena 也顺应了如今 AI 能力评估的新方向:从静态的实验室测试转向动态的真实环境对抗。Nof1 的创始人在技术博客中写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。”

当然,Season 1 只是一个起点。研究人员也坦承这个设计存在诸多局限:样本量有限、缺乏统计严谨性、评估周期较短、模型无法获取新闻或市场叙事等。在即将到来的 Season 1.5 和 2 中,他们计划引入更多数据特征、允许模型使用工具(如代码执行和网页搜索)、提供历史行动轨迹以便模型学习,以及同时测试多个提示词版本来减少偶然性。

从某种程度上说,Qwen3 的胜利可能也包含运气成分,它恰好押注比特币多头,而比特币在它的主要持仓时间确实大幅上涨。但持续的行为模式差异表明,不同的模型确实具有某种内在的“投资人格”。这种人格是如何形成的?是训练数据的差异,还是对齐目标的不同,抑或是采样策略的影响?这些问题的答案或许将决定 AI 能否真正在金融市场中扮演更重要的角色。



参考资料:

1.https://nof1.ai/blog/TechPost1

2.https://nof1.ai/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他身高1米6却娶了中国首席舞蹈家谭元元

他身高1米6却娶了中国首席舞蹈家谭元元

丰谭笔录
2026-01-13 07:30:10
官方发文,锐评贺娇龙去世风波,言辞犀利,句句说到人民心坎里

官方发文,锐评贺娇龙去世风波,言辞犀利,句句说到人民心坎里

八斗小先生
2026-01-16 09:50:28
2026评测:十款耳鸣干预方案深度解析,耳闷胀痛人群的精准选择指南

2026评测:十款耳鸣干预方案深度解析,耳闷胀痛人群的精准选择指南

汽车资讯馆
2026-01-14 18:01:58
昆明市原市长刘佳晨隐瞒境外存款被公诉,曾因“全马破4”冲上热搜

昆明市原市长刘佳晨隐瞒境外存款被公诉,曾因“全马破4”冲上热搜

极目新闻
2026-01-15 17:14:43
吃蛤蜊等于吃碎玻璃?那个让船只长生不老的材料,是如何回到人类餐桌的?

吃蛤蜊等于吃碎玻璃?那个让船只长生不老的材料,是如何回到人类餐桌的?

万物杂志
2026-01-07 06:07:22
上海独生子女的幸福:上班不啃老,就是给父母省钱!父母不差钱!

上海独生子女的幸福:上班不啃老,就是给父母省钱!父母不差钱!

捣蛋窝
2026-01-16 00:24:16
27中27!快船刷新NBA纪录,泰伦卢声援祖尼尔,乔丹科比该转正了

27中27!快船刷新NBA纪录,泰伦卢声援祖尼尔,乔丹科比该转正了

世界体育圈
2026-01-15 18:25:36
尹锡悦数罪并罚该判死刑,李在明斩草除根不给死敌留活路

尹锡悦数罪并罚该判死刑,李在明斩草除根不给死敌留活路

兴史兴谈
2026-01-15 05:40:44
湖北咸宁千名业主买“包租商铺”被“套牢”:12年只收到3万元返利

湖北咸宁千名业主买“包租商铺”被“套牢”:12年只收到3万元返利

封面新闻
2026-01-15 19:37:16
KK园区被炸后,缅北爆发“二次招聘潮”,7万美元抢一个电诈人才

KK园区被炸后,缅北爆发“二次招聘潮”,7万美元抢一个电诈人才

谛听骨语本尊
2026-01-15 12:44:30
独生子女补贴新动态!独生子女,父母若满七十岁,奖励金会更高吗

独生子女补贴新动态!独生子女,父母若满七十岁,奖励金会更高吗

社保小达人
2026-01-15 11:35:09
从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

照见古今
2025-12-12 18:19:05
殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

章眽八卦
2025-12-20 12:29:42
女儿发文悼念聂卫平!他一次能喝4斤白酒,女儿帮他戒酒

女儿发文悼念聂卫平!他一次能喝4斤白酒,女儿帮他戒酒

草莓解说体育
2026-01-16 05:12:42
冬窗过半德转列最贵10笔交易:塞门约7200万第1,加拉格尔第2

冬窗过半德转列最贵10笔交易:塞门约7200万第1,加拉格尔第2

懂球帝
2026-01-16 10:01:12
张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

草莓解说体育
2025-12-21 00:52:27
广西前首富旗下公司所持120套房产,被两买家拍下,总成交价4256万元

广西前首富旗下公司所持120套房产,被两买家拍下,总成交价4256万元

南国今报
2026-01-15 23:34:20
中国开放式耳机一哥,被华为逼急了

中国开放式耳机一哥,被华为逼急了

金角财经
2026-01-15 16:05:12
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
奇瑞官宣:固态电池装车2026“猎风”,零下30℃续航1500公里

奇瑞官宣:固态电池装车2026“猎风”,零下30℃续航1500公里

知嘹汽车
2026-01-14 18:43:14
2026-01-16 10:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16128文章数 514488关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

数码
本地
家居
手机
军事航空

数码要闻

英伟达:将继续出货所有GeForce显卡型号

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

岁月柔情 现代品质轻奢

手机要闻

2025折叠屏市场排名,华为第一,OPPO第六

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版