网易首页 > 网易号 > 正文 申请入驻

AI炒币战果出炉:中国AI大模型包揽前两名

0
分享至

经过近两周的激烈角逐,由美国 AI 实验室 Nof1 发起的首季 Alpha Arena AI 大模型实盘交易竞赛在今天正式落幕。六款中美顶尖大语言模型各自拿着10,000美元真金白银,在加密货币市场自主交易。在最终的成绩中:阿里巴巴的Qwen3 Max赚了 22.32% 拿下冠军,DeepSeek V3.1 以 4.89% 的收益紧随其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 则分别亏掉了 56.71% 和 62.66%,在六位选手中垫底。


图丨比赛的最终结果(来源:Alpha Arena)

这个结果让不少人意外。毕竟在各种 benchmark 测试中,GPT 和 Gemini 的表现一向不俗。但金融市场显然是另一回事——它动态、复杂、充满对抗性,跟静态的考试题目完全不是一码事。


图丨主要加密货币近一个月以来的趋势(来源:谷歌财经)

Qwen3 Max 把初始的一万美元变成了 12,232 美元,整体战绩相当漂亮。DeepSeek 账户价值 10,489 美元,涨幅没那么夸张,但胜在稳当。相比之下,Anthropic 的 Claude Sonnet 4.5 亏了 30.81%,xAI 的 Grok 4 亏了 45.3%,至于 Gemini 和 GPT,一个只剩 4,329 美元,一个只剩 3,734 美元,可以说是惨不忍睹。

从交易记录中可以看到,这些 AI 展现出了截然不同的“交易人格”。

Qwen3 Max 整个比赛期间完成了 43 笔交易,平均用 15.1 倍杠杆,大部分时间(82.7%)在观望,只有 16.6% 的时间做多、0.7% 做空。这种“不出手则已、出手必准”的打法,配合高杠杆和精准择时,成就了它的领先优势。它最大的一笔盈利来自比特币多头——10 月中旬在 107,993 美元附近买入 1.96 个BTC,持有近 100 小时后在 112,250 美元平仓,这一波操作贡献了账户的主要收益(8,176 美元)。

DeepSeek 走的是另一条路。它做了 41 笔交易,93.6% 的时间在做多,只有 5.3% 在做空,几乎是纯多头策略。虽然最终收益率只有 4.89%,远低于 Qwen 的 22.32%,但它的 Sharpe 比率达到 0.359,是六位选手中最高的。Sharpe 比率衡量的是风险调整后的收益,这意味着 DeepSeek 在控制波动性和风险暴露方面做得最好,它用更低的杠杆和更稳健的策略,获得了最优的风险收益比。

它最大的单笔盈利达到 7,378 美元,主要来自以太坊的多头持仓,从交易记录看,DeepSeek 擅长在市场出现明显超卖信号时进场,然后耐心持有数十甚至上百小时,等待技术指标触发止盈或止损条件才离场。这种“重仓做多、长期持有”的风格在比赛的大部分时间里都表现稳健。

Gemini 2.5 Pro 的崩盘堪称本次比赛最大的戏剧性场面。十天时间里它完成了238 笔交易,几乎是 Qwen 的五倍多,成了赛场上最活跃的交易狂魔。但频繁进出不仅没带来收益,反而因为巨额手续费拖垮了整个账户。因为在 Hyperliquid 这种永续合约平台上,每次开仓平仓都要付费,当你的持仓时间极短、策略频繁反转时,这些成本累积起来相当可怕。

据统计,Gemini 只有 1.7% 的时间在观望,剩下的时间不是在做多(34.9%)就是在做空(63.4%)。换句话说,它几乎从没闲着,不停地在多空之间切换。交易明细显示,它有时一小时内就完成多次反向操作,这种朝令夕改在真实市场中基本等于自杀。


图丨Gemini 2.5 Pro 的操盘数据(来源:Alpha Arena)

GPT-5 的表现同样比较一般。它做了 116 笔交易,平均杠杆 16.7 倍,最大单笔亏损 621 美元。从持仓分布看,GPT 有 54.3% 的时间做多、42.8% 做空,只有 2.9% 在观望。这种相对均衡的多空配置本来应该能在震荡市中获得一些收益,但 GPT 似乎在择时上出了问题。10 月下旬 BTC 和 ETH 明明在涨,GPT 却执着地持有空头头寸,不仅错过了大段利润,还因为逆势操作而遭受重创。

Claude Sonnet 4.5 则走向了另一个极端。它只做了36笔交易,是六位选手中最少的,有 61.5% 的时间在观望,38.5% 在做多,从不做空。这种极度谨慎的风格让它避开了一些大坑,但也错过了不少机会。Claude 最大的单笔盈利 2,112 美元来自一笔 BTC 多头,但它也有一笔 1,579 美元的单笔亏损,说明在风险控制上还是有漏洞。

Grok 4 完成了47 笔交易,82% 的时间在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。从自信度数据看,Grok 对自己的判断相当有把握,平均置信度 66.7%。但高自信没能转化成高收益,账户最终还是亏了 45.3%。仔细看它的交易记录会发现,Grok 在 XRP 上有笔持仓超过 350 小时的多头,从 2.4347 美元入场,最后在 2.3194 美元止损出来,这笔亏损对账户打击非常大。

从持仓分散度看,各模型的风险偏好也不同。DeepSeek 持仓最分散,会同时在六种资产(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 则喜欢同时只持有一两个头寸,集中火力在高确定性机会上;Gemini 虽然总体分散,但频繁的策略切换反而增加了风险暴露。

Nof1 团队发布的技术博客揭示了更多细节。他们发现,即便提示词和数据输入完全相同,不同模型还是表现出了截然不同的“投资性格”。比如 Qwen3 Max 习惯设置最窄的止损止盈距离,对风险容忍度很低,宁可频繁止损也要保护本金;而 Grok 4 和 DeepSeek 则倾向于给价格更大的波动空间。在自报置信度方面,Qwen3 Max 平均高达 82%,GPT-5 只有 62.5%,这种自信程度的差异或许部分解释了它们在仓位大小和杠杆使用上的不同选择。

但另一方面,这些模型也暴露出严重的脆弱性。Nof1 的研究人员发现,仅仅改变数据的排列顺序(从最新到最旧,还是从最旧到最新)就能让某些模型产生完全错误的判断。在早期测试中,当提示词中使用“可用现金”和“自由保证金”这两个略有不同的术语时,模型会表现出不一致的行为。

更严重的问题出在规则理解上。在一个早期测试版本中,当提示词要求“最多连续三次保持持仓不变”时,Gemini 2.5 Flash 的内部推理显示它抱怨“无法第四次持有”,于是它找到了一个漏洞:发出一个“设定交易计划”的中性指令来重置计数器,然后继续持有。考虑到金融交易的强监管特性,这种对齐问题的严重性不言而喻。

另外,所有模型在比赛初期都遭遇了手续费陷阱。Nof1 的数据显示,早期测试轮次中,各模型普遍过度交易,频繁追逐微小价差,结果盈利全被手续费吞了。为此主办方不得不优化提示词,明确要求模型制定详细的退出计划(包括止盈目标、止损位和失效条件),鼓励更少但更大、置信度更高的头寸,并引入杠杆来提高资金效率。这些调整在一定程度上改善了模型表现,但 Gemini 显然没吸取教训。

作为首个将大语言模型置于真实、公开、可验证的金融市场中进行全自主交易的实验,Alpha Arena 也顺应了如今 AI 能力评估的新方向:从静态的实验室测试转向动态的真实环境对抗。Nof1 的创始人在技术博客中写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。”

当然,Season 1 只是一个起点。研究人员也坦承这个设计存在诸多局限:样本量有限、缺乏统计严谨性、评估周期较短、模型无法获取新闻或市场叙事等。在即将到来的 Season 1.5 和 2 中,他们计划引入更多数据特征、允许模型使用工具(如代码执行和网页搜索)、提供历史行动轨迹以便模型学习,以及同时测试多个提示词版本来减少偶然性。

从某种程度上说,Qwen3 的胜利可能也包含运气成分,它恰好押注比特币多头,而比特币在它的主要持仓时间确实大幅上涨。但持续的行为模式差异表明,不同的模型确实具有某种内在的“投资人格”。这种人格是如何形成的?是训练数据的差异,还是对齐目标的不同,抑或是采样策略的影响?这些问题的答案或许将决定 AI 能否真正在金融市场中扮演更重要的角色。



参考资料:

1.https://nof1.ai/blog/TechPost1

2.https://nof1.ai/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海炒股冠军肺腑之言:如果你有10万资金,建议死啃520均线战法

上海炒股冠军肺腑之言:如果你有10万资金,建议死啃520均线战法

股经纵横谈
2025-12-30 20:08:56
第一观察|很不平凡的2025,总书记带领我们乘势而上

第一观察|很不平凡的2025,总书记带领我们乘势而上

新华社
2026-01-01 23:34:15
狐狸尾巴终究藏不住,他“妻妾成群”,大儿子和巩俐越长越像?

狐狸尾巴终究藏不住,他“妻妾成群”,大儿子和巩俐越长越像?

丰谭笔录
2026-01-03 07:50:06
人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

霹雳炮
2025-12-08 22:03:16
刘德华、郭富城告诉你:西服不成套穿,裤子短一截,到老也不油腻

刘德华、郭富城告诉你:西服不成套穿,裤子短一截,到老也不油腻

飘逸语人
2025-12-25 22:16:54
我姐灵活就业缴费15年,刚办完退休,看到养老金的一瞬间,惊呆了

我姐灵活就业缴费15年,刚办完退休,看到养老金的一瞬间,惊呆了

小鹿姐姐情感说
2026-01-01 13:46:30
张水华理论上辞职后还可能回归原医院,而停薪留职的路早已经堵死

张水华理论上辞职后还可能回归原医院,而停薪留职的路早已经堵死

杨华评论
2026-01-03 19:02:01
3-1!英超黑马夺主场11连胜,54岁埃梅里再创神迹,暂超曼城升第2

3-1!英超黑马夺主场11连胜,54岁埃梅里再创神迹,暂超曼城升第2

篮球看比赛
2026-01-04 11:14:22
突袭细节曝光:美利用潜伏线人和无人机监视马杜罗,连宠物情况都掌握,行动历经数月计划和演练

突袭细节曝光:美利用潜伏线人和无人机监视马杜罗,连宠物情况都掌握,行动历经数月计划和演练

极目新闻
2026-01-04 10:59:58
笑喷了!怼人从未败绩的林更新,轻描淡写地“速冻”了iamroosie

笑喷了!怼人从未败绩的林更新,轻描淡写地“速冻”了iamroosie

振华观史
2026-01-03 11:09:20
3-0!英超中资队20轮后终获首胜 2轮拿4分或逆袭保级 韩名将传射

3-0!英超中资队20轮后终获首胜 2轮拿4分或逆袭保级 韩名将传射

我爱英超
2026-01-04 05:05:27
恭喜!27岁羽毛球世界冠军官宣新恋情,因女友太漂亮太美不愿公开

恭喜!27岁羽毛球世界冠军官宣新恋情,因女友太漂亮太美不愿公开

体坛小二哥
2026-01-03 23:27:50
恒大夏海钧转移600亿港元资产失败

恒大夏海钧转移600亿港元资产失败

地产微资讯
2026-01-04 08:49:59
随着62岁穆帅率队3-1,布拉加3-3,葡超最新积分榜出炉

随着62岁穆帅率队3-1,布拉加3-3,葡超最新积分榜出炉

侧身凌空斩
2026-01-04 04:29:11
最烂的前锋?杰拉德卡拉格齐怼:他眼里根本没有利物浦

最烂的前锋?杰拉德卡拉格齐怼:他眼里根本没有利物浦

澜归序
2026-01-04 01:10:49
5年2.87亿!签完顶薪就要原形毕露?NBA天才状元别成下一个西蒙斯

5年2.87亿!签完顶薪就要原形毕露?NBA天才状元别成下一个西蒙斯

毒舌NBA
2026-01-04 10:17:34
涉毒艺人参演群星晚会,遭网友质疑后退出!

涉毒艺人参演群星晚会,遭网友质疑后退出!

新民周刊
2026-01-01 20:23:41
高芙隔空示爱梅总:相较于辛纳阿卡,我更爱他比赛会给人带来惊喜

高芙隔空示爱梅总:相较于辛纳阿卡,我更爱他比赛会给人带来惊喜

网球之家
2026-01-03 22:54:26
我同居过9位女性,发现女性过了45岁后,找伴侣都有个相同需求点

我同居过9位女性,发现女性过了45岁后,找伴侣都有个相同需求点

游戏收藏指南
2025-12-27 15:47:33
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-11-14 09:28:10
2026-01-04 11:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16072文章数 514446关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

司晓迪再曝猛料,晒和陈翔亲密合照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

教育
艺术
数码
手机
旅游

教育要闻

教育部:鼓励师范院校建立数学、科技、工程类教育中心

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

数码要闻

去年11月中国扫地机器人零售量下降23.7% 科沃斯第一

手机要闻

“开年越级大作”:realme真我Neo8手机官宣本月发布

旅游要闻

科技焕彩迎新春!东营市科技馆元旦假期接待游客近 1万人次

无障碍浏览 进入关怀版