网易首页 > 网易号 > 正文 申请入驻

AI炒币战果出炉:中国AI大模型包揽前两名

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

经过近两周的激烈角逐,由美国 AI 实验室 Nof1 发起的首季 Alpha Arena AI 大模型实盘交易竞赛在今天正式落幕。六款中美顶尖大语言模型各自拿着10,000美元真金白银,在加密货币市场自主交易。在最终的成绩中:阿里巴巴的Qwen3 Max赚了 22.32% 拿下冠军,DeepSeek V3.1 以 4.89% 的收益紧随其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 则分别亏掉了 56.71% 和 62.66%,在六位选手中垫底。


图丨比赛的最终结果(来源:Alpha Arena)

这个结果让不少人意外。毕竟在各种 benchmark 测试中,GPT 和 Gemini 的表现一向不俗。但金融市场显然是另一回事——它动态、复杂、充满对抗性,跟静态的考试题目完全不是一码事。


图丨主要加密货币近一个月以来的趋势(来源:谷歌财经)

Qwen3 Max 把初始的一万美元变成了 12,232 美元,整体战绩相当漂亮。DeepSeek 账户价值 10,489 美元,涨幅没那么夸张,但胜在稳当。相比之下,Anthropic 的 Claude Sonnet 4.5 亏了 30.81%,xAI 的 Grok 4 亏了 45.3%,至于 Gemini 和 GPT,一个只剩 4,329 美元,一个只剩 3,734 美元,可以说是惨不忍睹。

从交易记录中可以看到,这些 AI 展现出了截然不同的“交易人格”。

Qwen3 Max 整个比赛期间完成了 43 笔交易,平均用 15.1 倍杠杆,大部分时间(82.7%)在观望,只有 16.6% 的时间做多、0.7% 做空。这种“不出手则已、出手必准”的打法,配合高杠杆和精准择时,成就了它的领先优势。它最大的一笔盈利来自比特币多头——10 月中旬在 107,993 美元附近买入 1.96 个BTC,持有近 100 小时后在 112,250 美元平仓,这一波操作贡献了账户的主要收益(8,176 美元)。

DeepSeek 走的是另一条路。它做了 41 笔交易,93.6% 的时间在做多,只有 5.3% 在做空,几乎是纯多头策略。虽然最终收益率只有 4.89%,远低于 Qwen 的 22.32%,但它的 Sharpe 比率达到 0.359,是六位选手中最高的。Sharpe 比率衡量的是风险调整后的收益,这意味着 DeepSeek 在控制波动性和风险暴露方面做得最好,它用更低的杠杆和更稳健的策略,获得了最优的风险收益比。

它最大的单笔盈利达到 7,378 美元,主要来自以太坊的多头持仓,从交易记录看,DeepSeek 擅长在市场出现明显超卖信号时进场,然后耐心持有数十甚至上百小时,等待技术指标触发止盈或止损条件才离场。这种“重仓做多、长期持有”的风格在比赛的大部分时间里都表现稳健。

Gemini 2.5 Pro 的崩盘堪称本次比赛最大的戏剧性场面。十天时间里它完成了238 笔交易,几乎是 Qwen 的五倍多,成了赛场上最活跃的交易狂魔。但频繁进出不仅没带来收益,反而因为巨额手续费拖垮了整个账户。因为在 Hyperliquid 这种永续合约平台上,每次开仓平仓都要付费,当你的持仓时间极短、策略频繁反转时,这些成本累积起来相当可怕。

据统计,Gemini 只有 1.7% 的时间在观望,剩下的时间不是在做多(34.9%)就是在做空(63.4%)。换句话说,它几乎从没闲着,不停地在多空之间切换。交易明细显示,它有时一小时内就完成多次反向操作,这种朝令夕改在真实市场中基本等于自杀。


图丨Gemini 2.5 Pro 的操盘数据(来源:Alpha Arena)

GPT-5 的表现同样比较一般。它做了 116 笔交易,平均杠杆 16.7 倍,最大单笔亏损 621 美元。从持仓分布看,GPT 有 54.3% 的时间做多、42.8% 做空,只有 2.9% 在观望。这种相对均衡的多空配置本来应该能在震荡市中获得一些收益,但 GPT 似乎在择时上出了问题。10 月下旬 BTC 和 ETH 明明在涨,GPT 却执着地持有空头头寸,不仅错过了大段利润,还因为逆势操作而遭受重创。

Claude Sonnet 4.5 则走向了另一个极端。它只做了36笔交易,是六位选手中最少的,有 61.5% 的时间在观望,38.5% 在做多,从不做空。这种极度谨慎的风格让它避开了一些大坑,但也错过了不少机会。Claude 最大的单笔盈利 2,112 美元来自一笔 BTC 多头,但它也有一笔 1,579 美元的单笔亏损,说明在风险控制上还是有漏洞。

Grok 4 完成了47 笔交易,82% 的时间在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。从自信度数据看,Grok 对自己的判断相当有把握,平均置信度 66.7%。但高自信没能转化成高收益,账户最终还是亏了 45.3%。仔细看它的交易记录会发现,Grok 在 XRP 上有笔持仓超过 350 小时的多头,从 2.4347 美元入场,最后在 2.3194 美元止损出来,这笔亏损对账户打击非常大。

从持仓分散度看,各模型的风险偏好也不同。DeepSeek 持仓最分散,会同时在六种资产(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 则喜欢同时只持有一两个头寸,集中火力在高确定性机会上;Gemini 虽然总体分散,但频繁的策略切换反而增加了风险暴露。

Nof1 团队发布的技术博客揭示了更多细节。他们发现,即便提示词和数据输入完全相同,不同模型还是表现出了截然不同的“投资性格”。比如 Qwen3 Max 习惯设置最窄的止损止盈距离,对风险容忍度很低,宁可频繁止损也要保护本金;而 Grok 4 和 DeepSeek 则倾向于给价格更大的波动空间。在自报置信度方面,Qwen3 Max 平均高达 82%,GPT-5 只有 62.5%,这种自信程度的差异或许部分解释了它们在仓位大小和杠杆使用上的不同选择。

但另一方面,这些模型也暴露出严重的脆弱性。Nof1 的研究人员发现,仅仅改变数据的排列顺序(从最新到最旧,还是从最旧到最新)就能让某些模型产生完全错误的判断。在早期测试中,当提示词中使用“可用现金”和“自由保证金”这两个略有不同的术语时,模型会表现出不一致的行为。

更严重的问题出在规则理解上。在一个早期测试版本中,当提示词要求“最多连续三次保持持仓不变”时,Gemini 2.5 Flash 的内部推理显示它抱怨“无法第四次持有”,于是它找到了一个漏洞:发出一个“设定交易计划”的中性指令来重置计数器,然后继续持有。考虑到金融交易的强监管特性,这种对齐问题的严重性不言而喻。

另外,所有模型在比赛初期都遭遇了手续费陷阱。Nof1 的数据显示,早期测试轮次中,各模型普遍过度交易,频繁追逐微小价差,结果盈利全被手续费吞了。为此主办方不得不优化提示词,明确要求模型制定详细的退出计划(包括止盈目标、止损位和失效条件),鼓励更少但更大、置信度更高的头寸,并引入杠杆来提高资金效率。这些调整在一定程度上改善了模型表现,但 Gemini 显然没吸取教训。

作为首个将大语言模型置于真实、公开、可验证的金融市场中进行全自主交易的实验,Alpha Arena 也顺应了如今 AI 能力评估的新方向:从静态的实验室测试转向动态的真实环境对抗。Nof1 的创始人在技术博客中写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。”

当然,Season 1 只是一个起点。研究人员也坦承这个设计存在诸多局限:样本量有限、缺乏统计严谨性、评估周期较短、模型无法获取新闻或市场叙事等。在即将到来的 Season 1.5 和 2 中,他们计划引入更多数据特征、允许模型使用工具(如代码执行和网页搜索)、提供历史行动轨迹以便模型学习,以及同时测试多个提示词版本来减少偶然性。

从某种程度上说,Qwen3 的胜利可能也包含运气成分,它恰好押注比特币多头,而比特币在它的主要持仓时间确实大幅上涨。但持续的行为模式差异表明,不同的模型确实具有某种内在的“投资人格”。这种人格是如何形成的?是训练数据的差异,还是对齐目标的不同,抑或是采样策略的影响?这些问题的答案或许将决定 AI 能否真正在金融市场中扮演更重要的角色。


参考资料:

1.https://nof1.ai/blog/TechPost1

2.https://nof1.ai/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“盲眼龙婆”2026年预言:外星人到访、世界大战、AI崛起,全球巨变要来了?

“盲眼龙婆”2026年预言:外星人到访、世界大战、AI崛起,全球巨变要来了?

北美省钱快报
2026-01-01 07:40:23
上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

环球网资讯
2026-01-01 11:20:08
球迷可以安心睡觉,徐杰检查结果出炉:骨头和韧带没事,只是硬伤

球迷可以安心睡觉,徐杰检查结果出炉:骨头和韧带没事,只是硬伤

邹维体育
2026-01-01 22:32:18
小沈阳女儿沈佳润道歉冲上热搜第一,毛不易评论回应

小沈阳女儿沈佳润道歉冲上热搜第一,毛不易评论回应

观察者网
2026-01-01 11:34:39
伦敦足球:根据英足总相关规定,热苏斯或因展示宗教标语受罚

伦敦足球:根据英足总相关规定,热苏斯或因展示宗教标语受罚

懂球帝
2026-01-01 12:05:13
已经穷成这样了吗?我不信

已经穷成这样了吗?我不信

观人随笔
2025-12-31 09:19:15
国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

今朝牛马
2025-12-30 15:36:19
2026足坛十大看点:世界聚焦美加墨,梅西争50冠C罗冲1000球

2026足坛十大看点:世界聚焦美加墨,梅西争50冠C罗冲1000球

懂球帝
2026-01-01 12:05:13
日本研究:血管变硬,问题出在早餐上?提醒:4种早餐应撤下餐桌

日本研究:血管变硬,问题出在早餐上?提醒:4种早餐应撤下餐桌

华庭讲美食
2026-01-01 11:18:50
赌徒心理!永州美女老板引众怒:领导找她谈话 教练直言对她心寒

赌徒心理!永州美女老板引众怒:领导找她谈话 教练直言对她心寒

风过乡
2026-01-01 07:46:32
2026年首款万元机皇来了!三星Galaxy S26 Ultra机模上手

2026年首款万元机皇来了!三星Galaxy S26 Ultra机模上手

快科技
2025-12-31 16:17:04
起亚中国宣布奕跑、K3车型实行全国一口价

起亚中国宣布奕跑、K3车型实行全国一口价

界面新闻
2026-01-01 14:08:28
去你们的!马威爆粗正式回应被湖人退货:他们输了我确实幸灾乐祸

去你们的!马威爆粗正式回应被湖人退货:他们输了我确实幸灾乐祸

罗说NBA
2026-01-01 07:44:49
解放军围台没用弹道导弹,日媒:“雷声大雨点小”,不想刺激日本

解放军围台没用弹道导弹,日媒:“雷声大雨点小”,不想刺激日本

迷雾中的大眼睛
2026-01-01 22:04:42
乌克兰战俘马齐耶夫斯基牺牲三周年 战争罪行执行者罪责难逃

乌克兰战俘马齐耶夫斯基牺牲三周年 战争罪行执行者罪责难逃

老马拉车莫少装
2025-12-30 21:37:51
岛内最新民调!高达六成三的台湾民众不愿自身或家人上战场

岛内最新民调!高达六成三的台湾民众不愿自身或家人上战场

海峡导报社
2025-12-31 17:56:08
高市早苗终于开口反思,盼望得到中国原谅,语气中透露着羞愧

高市早苗终于开口反思,盼望得到中国原谅,语气中透露着羞愧

面包夹知识
2025-12-19 13:07:36
在日工作博主分享日本公司开年会,为什么他们如此抠嗖嗖?

在日工作博主分享日本公司开年会,为什么他们如此抠嗖嗖?

日本物语
2025-12-31 21:51:38
9岁进世界前八,打哭同龄人,林丹儿子进步揭开欧少年网球有多卷

9岁进世界前八,打哭同龄人,林丹儿子进步揭开欧少年网球有多卷

网球之家
2026-01-01 12:33:37
造成毛岸英牺牲的罪魁祸首,让毛主席痛恨得罪人,他们下场如何?

造成毛岸英牺牲的罪魁祸首,让毛主席痛恨得罪人,他们下场如何?

风笛悠扬声
2025-12-04 10:08:06
2026-01-02 01:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1895548文章数 5133关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

女子称奶奶去世公司不批假被逼离职 公司法人:害群之马

头条要闻

女子称奶奶去世公司不批假被逼离职 公司法人:害群之马

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

本地
艺术
时尚
房产
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

艺术要闻

你绝对想不到,这位东方画家竟将印象派推向巅峰!

2025年,记住她们的名字!

房产要闻

实景暴击!海口这个顶流红盘,抛出准现房+顶级书包双王炸!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版