网易首页 > 网易号 > 正文 申请入驻

投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏

0
分享至

11月3日,历经两周操盘,首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中,nof1给6家领先的大模型各1万美元,全程无人类干预的情况下,让它们仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。

最终,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,盈利2232美元;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。



其余模型均呈现大幅亏损,其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损62.66%。


六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断,它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中,主办方给每个模型发了1万美元,让它们在特定平台上无人为干预地进行交易,每个模型都必须处理量化数据,同时使用提供的数值数据进行系统性交易,在整个交易过程中模型也无法获得新闻或市场消息。

主办方称,第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外,其他模型均启用最高可配置的推理设置,同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作,首季比赛将交易选项限定为:买入(做多)、卖出(做空)、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行;Claude Sonnet 4.5几乎从不做空;在持仓时间上,不同模型持仓时间存在较大差异,其中Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃;Grok 4最不活跃;在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面,在开放式指令下,各模型设定的止损/止盈规则差异明显:多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄;Grok 4与DeepSeek V3.1则最宽;在持仓数量上,有些模型倾向于同时持有六个可用仓位中的大部分或全部;相比之下,Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中,发生了不少变幻莫测的事情,比如DeepSeek V3.1从10月26日起就不断保持最高盈利,吊打其他模型,但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5一路下滑,离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注:永续期货是一种允许进行多头(押注价格上涨)或空头(押注价格下跌)交易的合约,并可使用杠杆。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
北京3万平米城市奥莱下周闭店!官方回应储值卡…网友发告别贴

北京3万平米城市奥莱下周闭店!官方回应储值卡…网友发告别贴

说故事的阿袭
2026-03-25 17:17:10
赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

林子说事
2026-03-26 14:10:10
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
正式生效! 澳洲宣布: 今天起暂关边境, 禁止入境, 新申请不批! 6.1万签证持有者受影响

正式生效! 澳洲宣布: 今天起暂关边境, 禁止入境, 新申请不批! 6.1万签证持有者受影响

澳微Daily
2026-03-26 14:25:21
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

谛听骨语本尊
2026-03-26 16:37:43
国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

西莫的艺术宫殿
2026-03-26 15:20:40
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
巴蒂:马拉多纳是个伟大的球员,却像条狗一样孤独死去

巴蒂:马拉多纳是个伟大的球员,却像条狗一样孤独死去

生活新鲜市
2026-03-26 16:48:30
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

唠叨说历史
2026-03-20 17:26:29
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

章眽八卦
2026-03-26 13:22:27
周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

可乐谈情感
2026-03-26 13:42:47
心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

叙说医疗健康
2026-03-12 22:00:05
人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

贱议你读史
2026-03-24 00:30:08
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
费率0.3%,社保“第六险”来了,退休人员也要交

费率0.3%,社保“第六险”来了,退休人员也要交

财话连篇
2026-03-26 13:09:33
2026-03-26 18:04:49
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
602979文章数 3587792关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
艺术
房产
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版