网易首页 > 网易号 > 正文 申请入驻

投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏

0
分享至

11月3日,历经两周操盘,首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中,nof1给6家领先的大模型各1万美元,全程无人类干预的情况下,让它们仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。

最终,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,盈利2232美元;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。

其余模型均呈现大幅亏损,其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损62.66%。

六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断,它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中,主办方给每个模型发了1万美元,让它们在特定平台上无人为干预地进行交易,每个模型都必须处理量化数据,同时使用提供的数值数据进行系统性交易,在整个交易过程中模型也无法获得新闻或市场消息。

主办方称,第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外,其他模型均启用最高可配置的推理设置,同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作,首季比赛将交易选项限定为:买入(做多)、卖出(做空)、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行;Claude Sonnet 4.5几乎从不做空;在持仓时间上,不同模型持仓时间存在较大差异,其中Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃;Grok 4最不活跃;在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面,在开放式指令下,各模型设定的止损/止盈规则差异明显:多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄;Grok 4与DeepSeek V3.1则最宽;在持仓数量上,有些模型倾向于同时持有六个可用仓位中的大部分或全部;相比之下,Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中,发生了不少变幻莫测的事情,比如DeepSeek V3.1从10月26日起就不断保持最高盈利,吊打其他模型,但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5一路下滑,离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注:永续期货是一种允许进行多头(押注价格上涨)或空头(押注价格下跌)交易的合约,并可使用杠杆。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有北京员工晒1688万年薪 个税交超687万引热议!黄仁勋:我愿给英伟达员工更高薪酬

有北京员工晒1688万年薪 个税交超687万引热议!黄仁勋:我愿给英伟达员工更高薪酬

快科技
2026-06-02 23:42:05
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
“翻墙”就是犯法,这些常识你必须知道

“翻墙”就是犯法,这些常识你必须知道

智慧仪陇
2026-05-29 17:30:00
上海悄然推出重大举措,悄然撕开了中国楼市前所未有的新缺口。

上海悄然推出重大举措,悄然撕开了中国楼市前所未有的新缺口。

流苏晚晴
2026-06-02 18:01:33
王少杰带娇妻泰国度蜜月,重回北控,逆袭成功,妻子是美丽网红

王少杰带娇妻泰国度蜜月,重回北控,逆袭成功,妻子是美丽网红

大西体育
2026-06-03 11:03:03
133亿爆雷,10万人血本无归,水贝黄金“预定价”崩盘之殇

133亿爆雷,10万人血本无归,水贝黄金“预定价”崩盘之殇

混沌录
2026-06-02 23:09:49
8枚“锆石”轰炸基辅,超百人死伤,普京敲定追责指令,下令惩罚所有肇事者

8枚“锆石”轰炸基辅,超百人死伤,普京敲定追责指令,下令惩罚所有肇事者

荷兰豆爱健康
2026-06-03 08:05:33
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

上观新闻
2026-06-02 12:23:28
马刺尼克斯上一次打总决赛时,世界是这个样子

马刺尼克斯上一次打总决赛时,世界是这个样子

年代回忆
2026-05-31 12:36:23
闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

娱乐的宅急便
2026-06-02 14:59:09
体感47℃却挤不进火炉?广州:我真的热得很冤!

体感47℃却挤不进火炉?广州:我真的热得很冤!

花小猫的美食日常
2026-06-03 00:16:05
耿同学又举报4名学者,涉事人物全部曝光!处理他们刻不容缓

耿同学又举报4名学者,涉事人物全部曝光!处理他们刻不容缓

平老师666
2026-06-02 22:27:01
癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

鬼菜生活
2026-06-02 17:31:32
文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

体育大学僧
2026-06-02 11:10:25
十年天价合约落地!库里亲笔信揭秘:为什么选择中国品牌李宁?

十年天价合约落地!库里亲笔信揭秘:为什么选择中国品牌李宁?

篮球神吐槽
2026-06-02 10:11:11
世界杯热身赛综述:比利时2-0克罗地亚!摩洛哥4-0,加纳遭绝平

世界杯热身赛综述:比利时2-0克罗地亚!摩洛哥4-0,加纳遭绝平

我爱英超
2026-06-03 06:43:31
日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

东京新青年
2026-05-31 18:08:07
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

人走了,产业也完了!印尼想赶走中方镍矿团队,算完账,全沉默了

探索新高度
2026-06-02 21:29:30
2026-06-03 11:40:49
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
614698文章数 3588889关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

2030年之前 莲花还来得及

态度原创

手机
房产
教育
时尚
家居

手机要闻

星星海梦幻外观+4K原生实况!vivo S60手机全面评测:一台懂年轻人日常需求的轻旗舰

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

教育要闻

专访北京中关村一小校长商红领:落实“健康第一”,要避免3个“窄化”

一身夏装三种模样,跟着Mai拿捏夏日甜辣

家居要闻

江畔轻奢 观云大宅

无障碍浏览 进入关怀版