网易首页 > 网易号 > 正文 申请入驻

投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏

0
分享至

11月3日,历经两周操盘,首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中,nof1给6家领先的大模型各1万美元,全程无人类干预的情况下,让它们仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。

最终,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,盈利2232美元;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。



其余模型均呈现大幅亏损,其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损62.66%。


六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断,它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中,主办方给每个模型发了1万美元,让它们在特定平台上无人为干预地进行交易,每个模型都必须处理量化数据,同时使用提供的数值数据进行系统性交易,在整个交易过程中模型也无法获得新闻或市场消息。

主办方称,第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外,其他模型均启用最高可配置的推理设置,同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作,首季比赛将交易选项限定为:买入(做多)、卖出(做空)、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行;Claude Sonnet 4.5几乎从不做空;在持仓时间上,不同模型持仓时间存在较大差异,其中Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃;Grok 4最不活跃;在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面,在开放式指令下,各模型设定的止损/止盈规则差异明显:多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄;Grok 4与DeepSeek V3.1则最宽;在持仓数量上,有些模型倾向于同时持有六个可用仓位中的大部分或全部;相比之下,Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中,发生了不少变幻莫测的事情,比如DeepSeek V3.1从10月26日起就不断保持最高盈利,吊打其他模型,但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5一路下滑,离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注:永续期货是一种允许进行多头(押注价格上涨)或空头(押注价格下跌)交易的合约,并可使用杠杆。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疑点太多!南博陈超当年被立刻枪决,更像是为了掩盖什么

疑点太多!南博陈超当年被立刻枪决,更像是为了掩盖什么

天气观察站
2025-12-30 19:10:01
脏到包浆、不堪入目!又一网红店跌落神坛,多位明星网红曾打卡

脏到包浆、不堪入目!又一网红店跌落神坛,多位明星网红曾打卡

品牌观察官
2025-12-30 17:28:27
广东两市民政、退役军人事务局合并,地方机构调整消息频传

广东两市民政、退役军人事务局合并,地方机构调整消息频传

澎湃新闻
2026-01-01 16:02:27
母亲将女儿寄养在保姆家后失联3年多,保姆:孩子已到上学年龄,盼其家人现身

母亲将女儿寄养在保姆家后失联3年多,保姆:孩子已到上学年龄,盼其家人现身

红星新闻
2025-12-31 22:14:45
罗振宇2026跨年演讲大火,主题为“1000天后的世界”,开播一个半小时各平台超2000万网友围观

罗振宇2026跨年演讲大火,主题为“1000天后的世界”,开播一个半小时各平台超2000万网友围观

极目新闻
2025-12-31 22:56:35
去你们的!马威爆粗正式回应被湖人退货:他们输了我确实幸灾乐祸

去你们的!马威爆粗正式回应被湖人退货:他们输了我确实幸灾乐祸

罗说NBA
2026-01-01 07:44:49
5走5留!申花官宣5将离队,续约5大主力,下赛季打法已提前确定

5走5留!申花官宣5将离队,续约5大主力,下赛季打法已提前确定

体坛鉴春秋
2026-01-01 18:09:50
莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

莫言:夫妻能过就好好过,最好别离婚,你渐渐就会发现,跟谁过都是一个鬼样,或许更糟糕

北极星心理
2025-12-31 06:50:45
赖清德去向成谜?台军退将称:大陆飞机已进入台北,如入无人之境

赖清德去向成谜?台军退将称:大陆飞机已进入台北,如入无人之境

杰丝聊古今
2025-12-31 22:50:39
军演突破红线,他们的沉默,震耳欲聋

军演突破红线,他们的沉默,震耳欲聋

六爷阿旦
2025-12-31 17:27:57
风向变了!特朗普签涉台法案,暗示美国可动武,赖清德已准备窜美

风向变了!特朗普签涉台法案,暗示美国可动武,赖清德已准备窜美

瞳哥视界
2025-12-31 21:07:59
慢病报销大变天!6种病不用办卡,买药直接省一半

慢病报销大变天!6种病不用办卡,买药直接省一半

天天热点见闻
2026-01-01 06:24:10
输给拜仁,穆里尼奥和助教抱头痛哭

输给拜仁,穆里尼奥和助教抱头痛哭

体坛周报
2026-01-01 13:07:10
以色列布局索马里兰,一招绝杀胡塞武装

以色列布局索马里兰,一招绝杀胡塞武装

史政先锋
2026-01-01 09:37:45
采访中问留守儿童“为什么不吃肉”,被解读为“何不食肉糜”,鲁豫回应恶评和偏见

采访中问留守儿童“为什么不吃肉”,被解读为“何不食肉糜”,鲁豫回应恶评和偏见

观威海
2025-12-31 09:30:04
库里26+5三分连创历史第一勇士险胜黄蜂 米勒33分三球27分

库里26+5三分连创历史第一勇士险胜黄蜂 米勒33分三球27分

醉卧浮生
2026-01-01 05:58:11
从258斤到158斤,罗振宇十年瘦了100斤,网友:以前叫“罗胖”,现在叫什么?

从258斤到158斤,罗振宇十年瘦了100斤,网友:以前叫“罗胖”,现在叫什么?

极目新闻
2025-12-31 21:44:49
前国脚定居西班牙多年,卖5套房花费1000万,如今没有工作吃老本

前国脚定居西班牙多年,卖5套房花费1000万,如今没有工作吃老本

素衣读史
2025-12-30 18:06:27
浙江省高院常务副院长陈志君调任四川省高院党组书记

浙江省高院常务副院长陈志君调任四川省高院党组书记

澎湃新闻
2026-01-01 08:50:26
40岁退休,躺赢千亿:中国最“懒”顶级富豪,狠狠打了内卷一巴掌

40岁退休,躺赢千亿:中国最“懒”顶级富豪,狠狠打了内卷一巴掌

功夫财经
2025-12-13 10:03:14
2026-01-01 19:07:00
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
591224文章数 3586454关注度
往期回顾 全部

科技要闻

2026,冲刺商业航天第一股!

头条要闻

英国网红"打飞的"来北京看病 得知当天就能化验很惊讶

头条要闻

英国网红"打飞的"来北京看病 得知当天就能化验很惊讶

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跨年零点时刻好精彩!何炅飞奔拥抱

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

艺术
游戏
健康
公开课
军事航空

艺术要闻

砸23亿!抖音华南总部在琶洲动工!效果图抢先看

美哭了!《寂静岭f》发布新年贺图 JK女主太治愈

元旦举家出行,注意防流感

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

泽连斯基新年致辞:不要"乌克兰的终结"

无障碍浏览 进入关怀版