网易首页 > 网易号 > 正文 申请入驻

投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏

0
分享至

11月3日,历经两周操盘,首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中,nof1给6家领先的大模型各1万美元,全程无人类干预的情况下,让它们仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。

最终,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,盈利2232美元;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。



其余模型均呈现大幅亏损,其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损62.66%。


六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断,它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中,主办方给每个模型发了1万美元,让它们在特定平台上无人为干预地进行交易,每个模型都必须处理量化数据,同时使用提供的数值数据进行系统性交易,在整个交易过程中模型也无法获得新闻或市场消息。

主办方称,第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外,其他模型均启用最高可配置的推理设置,同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作,首季比赛将交易选项限定为:买入(做多)、卖出(做空)、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行;Claude Sonnet 4.5几乎从不做空;在持仓时间上,不同模型持仓时间存在较大差异,其中Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃;Grok 4最不活跃;在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面,在开放式指令下,各模型设定的止损/止盈规则差异明显:多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄;Grok 4与DeepSeek V3.1则最宽;在持仓数量上,有些模型倾向于同时持有六个可用仓位中的大部分或全部;相比之下,Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中,发生了不少变幻莫测的事情,比如DeepSeek V3.1从10月26日起就不断保持最高盈利,吊打其他模型,但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5一路下滑,离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注:永续期货是一种允许进行多头(押注价格上涨)或空头(押注价格下跌)交易的合约,并可使用杠杆。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

芊芊之言
2025-11-04 00:10:09
喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

墨印斋
2025-09-22 10:00:58
向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

向全世界展示,中国是如何救援空间站宇航员的,美俄都没有这能力

讲者普拉斯
2025-11-05 20:51:42
巴基斯坦彻底炸锅,他们居然把“枭龙”战斗机的生产线全拍了出来

巴基斯坦彻底炸锅,他们居然把“枭龙”战斗机的生产线全拍了出来

百态人间
2025-11-06 05:35:03
国家出手了!倒查风暴席卷全国,释放什么信号?

国家出手了!倒查风暴席卷全国,释放什么信号?

保德全
2025-11-05 19:30:03
轰21脚输0-1!4连败后62岁穆帅破防再喷裁判:丑陋纵容药厂不道德

轰21脚输0-1!4连败后62岁穆帅破防再喷裁判:丑陋纵容药厂不道德

我爱英超
2025-11-06 07:30:55
三战打35铁+12失误!莫兰特深陷交易流言 美球迷列2换8方案坑火箭

三战打35铁+12失误!莫兰特深陷交易流言 美球迷列2换8方案坑火箭

颜小白的篮球梦
2025-11-06 11:37:14
湖南某三甲医院男副院长与女眼科主任的瓜

湖南某三甲医院男副院长与女眼科主任的瓜

吃瓜体
2025-11-06 09:22:47
网传B站拉黑某官方小号,就能屏蔽广告?80后遗老遗少尝试了一下

网传B站拉黑某官方小号,就能屏蔽广告?80后遗老遗少尝试了一下

雷凌老男孩
2025-11-05 11:19:03
24岁外卖骑手在家猝死,亲属称事发前感冒仍在跑单,涉事“外包”公司:事情正在处理中

24岁外卖骑手在家猝死,亲属称事发前感冒仍在跑单,涉事“外包”公司:事情正在处理中

红星新闻
2025-11-05 23:30:19
34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

世界体育圈
2025-11-06 09:29:25
10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

银河史记
2025-11-04 20:17:37
年羹尧,一个被历史低估的人物,他究竟有多残暴你可知道?

年羹尧,一个被历史低估的人物,他究竟有多残暴你可知道?

小豫讲故事
2025-11-06 06:00:03
6-1!斯诺克国锦赛决出首席8强:赵心童创纪录,斯佳辉饮恨德比战

6-1!斯诺克国锦赛决出首席8强:赵心童创纪录,斯佳辉饮恨德比战

刘姚尧的文字城堡
2025-11-05 17:03:13
恭喜杨瀚森,决战雷霆赛前收喜讯,开拓者主场出战时间或创新高

恭喜杨瀚森,决战雷霆赛前收喜讯,开拓者主场出战时间或创新高

二哥聊球
2025-11-06 09:30:35
小米员工晒地库被群嘲!3款同色YU7一字排开,网友:别尬演了

小米员工晒地库被群嘲!3款同色YU7一字排开,网友:别尬演了

公子麦少
2025-11-05 15:37:08
向佐女儿向芷,这漂亮的向家小公主,完美继承了妈妈郭碧婷的美貌

向佐女儿向芷,这漂亮的向家小公主,完美继承了妈妈郭碧婷的美貌

老吴教育课堂
2025-11-06 09:25:33
你听过最炸裂的八卦是什么?网友:慎看,否则看完都要洗眼睛哦

你听过最炸裂的八卦是什么?网友:慎看,否则看完都要洗眼睛哦

带你感受人间冷暖
2025-11-04 00:05:11
中国希望看到的一幕将发生,特朗普紧急发文,这一次他真的输不起

中国希望看到的一幕将发生,特朗普紧急发文,这一次他真的输不起

现代小青青慕慕
2025-11-05 09:05:21
2025-11-06 12:03:00
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
581486文章数 3585681关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

本地
数码
房产
健康
公开课

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

华为WATCH Ultimate 2官宣:11月7日10:08开启预售

房产要闻

江东,给你留「门」儿了!

超声探头会加重受伤情况吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版