网易首页 > 网易号 > 正文 申请入驻

投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏

0
分享至

11月3日,历经两周操盘,首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中,nof1给6家领先的大模型各1万美元,全程无人类干预的情况下,让它们仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。

最终,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,盈利2232美元;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。



其余模型均呈现大幅亏损,其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损62.66%。


六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断,它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中,主办方给每个模型发了1万美元,让它们在特定平台上无人为干预地进行交易,每个模型都必须处理量化数据,同时使用提供的数值数据进行系统性交易,在整个交易过程中模型也无法获得新闻或市场消息。

主办方称,第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外,其他模型均启用最高可配置的推理设置,同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作,首季比赛将交易选项限定为:买入(做多)、卖出(做空)、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行;Claude Sonnet 4.5几乎从不做空;在持仓时间上,不同模型持仓时间存在较大差异,其中Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃;Grok 4最不活跃;在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面,在开放式指令下,各模型设定的止损/止盈规则差异明显:多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄;Grok 4与DeepSeek V3.1则最宽;在持仓数量上,有些模型倾向于同时持有六个可用仓位中的大部分或全部;相比之下,Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中,发生了不少变幻莫测的事情,比如DeepSeek V3.1从10月26日起就不断保持最高盈利,吊打其他模型,但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5一路下滑,离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注:永续期货是一种允许进行多头(押注价格上涨)或空头(押注价格下跌)交易的合约,并可使用杠杆。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

靠谱电影君
2026-02-17 20:53:41
“谁给王菲画的眉毛”登上热搜,女儿窦靖童发文“挖嘞个亲娘”

“谁给王菲画的眉毛”登上热搜,女儿窦靖童发文“挖嘞个亲娘”

仙味少女心
2026-02-17 12:13:27
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
单日票房不如《熊出没》,看完吴京新片《镖人》,我心情复杂

单日票房不如《熊出没》,看完吴京新片《镖人》,我心情复杂

晴晴的娱乐日记
2026-02-18 06:35:06
中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

上游新闻
2026-02-17 20:22:05
A股:大家要系好安全带了,从节后2月24日起,股市或将再次重演历史!

A股:大家要系好安全带了,从节后2月24日起,股市或将再次重演历史!

股市皆大事
2026-02-18 13:09:45
做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

她时尚丫
2026-02-17 21:56:13
飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

飞虎队”再现乌克兰天空,美国撕下面具强行干涉匈牙利大选

史政先锋
2026-02-17 20:22:20
姆巴佩:这种球员不配再踢欧冠,他算不上我的同行

姆巴佩:这种球员不配再踢欧冠,他算不上我的同行

懂球帝
2026-02-18 07:32:11
208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

封面新闻
2026-02-17 15:47:18
大地震!华子被交易去东部!阿杜终于有根了!

大地震!华子被交易去东部!阿杜终于有根了!

贵圈真乱
2026-02-18 12:13:19
美395 对 2 压倒性通过,不准武力收台,否则将中方踢出国际体系

美395 对 2 压倒性通过,不准武力收台,否则将中方踢出国际体系

议纪史
2026-02-17 13:25:06
今年春节,真的很反常...

今年春节,真的很反常...

清书先生
2026-02-17 16:03:21
李琰教练:带队就是要争冠军的,不争冠军我们来干嘛呢?

李琰教练:带队就是要争冠军的,不争冠军我们来干嘛呢?

懂球帝
2026-02-18 10:33:04
倪萍:父亲到死我都没喊他一声“爸”,母亲的仇恨教育刻骨铭心

倪萍:父亲到死我都没喊他一声“爸”,母亲的仇恨教育刻骨铭心

白面书誏
2025-11-22 17:18:59
春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

大象新闻
2026-02-17 22:43:05
冯小刚夫妻美国陪养女过年!徐帆忙着炒菜包饺子,豪宅内景很破旧

冯小刚夫妻美国陪养女过年!徐帆忙着炒菜包饺子,豪宅内景很破旧

社会日日鲜
2026-02-17 08:08:09
天后老矣!王菲被骂上热搜,歌词曲皆非佳作,唱功掉线,堪称最差

天后老矣!王菲被骂上热搜,歌词曲皆非佳作,唱功掉线,堪称最差

火山詩话
2026-02-17 08:08:50
大量持金的人要哭了!大年初一金价开始大幅下跌,一直跌到了1080

大量持金的人要哭了!大年初一金价开始大幅下跌,一直跌到了1080

火山詩话
2026-02-18 12:42:25
俄罗斯石油神话破灭:1.5亿桶原油在海上漂着!为什么卖不动了?

俄罗斯石油神话破灭:1.5亿桶原油在海上漂着!为什么卖不动了?

王爷说图表
2026-02-17 17:03:31
2026-02-18 15:27:00
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
598292文章数 3587274关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

媒体:中日在慕尼黑交锋后 新加坡总理"转向"

头条要闻

媒体:中日在慕尼黑交锋后 新加坡总理"转向"

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

教育
时尚
家居
亲子
数码

教育要闻

“新校长”应有的模样

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

孩子心口闷得慌是怎么回事呢?

数码要闻

小米REDMI Buds 8 Active活力版耳机曝光:满电续航37小时

无障碍浏览 进入关怀版