网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM自学成才变身「预言家」！预测未来能力大幅提升

2025-02-25 07:56:58　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：英智

【新智元导读】还在惊叹预言家的神奇？如今LLM也掌握了预测未来的「超能力」！研究人员通过自我博弈和直接偏好优化，让LLM摆脱人工数据依赖，大幅提升预测能力。

最近，有个爆火的话题：LLM学会教自己预测未来了！

像神秘的预言家一样，预测未来的天气、某部电影的票房成绩，甚至是股市走势，听起来是不是特别像科幻电影里的情节？

来自Lightning Rod Labs和伦敦政治经济学院的研究者对提升LLM预测未来的能力展开了研究。

论文链接：https://arxiv.org/abs/2502.05253

人类专家在预测时，会综合考量大量的信息，包括各种事实、发展趋势，以及相互矛盾的证据等，经过复杂的分析和思考，才能做出较为准确的预测。

在金融领域，准确的市场预测能够帮助投资者把握时机，做出明智的投资决策，实现财富的增长。

在商业领域，对市场需求和产品趋势的预测，能让企业提前布局，推出更受消费者欢迎的产品，占据市场优势。

为了提升LLM的预测能力，科研人员进行了诸多尝试，采用了数据聚合、新闻检索、模型微调等多种方法。

这些方法在一定程度上确实提高了模型的预测性能，但它们存在一个共同的问题——过度依赖人工整理的数据。

比如，需要借助最新的大众预测结果，或者依赖人工筛选的内容。而且，模型往往无法从已经确定结果的事件中学习经验，实现自我提升。

获取人工数据成本高昂，效率也较低，使得模型难以持续学习和进步。

LLM的「自学秘籍」

研究人员提出了一个结果驱动的微调框架，让LLM能够摆脱对人工输入的过度依赖，通过自我学习来提升预测能力。

让模型「自我博弈」，生成多样化推理轨迹和概率预测。根据这些推理预测与实际结果的接近程度，对推理组合进行排序。最后，利用直接偏好优化（DPO）技术对模型进行微调。

数据与新闻收集

研究人员从预测市场Polymarket收集了多达12100个具有二元结果的预测问题，像「奥特曼会参加总统就职典礼吗？」「FTX在2024年会停止付款吗？」。

研究者筛选数据，排除了那些结果不明确的问题，并将剩余数据划分为训练集和测试集。

训练集包含9800个问题，其结果在2024年7月1日至12月15日期间确定；测试集则有2300个问题，结果在2024年12月25日至2025年1月23日揭晓。

将事件未发生标记为「0」，发生标记为「1」。为了评估模型预测的准确性，研究人员引入了Brier分数（BS）这一指标，分数越低，代表预测越准确。

其中N代表预测问题数量。

在答案揭晓前14天，研究人员借助NewsCatcher API收集新闻。先通过GPT-4o生成搜索查询，再利用Newscatcher等外部新闻检索服务，对相关新闻进行聚合和处理。

这些新闻将为后续模型的自我学习和预测提供重要的支持。

模型Self-Play数据生成

研究者选用了Phi-4 14B和DeepSeek-R1 14B这两个模型。别看参数只有14B，在一般科学和编程基准测试中，表现十分出色。

研究人员让这两个模型针对每个问题进行推理，并给出最终的概率预测。

对于Phi-4 14B模型，采用scratchpad提示法，就像给它提供了一个草稿本，便于逐步展示推理过程。DeepSeek-R1 14B模型由于输出中已有标签，所以使用零样本提示法。

提示内容不仅有问题本身，还包含收集到的新闻摘要。每个问题都会生成一对推理轨迹，具体做法是先生成一个推理和预测，然后最多重新运行四次，以获得第二个不同的预测。若后续预测都相同，则舍弃这组预测。

最终，为9427个预测问题，生成了18854条推理轨迹。

基于结果的重新排序

生成推理轨迹和预测结果后，需要根据预测与实际结果的接近程度进行重新排序。

研究人员定义了一个排序指标，通过计算预测概率与实际结果的绝对差值来衡量两者的接近程度。

例如，若实际结果为0，一个预测概率是4%，另一个是8%，那么概率为4%的预测推理轨迹排名更高。这样，模型就知道哪些推理方式能带来更准确的预测。

此外，为了排除新闻聚合信息对排序的影响，研究人员还微调了一组标签随机化的控制模型，通过对比，来确定模型的学习效果是否源于更准确的预测依据。

直接偏好优化（DPO）微调

研究人员使用直接偏好优化（DPO）方法对Phi-4 14B和DeepSeek-R1 14B进行微调。

这种方法无需训练单独的奖励模型，而是直接从模型自我博弈生成的排序推理对中学习奖励信号。即使单个预测并不完美，DPO也能通过成对比较，发现预测之间的细微质量差异，系统地纠正偏差。

与传统的监督微调（SFT）相比，SFT依赖人工挑选的示例，并视其为完全正确，容易丢弃有价值的信息。DPO则能从所有样本中学习，显著提高了微调过程的稳健性和效率。

在微调过程中，研究人员使用LoRA适配器，对参数进行了精心调整，如设置合适的学习率、使用AdamW优化器、采用BF16混合精度等，用8个H100 GPU训练。

Phi-4 14B在第五轮训练时效果趋于稳定，而DeepSeek-R1 14B在第四轮就达到了稳定状态。

最后，用一个包含2300个问题的测试集来检验模型的学习成果。

这个测试集的问题结果在训练集最后一个问题结果出来10天后才揭晓，确保微调后的模型没有接触过与测试集相关的新闻信息，以免影响测试结果。

每个模型都以原始基础模型、使用正确结果微调的模型，以及使用随机结果微调的对照模型这三个版本参与测试。这样可以清晰地区分模型的学习效果是源于接触新信息，还是优化推理过程。

在测试时，针对不同模型设计了特定的提示。Phi-4 14B模型的提示就像一份详细的任务指南，引导它逐步思考。DeepSeek-R1 14B模型则被设定为专家角色，直接进行预测。

两个模型都会获得问题、问题背景、判断标准、当前日期、问题截止日期以及最多10篇新闻文章的摘要等信息。

最终，收集了每个模型对2300个问题的预测结果，模型均给出了有效的预测。

预测能力大幅提升

经过这一系列操作，Phi-4 14B和DeepSeek-R1 14的预测准确性有了显著提升。

Phi-4 14B和DeepSeek-R1 14B的预测准确率，比基础模型以及用DPO微调但标签随机化的对照模型提高了7-10%，在预测能力上能与GPT-4o这样的大型模型相媲美。

图中展示了每个模型的Brier分数核密度估计，较低的Brier分数表示较高的准确性。

Phi-4 14B微调后的平均Brier分数达到0.200，优于随机标签的对照模型（0.214）和基础模型（0.221）。DeepSeek-R1 14B微调后的平均Brier分数为0.197，同样超过了其对照模型（0.212）和基础模型（0.212）。

通过独立样本t检验发现，两个微调后的模型在预测准确性上都显著优于各自的基础和对照模型，并且在经过多重比较调整p值后，这一结论依然成立。

充分证明了该方法能够切实有效地提升模型的预测性能，而且这种提升并非源于微调时接触的额外信息。

与前沿模型GPT-4o相比，Phi-4 14B和DeepSeek-R1 14B虽然参数较少，但微调后的预测性能却与之相当。

在统计检验中，微调后的模型与GPT-4o之间没有显著差异。

进一步分析模型在不同问题上的预测准确性分布，可以发现微调后的模型虽然偶尔会出现一些准确性极低的预测（Brier分数高于0.5），但同时也能做出更多极其准确的预测（Brier分数低于0.05）。

以DeepSeek-R1 14B为例，微调后的模型有8.52%的问题Brier分数高于0.5，略高于基础模型（7.48%）和对照模型（7.61%）；但有32.78%的问题Brier分数低于 0.05，远高于基础模型（23.22%）和对照模型（23.13%），Phi-4 14B也呈现出类似的趋势。

这项研究为LLM提升预测能力开辟了新的道路。

通过自我博弈和直接偏好优化，LLM能在不依赖大量人工标注数据的情况下，从实际结果中学习并改进预测，使小模型也能达到与大模型相媲美的性能，极大地提高了实用性和应用范围。

参考资料：

https://arxiv.org/abs/2502.05253

https://news.ycombinator.com/item?id=43014918

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

广西17岁少年清晨5点起床拔花生，拔到一半发现错拔别人家的地，发帖求助却被疯狂点赞，当事人：对方没有怪我，还说要请我吃饭

大象新闻 2026-07-01 22:46:58
2348 跟贴 2348
上海一百万豪车停在地库竟被"蚂蚁搬家式”拆光卖了

大风新闻 2026-07-01 15:38:10
1631 跟贴 1631

开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1827 跟贴 1827

当地华人讲述法国高温：中国空调一机难求，有人为抢购空调打起来，安装已排到9月

潇湘晨报 2026-06-29 21:36:19
8650 跟贴 8650
义乌9.42平方米商铺拍出1700万元，仅含使用权且只能经营饰品，商城：位置好人流量高

极目新闻 2026-07-01 18:30:15
6896 跟贴 6896

心有不满？谢尔基赛后拒绝与法国队主帅德尚握手豪言要“横扫所有对手”的他4战仅出场55分钟

红星新闻 2026-07-01 13:38:12
245 跟贴 245

王毅同美国国务卿鲁比奥通电话

新华社 2026-07-01 22:15:02
67 跟贴 67
今年我国首个台风来了

界面新闻 2026-07-01 16:45:31
384 跟贴 384

詹姆斯结束8年湖人队生涯，潜在下家曝光；美国体育评论员：他离开不是因为钱，而是感到不被尊重

鲁中晨报 2026-07-01 14:30:03
649 跟贴 649
媒体：乌军更能打了掌握"有效打法"跟俄打得有来有回

中国新闻周刊 2026-07-01 22:57:06
38 跟贴 38
中方呼吁国际社会加大对近东救济工程处支持力度

齐鲁壹点 2026-07-01 10:17:06
2709 跟贴 2709
美贸易代表：美国决定不续签美墨加协定

极目新闻 2026-07-02 00:26:37
213 跟贴 213
湖南一地试点：小学入学可直升高中

澎湃新闻 2026-07-01 13:54:06
360 跟贴 360
外国女孩模仿挪威球员哈兰德惟妙惟肖，网友直呼“太逼真”

潇湘晨报 2026-07-01 16:17:13
68 跟贴 68
微软计划裁员数千人，涉及销售、咨询、游戏部门

澎湃新闻 2026-07-01 15:24:27
76 跟贴 76
河北一景区山顶矿泉水售价1元被赞“良心”，景区：成本价远高于1元售价，没想过靠卖水赚钱

都市快报橙柿互动 2026-07-02 04:17:54
20 跟贴 20
周鸿祎：中国必须拥有自己的Mythos

看看新闻Knews 2026-07-01 10:48:03
373 跟贴 373
7月1日起，江苏最低生活保障标准上调

现代快报 2026-07-01 22:25:03
64 跟贴 64
广西来宾发生一起车祸，警方深夜通报：重型半挂牵引车与小型普通客车发生碰撞，导致4人死亡，2人受伤

都市快报橙柿互动 2026-07-02 07:38:08
0 跟贴 0

打破名校光环！985、211投档线出现严重倒挂：不少985不敌头部211

打破名校光环！985、211投档线出现严重倒挂：不少985不敌头部211

王姐懒人家常菜

2026-07-02 04:11:52

比赛还剩3天，阿根廷先迎来一个超级大喜讯，取胜佛得角彻底稳了

比赛还剩3天，阿根廷先迎来一个超级大喜讯，取胜佛得角彻底稳了

零度眼看球

2026-07-01 09:08:01

熬过2次世界大战和20任总统后，141岁的巨龟被美国动物园安乐死

熬过2次世界大战和20任总统后，141岁的巨龟被美国动物园安乐死

狸猫之一的动物圈

2026-06-28 10:52:53

世界杯7位主帅下课！科曼创耻辱，德国少帅不辞职等1400万解约金

世界杯7位主帅下课！科曼创耻辱，德国少帅不辞职等1400万解约金

小火箭爱体育

2026-07-01 16:46:27

女超人票房史诗级扑街 5大原因深度解析

女超人票房史诗级扑街 5大原因深度解析

自愈小日子

2026-06-30 01:11:42

我给局长开了3年车，并娶了他的地下情人，新婚夜我才知道赚大了

我给局长开了3年车，并娶了他的地下情人，新婚夜我才知道赚大了

千秋文化

2026-06-26 20:00:22

2年1300万+底薪捡漏，火箭两大新援太超值！精打细算解决伊森难题

2年1300万+底薪捡漏，火箭两大新援太超值！精打细算解决伊森难题

锅子篮球

2026-07-02 01:52:06

热疯了的欧洲，最后等来了两家中国公司

热疯了的欧洲，最后等来了两家中国公司

金角财经

2026-07-01 17:36:06

欠税39.5元！美妆博主程十安停更三年回归涨粉

欠税39.5元！美妆博主程十安停更三年回归涨粉

情感大头说说

2026-07-01 15:45:39

世界杯巨大争议！凯恩禁区倒地被吹跳水，英格兰名宿当场吵翻！

世界杯巨大争议！凯恩禁区倒地被吹跳水，英格兰名宿当场吵翻！

奶盖熊本熊

2026-07-02 02:23:30

无锡羊尖镇一个轰鸣了十四年的电动自行车老厂，突然宣布拉下电闸

无锡羊尖镇一个轰鸣了十四年的电动自行车老厂，突然宣布拉下电闸

生活新鲜市

2026-07-01 15:56:31

马国明汤洛雯现身金钟，身形变化引猜测，家人举动透露端倪

马国明汤洛雯现身金钟，身形变化引猜测，家人举动透露端倪

不太爱笑的小羊

2026-06-30 13:37:12

别笑梅威瑟破产，他的死局，90%的有钱人都逃不掉！

别笑梅威瑟破产，他的死局，90%的有钱人都逃不掉！

格斗时代

2026-06-30 20:34:39

0-2落后绝不认输！女排五局死磕美国惊天逆转，看得人热泪盈眶

0-2落后绝不认输！女排五局死磕美国惊天逆转，看得人热泪盈眶

野渡舟山人

2026-07-02 00:08:02

韩国球迷怒骂滚出去！洪明甫被护送出境，入境大厅仅停留2分钟

韩国球迷怒骂滚出去！洪明甫被护送出境，入境大厅仅停留2分钟

史智文道

2026-07-01 17:20:21

中方呼吁国际社会加大对近东救济工程处支持力度

中方呼吁国际社会加大对近东救济工程处支持力度

齐鲁壹点

2026-07-01 10:17:06

日大使求见面吃闭门羹！近9000航班取消，高市早苗不道歉别想谈！

日大使求见面吃闭门羹！近9000航班取消，高市早苗不道歉别想谈！

叮当当科技

2026-07-01 17:41:09

德布劳内：只要我和卢卡库还在，我们就不会允许比利时沉沦

德布劳内：只要我和卢卡库还在，我们就不会允许比利时沉沦

懂球帝

2026-07-02 04:20:07

南极传来两个消息，科学家集体沉默：人类的努力，正在失去意义

南极传来两个消息，科学家集体沉默：人类的努力，正在失去意义

小豫讲故事

2026-06-29 06:00:19

兄弟篮球无了！Shams：大瓦格纳2年1900万美元签约篮网

兄弟篮球无了！Shams：大瓦格纳2年1900万美元签约篮网

懂球帝

2026-07-01 23:33:09

AI产业主平台领航智能+时代

15581文章数 66943关注度

往期回顾全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

媒体：乌军更能打了掌握"有效打法"跟俄打得有来有回

头条要闻

媒体：乌军更能打了掌握"有效打法"跟俄打得有来有回

体育要闻

卖球衣救子的门将，把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产，清贫独居坚持月捐

财经要闻

新氧贷款：宣传年化15%，实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

时尚

健康

游戏

家居

旅游要闻

腾冲荷花镇：返乡青年筑起“归雁”新巢“温泉+”带火滇西小镇！

月入3万，时代红利砸向文科生

年糕汤圆别油炸，水煮清蒸更健康

《龙腾世纪》开发者称生成式AI是祸害:技术远未成熟

家居要闻

传奇筑日常诗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版