网易首页 > 网易号 > 正文 申请入驻

LLM自学成才变身「预言家」!预测未来能力大幅提升

0
分享至

新智元报道

编辑:英智

【新智元导读】还在惊叹预言家的神奇?如今LLM也掌握了预测未来的「超能力」!研究人员通过自我博弈和直接偏好优化,让LLM摆脱人工数据依赖,大幅提升预测能力。

最近,有个爆火的话题:LLM学会教自己预测未来了!

像神秘的预言家一样,预测未来的天气、某部电影的票房成绩,甚至是股市走势,听起来是不是特别像科幻电影里的情节?

来自Lightning Rod Labs和伦敦政治经济学院的研究者对提升LLM预测未来的能力展开了研究。

论文链接:https://arxiv.org/abs/2502.05253

人类专家在预测时,会综合考量大量的信息,包括各种事实、发展趋势,以及相互矛盾的证据等,经过复杂的分析和思考,才能做出较为准确的预测。

在金融领域,准确的市场预测能够帮助投资者把握时机,做出明智的投资决策,实现财富的增长。

在商业领域,对市场需求和产品趋势的预测,能让企业提前布局,推出更受消费者欢迎的产品,占据市场优势。

为了提升LLM的预测能力,科研人员进行了诸多尝试,采用了数据聚合、新闻检索、模型微调等多种方法。

这些方法在一定程度上确实提高了模型的预测性能,但它们存在一个共同的问题——过度依赖人工整理的数据。

比如,需要借助最新的大众预测结果,或者依赖人工筛选的内容。而且,模型往往无法从已经确定结果的事件中学习经验,实现自我提升。

获取人工数据成本高昂,效率也较低,使得模型难以持续学习和进步。

LLM的「自学秘籍」

研究人员提出了一个结果驱动的微调框架,让LLM能够摆脱对人工输入的过度依赖,通过自我学习来提升预测能力。

让模型「自我博弈」,生成多样化推理轨迹和概率预测。根据这些推理预测与实际结果的接近程度,对推理组合进行排序。最后,利用直接偏好优化(DPO)技术对模型进行微调。

数据与新闻收集

研究人员从预测市场Polymarket收集了多达12100个具有二元结果的预测问题,像「奥特曼会参加总统就职典礼吗?」「FTX在2024年会停止付款吗?」。

研究者筛选数据,排除了那些结果不明确的问题,并将剩余数据划分为训练集和测试集。

训练集包含9800个问题,其结果在2024年7月1日至12月15日期间确定;测试集则有2300个问题,结果在2024年12月25日至2025年1月23日揭晓。

将事件未发生标记为「0」,发生标记为「1」。为了评估模型预测的准确性,研究人员引入了Brier分数(BS)这一指标,分数越低,代表预测越准确。

其中N代表预测问题数量。

在答案揭晓前14天,研究人员借助NewsCatcher API收集新闻。先通过GPT-4o生成搜索查询,再利用Newscatcher等外部新闻检索服务,对相关新闻进行聚合和处理。

这些新闻将为后续模型的自我学习和预测提供重要的支持。

模型Self-Play数据生成

研究者选用了Phi-4 14B和DeepSeek-R1 14B这两个模型。别看参数只有14B,在一般科学和编程基准测试中,表现十分出色。

研究人员让这两个模型针对每个问题进行推理,并给出最终的概率预测。

对于Phi-4 14B模型,采用scratchpad提示法,就像给它提供了一个草稿本,便于逐步展示推理过程。DeepSeek-R1 14B模型由于输出中已有 标签,所以使用零样本提示法。

提示内容不仅有问题本身,还包含收集到的新闻摘要。每个问题都会生成一对推理轨迹,具体做法是先生成一个推理和预测,然后最多重新运行四次,以获得第二个不同的预测。若后续预测都相同,则舍弃这组预测。

最终,为9427个预测问题,生成了18854条推理轨迹。

基于结果的重新排序

生成推理轨迹和预测结果后,需要根据预测与实际结果的接近程度进行重新排序。

研究人员定义了一个排序指标,通过计算预测概率与实际结果的绝对差值来衡量两者的接近程度。

例如,若实际结果为0,一个预测概率是4%,另一个是8%,那么概率为4%的预测推理轨迹排名更高。这样,模型就知道哪些推理方式能带来更准确的预测。

此外,为了排除新闻聚合信息对排序的影响,研究人员还微调了一组标签随机化的控制模型,通过对比,来确定模型的学习效果是否源于更准确的预测依据。

直接偏好优化(DPO)微调

研究人员使用直接偏好优化(DPO)方法对Phi-4 14B和DeepSeek-R1 14B进行微调。

这种方法无需训练单独的奖励模型,而是直接从模型自我博弈生成的排序推理对中学习奖励信号。即使单个预测并不完美,DPO也能通过成对比较,发现预测之间的细微质量差异,系统地纠正偏差。

与传统的监督微调(SFT)相比,SFT依赖人工挑选的示例,并视其为完全正确,容易丢弃有价值的信息。DPO则能从所有样本中学习,显著提高了微调过程的稳健性和效率。

在微调过程中,研究人员使用LoRA适配器,对参数进行了精心调整,如设置合适的学习率、使用AdamW优化器、采用BF16混合精度等,用8个H100 GPU训练。

Phi-4 14B在第五轮训练时效果趋于稳定,而DeepSeek-R1 14B在第四轮就达到了稳定状态。

最后,用一个包含2300个问题的测试集来检验模型的学习成果。

这个测试集的问题结果在训练集最后一个问题结果出来10天后才揭晓,确保微调后的模型没有接触过与测试集相关的新闻信息,以免影响测试结果。

每个模型都以原始基础模型、使用正确结果微调的模型,以及使用随机结果微调的对照模型这三个版本参与测试。这样可以清晰地区分模型的学习效果是源于接触新信息,还是优化推理过程。

在测试时,针对不同模型设计了特定的提示。Phi-4 14B模型的提示就像一份详细的任务指南,引导它逐步思考。DeepSeek-R1 14B模型则被设定为专家角色,直接进行预测。

两个模型都会获得问题、问题背景、判断标准、当前日期、问题截止日期以及最多10篇新闻文章的摘要等信息。

最终,收集了每个模型对2300个问题的预测结果,模型均给出了有效的预测。

预测能力大幅提升

经过这一系列操作,Phi-4 14B和DeepSeek-R1 14的预测准确性有了显著提升。

Phi-4 14B和DeepSeek-R1 14B的预测准确率,比基础模型以及用DPO微调但标签随机化的对照模型提高了7-10%,在预测能力上能与GPT-4o这样的大型模型相媲美。

图中展示了每个模型的Brier分数核密度估计,较低的Brier分数表示较高的准确性。

Phi-4 14B微调后的平均Brier分数达到0.200,优于随机标签的对照模型(0.214)和基础模型(0.221)。DeepSeek-R1 14B微调后的平均Brier分数为0.197,同样超过了其对照模型(0.212)和基础模型(0.212)。

通过独立样本t检验发现,两个微调后的模型在预测准确性上都显著优于各自的基础和对照模型,并且在经过多重比较调整p值后,这一结论依然成立。

充分证明了该方法能够切实有效地提升模型的预测性能,而且这种提升并非源于微调时接触的额外信息。

与前沿模型GPT-4o相比,Phi-4 14B和DeepSeek-R1 14B虽然参数较少,但微调后的预测性能却与之相当。

在统计检验中,微调后的模型与GPT-4o之间没有显著差异。

进一步分析模型在不同问题上的预测准确性分布,可以发现微调后的模型虽然偶尔会出现一些准确性极低的预测(Brier分数高于0.5),但同时也能做出更多极其准确的预测(Brier分数低于0.05)。

以DeepSeek-R1 14B为例,微调后的模型有8.52%的问题Brier分数高于0.5,略高于基础模型(7.48%)和对照模型(7.61%);但有32.78%的问题Brier分数低于 0.05,远高于基础模型(23.22%)和对照模型(23.13%),Phi-4 14B也呈现出类似的趋势。

这项研究为LLM提升预测能力开辟了新的道路。

通过自我博弈和直接偏好优化,LLM能在不依赖大量人工标注数据的情况下,从实际结果中学习并改进预测,使小模型也能达到与大模型相媲美的性能,极大地提高了实用性和应用范围。

参考资料:

https://arxiv.org/abs/2502.05253

https://news.ycombinator.com/item?id=43014918

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“取消双休”登上热搜!行内人警告:公务员不是焦点,你在劫难逃

“取消双休”登上热搜!行内人警告:公务员不是焦点,你在劫难逃

行走的知识库
2025-11-18 09:15:22
雷佳音西班牙度假被偶遇,在马德里投资买房,快1年没拍戏好悠闲

雷佳音西班牙度假被偶遇,在马德里投资买房,快1年没拍戏好悠闲

娱圈小愚
2025-11-18 10:58:18
医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

感觉会火
2025-11-17 12:13:41
结婚8年妻子花光116万积蓄,其中67万打赏男主播,丈夫痛哭:不爱了,她耐不住寂寞

结婚8年妻子花光116万积蓄,其中67万打赏男主播,丈夫痛哭:不爱了,她耐不住寂寞

大风新闻
2025-11-18 09:58:09
山西血案中的生死抉择:姐姐一句“别回来”,如何守住全家平安?

山西血案中的生死抉择:姐姐一句“别回来”,如何守住全家平安?

记录生活日常阿蜴
2025-11-17 13:20:49
已经退休的“飞天将军”聂海胜,如今过着怎样的生活?

已经退休的“飞天将军”聂海胜,如今过着怎样的生活?

粤语音乐喷泉
2025-11-04 07:20:43
大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

军机Talk
2025-11-17 10:13:09
家里托关系找的工作有多抽象?网友:真离谱,这是什么家人

家里托关系找的工作有多抽象?网友:真离谱,这是什么家人

解读热点事件
2025-11-14 00:10:03
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
1-7!意大利悬了,可遇三大苦主,世界杯附加赛首轮,只有5种选择

1-7!意大利悬了,可遇三大苦主,世界杯附加赛首轮,只有5种选择

嗨皮看球
2025-11-17 17:30:29
62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

诗意世界
2025-11-16 18:03:56
逾30万手大单封涨停!600319,重大资产重组预案出炉

逾30万手大单封涨停!600319,重大资产重组预案出炉

数据宝
2025-11-18 10:40:47
真没犯规?裁判回应哈登三分绝杀争议:格雷姆斯对他进行合法干扰

真没犯规?裁判回应哈登三分绝杀争议:格雷姆斯对他进行合法干扰

罗说NBA
2025-11-18 12:01:57
重庆铜梁爆炸案:凶手带炸药至茶馆致44死伤,麻将引发悲剧

重庆铜梁爆炸案:凶手带炸药至茶馆致44死伤,麻将引发悲剧

历来纵横
2025-11-18 11:52:58
血迹太空可见,苏丹这场大屠杀何以发生?

血迹太空可见,苏丹这场大屠杀何以发生?

新京报
2025-11-17 13:13:52
行程全剧终,沈伯洋返回台湾,下飞机后紧闭双眼,解放军四面围岛

行程全剧终,沈伯洋返回台湾,下飞机后紧闭双眼,解放军四面围岛

影孖看世界
2025-11-17 18:12:57
从“降职”到封神:他用万炮开路,把最差边军打成王牌尖刀部队

从“降职”到封神:他用万炮开路,把最差边军打成王牌尖刀部队

历来纵横
2025-11-18 11:31:54
据说特朗普突然要访华,背后原因令人震惊!

据说特朗普突然要访华,背后原因令人震惊!

福建平子
2025-11-18 07:59:19
外交部谈G20会议:李强总理没有会见日方领导人的安排

外交部谈G20会议:李强总理没有会见日方领导人的安排

澎湃新闻
2025-11-17 15:30:27
丰田将旗舰车型生命周期延长至9年,未来专注于软件更新

丰田将旗舰车型生命周期延长至9年,未来专注于软件更新

观察者网
2025-11-17 18:33:05
2025-11-18 15:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13895文章数 66259关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

健康
房产
游戏
数码
时尚

警惕超声报告这六大"坑"

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

《命运石之门 RE:BOOT》延期至明年发售 更多细节将公开

数码要闻

Noctua预热黑化新品,预计为chromax.black版NH-D15 G2风冷

大风降温,就穿羊羔毛!

无障碍浏览 进入关怀版