网易首页 > 网易号 > 正文 申请入驻

LLM自学成才变身「预言家」!预测未来能力大幅提升

0
分享至

新智元报道

编辑:英智

【新智元导读】还在惊叹预言家的神奇?如今LLM也掌握了预测未来的「超能力」!研究人员通过自我博弈和直接偏好优化,让LLM摆脱人工数据依赖,大幅提升预测能力。

最近,有个爆火的话题:LLM学会教自己预测未来了!

像神秘的预言家一样,预测未来的天气、某部电影的票房成绩,甚至是股市走势,听起来是不是特别像科幻电影里的情节?

来自Lightning Rod Labs和伦敦政治经济学院的研究者对提升LLM预测未来的能力展开了研究。

论文链接:https://arxiv.org/abs/2502.05253

人类专家在预测时,会综合考量大量的信息,包括各种事实、发展趋势,以及相互矛盾的证据等,经过复杂的分析和思考,才能做出较为准确的预测。

在金融领域,准确的市场预测能够帮助投资者把握时机,做出明智的投资决策,实现财富的增长。

在商业领域,对市场需求和产品趋势的预测,能让企业提前布局,推出更受消费者欢迎的产品,占据市场优势。

为了提升LLM的预测能力,科研人员进行了诸多尝试,采用了数据聚合、新闻检索、模型微调等多种方法。

这些方法在一定程度上确实提高了模型的预测性能,但它们存在一个共同的问题——过度依赖人工整理的数据。

比如,需要借助最新的大众预测结果,或者依赖人工筛选的内容。而且,模型往往无法从已经确定结果的事件中学习经验,实现自我提升。

获取人工数据成本高昂,效率也较低,使得模型难以持续学习和进步。

LLM的「自学秘籍」

研究人员提出了一个结果驱动的微调框架,让LLM能够摆脱对人工输入的过度依赖,通过自我学习来提升预测能力。

让模型「自我博弈」,生成多样化推理轨迹和概率预测。根据这些推理预测与实际结果的接近程度,对推理组合进行排序。最后,利用直接偏好优化(DPO)技术对模型进行微调。

数据与新闻收集

研究人员从预测市场Polymarket收集了多达12100个具有二元结果的预测问题,像「奥特曼会参加总统就职典礼吗?」「FTX在2024年会停止付款吗?」。

研究者筛选数据,排除了那些结果不明确的问题,并将剩余数据划分为训练集和测试集。

训练集包含9800个问题,其结果在2024年7月1日至12月15日期间确定;测试集则有2300个问题,结果在2024年12月25日至2025年1月23日揭晓。

将事件未发生标记为「0」,发生标记为「1」。为了评估模型预测的准确性,研究人员引入了Brier分数(BS)这一指标,分数越低,代表预测越准确。

其中N代表预测问题数量。

在答案揭晓前14天,研究人员借助NewsCatcher API收集新闻。先通过GPT-4o生成搜索查询,再利用Newscatcher等外部新闻检索服务,对相关新闻进行聚合和处理。

这些新闻将为后续模型的自我学习和预测提供重要的支持。

模型Self-Play数据生成

研究者选用了Phi-4 14B和DeepSeek-R1 14B这两个模型。别看参数只有14B,在一般科学和编程基准测试中,表现十分出色。

研究人员让这两个模型针对每个问题进行推理,并给出最终的概率预测。

对于Phi-4 14B模型,采用scratchpad提示法,就像给它提供了一个草稿本,便于逐步展示推理过程。DeepSeek-R1 14B模型由于输出中已有 标签,所以使用零样本提示法。

提示内容不仅有问题本身,还包含收集到的新闻摘要。每个问题都会生成一对推理轨迹,具体做法是先生成一个推理和预测,然后最多重新运行四次,以获得第二个不同的预测。若后续预测都相同,则舍弃这组预测。

最终,为9427个预测问题,生成了18854条推理轨迹。

基于结果的重新排序

生成推理轨迹和预测结果后,需要根据预测与实际结果的接近程度进行重新排序。

研究人员定义了一个排序指标,通过计算预测概率与实际结果的绝对差值来衡量两者的接近程度。

例如,若实际结果为0,一个预测概率是4%,另一个是8%,那么概率为4%的预测推理轨迹排名更高。这样,模型就知道哪些推理方式能带来更准确的预测。

此外,为了排除新闻聚合信息对排序的影响,研究人员还微调了一组标签随机化的控制模型,通过对比,来确定模型的学习效果是否源于更准确的预测依据。

直接偏好优化(DPO)微调

研究人员使用直接偏好优化(DPO)方法对Phi-4 14B和DeepSeek-R1 14B进行微调。

这种方法无需训练单独的奖励模型,而是直接从模型自我博弈生成的排序推理对中学习奖励信号。即使单个预测并不完美,DPO也能通过成对比较,发现预测之间的细微质量差异,系统地纠正偏差。

与传统的监督微调(SFT)相比,SFT依赖人工挑选的示例,并视其为完全正确,容易丢弃有价值的信息。DPO则能从所有样本中学习,显著提高了微调过程的稳健性和效率。

在微调过程中,研究人员使用LoRA适配器,对参数进行了精心调整,如设置合适的学习率、使用AdamW优化器、采用BF16混合精度等,用8个H100 GPU训练。

Phi-4 14B在第五轮训练时效果趋于稳定,而DeepSeek-R1 14B在第四轮就达到了稳定状态。

最后,用一个包含2300个问题的测试集来检验模型的学习成果。

这个测试集的问题结果在训练集最后一个问题结果出来10天后才揭晓,确保微调后的模型没有接触过与测试集相关的新闻信息,以免影响测试结果。

每个模型都以原始基础模型、使用正确结果微调的模型,以及使用随机结果微调的对照模型这三个版本参与测试。这样可以清晰地区分模型的学习效果是源于接触新信息,还是优化推理过程。

在测试时,针对不同模型设计了特定的提示。Phi-4 14B模型的提示就像一份详细的任务指南,引导它逐步思考。DeepSeek-R1 14B模型则被设定为专家角色,直接进行预测。

两个模型都会获得问题、问题背景、判断标准、当前日期、问题截止日期以及最多10篇新闻文章的摘要等信息。

最终,收集了每个模型对2300个问题的预测结果,模型均给出了有效的预测。

预测能力大幅提升

经过这一系列操作,Phi-4 14B和DeepSeek-R1 14的预测准确性有了显著提升。

Phi-4 14B和DeepSeek-R1 14B的预测准确率,比基础模型以及用DPO微调但标签随机化的对照模型提高了7-10%,在预测能力上能与GPT-4o这样的大型模型相媲美。

图中展示了每个模型的Brier分数核密度估计,较低的Brier分数表示较高的准确性。

Phi-4 14B微调后的平均Brier分数达到0.200,优于随机标签的对照模型(0.214)和基础模型(0.221)。DeepSeek-R1 14B微调后的平均Brier分数为0.197,同样超过了其对照模型(0.212)和基础模型(0.212)。

通过独立样本t检验发现,两个微调后的模型在预测准确性上都显著优于各自的基础和对照模型,并且在经过多重比较调整p值后,这一结论依然成立。

充分证明了该方法能够切实有效地提升模型的预测性能,而且这种提升并非源于微调时接触的额外信息。

与前沿模型GPT-4o相比,Phi-4 14B和DeepSeek-R1 14B虽然参数较少,但微调后的预测性能却与之相当。

在统计检验中,微调后的模型与GPT-4o之间没有显著差异。

进一步分析模型在不同问题上的预测准确性分布,可以发现微调后的模型虽然偶尔会出现一些准确性极低的预测(Brier分数高于0.5),但同时也能做出更多极其准确的预测(Brier分数低于0.05)。

以DeepSeek-R1 14B为例,微调后的模型有8.52%的问题Brier分数高于0.5,略高于基础模型(7.48%)和对照模型(7.61%);但有32.78%的问题Brier分数低于 0.05,远高于基础模型(23.22%)和对照模型(23.13%),Phi-4 14B也呈现出类似的趋势。

这项研究为LLM提升预测能力开辟了新的道路。

通过自我博弈和直接偏好优化,LLM能在不依赖大量人工标注数据的情况下,从实际结果中学习并改进预测,使小模型也能达到与大模型相媲美的性能,极大地提高了实用性和应用范围。

参考资料:

https://arxiv.org/abs/2502.05253

https://news.ycombinator.com/item?id=43014918

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你还别说,陈建斌还挺有力气的,腰部力量还是很强的

你还别说,陈建斌还挺有力气的,腰部力量还是很强的

解说阿洎
2026-04-28 18:17:23
提醒所有人!四月底务必抓紧自查,5月1号起严查落地没人能通融

提醒所有人!四月底务必抓紧自查,5月1号起严查落地没人能通融

芳姐侃社会
2026-04-30 18:30:07
李春平“世纪骗局”:没有百亿遗产,“承德文物盗卖案”与他有关

李春平“世纪骗局”:没有百亿遗产,“承德文物盗卖案”与他有关

百晓生谈历史
2026-04-26 10:13:06
一块主板卖3799,技嘉为什么敢用木头?

一块主板卖3799,技嘉为什么敢用木头?

全栈遛狗员
2026-04-29 16:56:45
属鸡人预警!不出5天,一生中最难缠的5个克星将出现,早看早准备

属鸡人预警!不出5天,一生中最难缠的5个克星将出现,早看早准备

阿龙美食记
2026-04-30 23:04:27
长安汽车巴西工厂投产:首台车型UNI-T下线,巴西总统卢拉致辞

长安汽车巴西工厂投产:首台车型UNI-T下线,巴西总统卢拉致辞

IT之家
2026-03-27 21:39:50
1975年,新疆建设兵团撤销,政委回京待命新工作,却等来退居二线

1975年,新疆建设兵团撤销,政委回京待命新工作,却等来退居二线

兴趣知识
2026-04-30 20:10:45
今日湖南卫视,爱奇艺2部新剧定档!众星云集,真正的爆款作品

今日湖南卫视,爱奇艺2部新剧定档!众星云集,真正的爆款作品

蹲坑看世界
2026-04-30 14:49:35
突发!闻泰科技 ST !

突发!闻泰科技 ST !

EETOP半导体社区
2026-04-30 11:56:07
清华女学霸被牛津录取,父亲看到女儿录取通知书,被女儿活活锤死

清华女学霸被牛津录取,父亲看到女儿录取通知书,被女儿活活锤死

清茶浅谈
2025-05-01 15:11:30
人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

霹雳炮
2025-12-08 22:03:16
雷军说“蔚来ES9代表国内最高水平”,是奉承吗?

雷军说“蔚来ES9代表国内最高水平”,是奉承吗?

好车推荐官
2026-04-29 18:58:09
经过伊朗这一战,中美之间可能至少50年内不会爆发战争

经过伊朗这一战,中美之间可能至少50年内不会爆发战争

流史岁月
2026-04-17 23:20:03
卡拉格:手球判罚给欧冠抹黑,本-怀特根本不该被判点球

卡拉格:手球判罚给欧冠抹黑,本-怀特根本不该被判点球

懂球帝
2026-04-30 09:39:24
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
大家今年穷到哪种程度了

大家今年穷到哪种程度了

细说职场
2026-04-28 20:50:52
“你画的红线,走不通”——伊朗内部那封被自己人捅出来的密信

“你画的红线,走不通”——伊朗内部那封被自己人捅出来的密信

民间胡扯老哥
2026-04-28 06:54:22
G5中的表现终于有些回暖了,活塞全明星中锋能否继续提升水准?

G5中的表现终于有些回暖了,活塞全明星中锋能否继续提升水准?

稻谷与小麦
2026-04-30 23:19:27
我去!哈登演了3个月好父亲!多1个私生子!网友:这品味登哥…

我去!哈登演了3个月好父亲!多1个私生子!网友:这品味登哥…

罗氏八卦
2026-04-30 18:30:03
世纪华通年营收379亿:净利56亿 同比增362% 拟投资60亿理财

世纪华通年营收379亿:净利56亿 同比增362% 拟投资60亿理财

雷递
2026-04-30 08:38:25
2026-05-01 00:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15103文章数 66823关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

本地
家居
游戏
艺术
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

家居要闻

灵动实用 生活艺术场

《星球大战》新作国区售价公开!确认有D加密

艺术要闻

耗资21亿的故宫北院,网友看后直摇头:怎么撞脸高铁站了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版