网易首页 > 网易号 > 正文 申请入驻

Lossfunk公司研究发现:AI预测未来的能力竟然如此参差不齐?

0
分享至

来源:市场资讯

(来源:科技行者)


这项由Lossfunk公司的Chinmay Karkar和Paras Chopra在2025年11月发表的研究揭示了一个令人意外的发现:大型语言模型在预测未来事件时表现极不稳定,其准确性完全取决于我们问什么以及怎么问。这项研究发表在arXiv平台,论文编号为2511.18394v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈到人工智能时,很多人会认为这些系统要么完全准确,要么完全错误。但Lossfunk的研究团队发现,现实远比这复杂得多。他们测试了包括GPT-5、Claude 3.7 Sonnet、DeepSeek-R1和GPT-4.1在内的多个顶尖AI模型,让它们预测真实世界中已经发生的事件,结果发现了一个让人着迷的现象:这些AI的预测能力就像一个挑食的美食家,在某些"菜品"上表现出色,在另一些上却完全失准。

研究团队从Polymarket、Metaculus和Manifold Markets等预测市场收集了大约10000个预测问题,这些问题涵盖了2025年1月到7月期间发生的各种事件。经过严格筛选,他们最终保留了392个高质量问题,平均分布在政治、娱乐、体育、技术、金融和地缘政治六个领域。这就像是为AI准备了一场全能考试,测试它们在不同知识领域的预测能力。

更有趣的是,研究人员还进行了一项对照实验:他们为每个问题添加了新闻背景信息,就像给考生提供额外的参考资料一样,然后观察这些信息如何影响AI的判断。结果却出人意料:有时候额外的信息确实帮助AI做出更准确的预测,但有时候这些信息反而让AI的表现变得更糟。

一、AI预测能力的"偏科"现象

研究结果显示,这些AI模型在不同领域的表现差异巨大,就像学生在不同科目上的成绩一样参差不齐。在地缘政治领域,Claude 3.7 Sonnet和GPT-5表现最为出色,准确率高达84%,这意味着在10个国际关系问题中,它们能准确预测约8个。相比之下,在金融领域,同样的模型准确率却大幅下降,有些甚至低至40%。

这种差异并非偶然现象。研究人员发现,AI在结构化程度较高的领域表现更好,比如政治选举和国际事务,因为这些领域往往有相对清晰的规律可循。而在变化更加随机的领域,如娱乐业的获奖预测或金融市场的短期波动,AI的表现就会显著下降。

以体育预测为例,大多数AI模型的准确率都在50%左右,这基本上相当于抛硬币的随机水平。这说明即使是最先进的AI系统,在面对充满不确定性的体育比赛时,也无法比随机猜测做得更好。然而,在政治预测方面,这些模型的表现就要好得多,特别是在预测选举结果和政策变化方面。

二、新闻信息的双刃剑效应

当研究人员为每个预测问题添加相关的新闻背景信息时,他们期望看到AI预测准确性的普遍提升。毕竟,更多的信息通常意味着更好的决策基础。然而,实验结果却呈现出复杂的画面:在某些领域,新闻信息确实显著提升了预测准确性,但在另一些领域,额外的信息反而成为了干扰因素。

在金融和体育领域,添加新闻背景后,AI模型的表现有了明显改善。这就像给一个投资顾问提供了最新的市场报告,或者给体育解说员提供了球员的最新伤病信息,使他们能够做出更加精准的判断。具体来说,某些模型在金融预测方面的准确率从56%提升到了68%,这是一个相当可观的改进。

然而,在娱乐和技术领域,新闻信息的加入却产生了相反的效果。一些原本表现不错的模型,在获得额外信息后准确率反而下降了。这种现象让研究人员深入思考:为什么更多的信息有时候会让AI变得更加困惑?

三、AI预测失误的三种典型模式

通过深入分析AI模型的推理过程,研究团队识别出了三种主要的失误模式,这些模式解释了为什么添加新闻信息有时会适得其反。

第一种失误模式被称为"近期偏见"。AI模型往往会过分重视最近发生的事件,而忽略长期的历史趋势。研究人员举了一个生动的例子:当预测标普500指数是否会在6月13日突破6050点时,没有新闻背景的AI基于历史数据和技术分析,理性地判断这种突破不太可能发生,给出了"不会"的正确预测。但是,当同一个AI看到了几天前关于股市"创历史新高"和"策略师上调目标"的新闻后,它立刻改变了立场,过度乐观地预测会突破,结果预测错误。这就像一个人因为昨天的好天气就认为今天也会阳光明媚,忽略了天气预报显示的降雨概率。

第二种失误模式是"传言过度加权"。AI模型有时会把新闻中的推测和可能性当作既定事实来处理。在预测中国关税是否会超过150%的问题上,原本谨慎的AI基于政策实施的复杂性给出了"不会"的正确答案。但在阅读了一些提及关税"可能"上涨到150%的新闻后,AI却将这些推测性报道视为确凿信息,改变了预测结果。这种行为类似于一个人听到邻居说"可能会下雨"就立刻决定取消野餐计划,而不是查看实际的天气预报。

第三种失误模式是"定义漂移"。当新闻信息中出现缩写词或专业术语时,AI有时会误解其含义,导致预测偏差。一个典型例子是关于"MATS申请是否会在3月开放"的预测。原本,AI正确理解MATS是一个定期开放申请的学术项目,预测申请会在3月开放。但在接触到新闻信息后,AI被大量关于"Mid-America Trucking Show"(也简称MATS)的报道误导,错误地将问题理解为关于卡车展览的注册开放时间,从而给出了错误的预测。

四、不同AI模型的独特表现特征

研究还发现,不同的AI模型在处理预测任务时展现出截然不同的"性格特征"。GPT-5和Claude 3.7 Sonnet在结构化领域如地缘政治和政治预测方面表现最为稳定,它们似乎更善于处理有明确规律和逻辑的问题。这两个模型的校准能力也相对较好,意味着它们对自己预测的把握程度与实际准确性更加匹配。

相比之下,DeepSeek-R1和GPT-4.1在处理娱乐和技术领域的问题时表现出更高的不确定性。特别值得注意的是,DeepSeek-R1在整个实验过程中都拒绝提供详细的推理过程,即使研究人员明确要求它解释自己的思考逻辑。这个模型只会输出最终的预测结果和置信度分数,但不会说明是如何得出这些结论的。这种"黑盒"特性让研究人员无法深入了解其决策机制。

在处理新闻信息时,各个模型的反应也大不相同。一些模型在获得额外信息后变得更加保守,降低了预测的置信度;而另一些模型则变得更加自信,有时甚至过于自信。这种差异反映了不同AI系统在信息整合和不确定性评估方面的根本差异。

五、研究方法的创新之处

这项研究在方法上有几个重要的创新点。传统的AI预测能力研究往往关注整体准确率,而这项研究不仅分析了准确性,还深入研究了校准能力。校准能力指的是AI模型对自己预测把握程度的评估是否准确。一个校准良好的模型,当它说有70%把握时,在相似情况下应该有大约70%的准确率。

研究团队使用了三个关键指标来评估AI的预测能力。准确率衡量预测结果与实际结果的匹配程度,这是最直观的评判标准。布赖尔分数则综合考虑了预测的准确性和置信度,能够更全面地反映预测质量。期望校准误差专门测量AI模型的自信程度与实际表现的匹配程度,这对于评估AI系统在实际应用中的可靠性至关重要。

为了确保实验的时间纯净性,研究人员特别注意排除了任何可能泄露未来信息的新闻内容。他们使用Exa搜索引擎收集新闻信息,并严格限制所有新闻的发布时间必须早于预测问题的创建日期。这种做法确保了AI模型无法获得关于事件结果的任何直接线索。

六、现实世界的应用意义

这项研究的发现对于AI在现实世界中的应用具有重要意义。目前,许多金融机构、政治分析组织和市场研究公司都在尝试使用AI进行预测分析。这项研究的结果提醒我们,AI的预测能力并非万能,而是高度依赖于问题的类型和背景信息的质量。

在金融领域,研究结果表明,AI在处理长期趋势分析时可能比短期市场预测更加可靠。这对于投资决策具有重要参考价值。投资者和分析师应该意识到,AI在处理技术分析时可能会过分依赖近期信息,而忽略长期的市场规律。

在政治预测方面,AI模型显示出相对较强的能力,这可能对选举分析、政策影响评估等领域产生积极影响。然而,研究也提醒我们注意传言过度加权的问题,特别是在处理政治新闻时,AI可能会将推测性报道误认为确凿事实。

对于新闻媒体和信息传播行业,这项研究揭示了一个重要现象:信息的呈现方式可能显著影响AI系统的判断。这提醒内容创作者在撰写新闻报道时,应该更加注意区分事实陈述和推测分析,避免可能误导AI系统的表述。

七、研究局限性与未来展望

尽管这项研究提供了宝贵的洞察,但研究团队也坦诚地指出了一些局限性。首先,研究主要关注的是英语环境下的预测任务,对于其他语言环境下AI的预测表现还需要进一步研究。其次,实验使用的预测问题主要来自西方的预测市场平台,可能存在一定的文化偏见。

研究中使用的AI模型虽然代表了当前的先进水平,但技术发展日新月异,新一代的AI系统可能会展现出不同的特征。此外,研究主要关注的是二元选择题(是或否),对于需要数值预测或多选题的情况,结果可能会有所不同。

从实验设计角度来看,虽然研究人员努力确保新闻信息的时间纯净性,但完全排除信息泄露的可能性仍然是一个挑战。此外,不同新闻来源的质量和倾向性也可能影响实验结果。

未来的研究方向可能包括探索如何改进AI模型的信息整合能力,减少近期偏见和传言过度加权的问题。研究人员还可能开发新的训练方法,帮助AI更好地区分确凿事实和推测信息。另一个有趣的方向是研究如何设计更好的提示词和交互方式,最大化AI预测系统的性能。

说到底,这项研究最重要的贡献在于让我们认识到AI预测能力的复杂性和局限性。在AI技术日益普及的今天,理解这些系统的真实能力边界比盲目信任更为重要。正如研究标题所暗示的,未来确实是"分布不均"的,AI在某些领域可能表现出色,而在另一些领域可能令人失望。

这项研究提醒我们,在使用AI进行预测时,应该根据具体的应用场景选择合适的模型,并谨慎处理背景信息的提供方式。同时,我们也应该保持适度的期望,认识到即使是最先进的AI系统也有其不可克服的局限性。未来的AI发展方向不应该只是追求更高的准确率,而应该更加关注如何提高系统的鲁棒性和可解释性,让人类能够更好地理解和控制这些强大的工具。

Q&A

Q1:大型语言模型在哪些领域的预测表现最好?

A:根据Lossfunk的研究,大型语言模型在地缘政治和政治领域表现最佳,准确率可达84%左右。这些结构化程度较高的领域有相对清晰的规律可循,比如选举结果和国际事务预测。相比之下,在金融和体育等变化更随机的领域,AI的准确率明显下降,有些甚至只有40-50%。

Q2:为什么给AI提供新闻信息有时候会让预测变得更糟?

A:研究发现AI存在三种主要失误模式:近期偏见、传言过度加权和定义漂移。AI往往过分重视最近的新闻而忽略长期趋势,会把新闻中的推测当作事实,还可能误解专业术语的含义。比如在股市预测中,AI看到近期利好消息后会过度乐观,反而做出错误判断。

Q3:不同AI模型在预测能力上有什么区别?

A:研究测试的GPT-5、Claude 3.7、DeepSeek-R1和GPT-4.1各有特色。GPT-5和Claude 3.7在政治和地缘政治预测方面最稳定可靠,校准能力也更好。DeepSeek-R1和GPT-4.1在娱乐、技术领域表现出更高不确定性。特别是DeepSeek-R1拒绝解释推理过程,只输出结果,像个"黑盒"系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蔡正元临别爆猛料:统一千万别指望国民党

蔡正元临别爆猛料:统一千万别指望国民党

阿离家居
2026-02-20 00:01:40
李易峰没人性!给未成年炮友上海买车房,付1500W封口费,嫖资超千万

李易峰没人性!给未成年炮友上海买车房,付1500W封口费,嫖资超千万

八卦王者
2026-02-18 15:52:51
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
俄国对中国统一大业的态度大变?台海若开战,俄军会有什么动向?

俄国对中国统一大业的态度大变?台海若开战,俄军会有什么动向?

来科点谱
2026-02-19 07:05:00
暖哭!王曼昱带徐奕回家过年 国乒姐妹花的新春温情太戳心

暖哭!王曼昱带徐奕回家过年 国乒姐妹花的新春温情太戳心

可乐谈情感
2026-02-20 08:37:09
马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

夏末moent
2026-02-20 09:54:03
51年,志愿军首次拿出喀秋莎炮击美军,李奇微大惊:苏军参战了?

51年,志愿军首次拿出喀秋莎炮击美军,李奇微大惊:苏军参战了?

搜史君
2026-02-20 07:25:09
97年国企面临下岗潮,一开国上将怒言:让工人自生自灭,我不同意

97年国企面临下岗潮,一开国上将怒言:让工人自生自灭,我不同意

混沌录
2026-02-19 18:04:03
土耳其传统女歌手“下海”一个月爆赚7.2万!身材吸睛

土耳其传统女歌手“下海”一个月爆赚7.2万!身材吸睛

老吴教育课堂
2026-02-18 20:32:12
我在取精室工作十年,看到了许多男性的另一面

我在取精室工作十年,看到了许多男性的另一面

衍月
2026-02-19 13:11:46
放弃7000万元!34岁奥斯卡只想快点退役:勒令球队结清900万欠薪

放弃7000万元!34岁奥斯卡只想快点退役:勒令球队结清900万欠薪

风过乡
2026-02-20 11:06:18
篮网112-84轻取篮网迎6连胜,哈登三节16+9,米切尔17分

篮网112-84轻取篮网迎6连胜,哈登三节16+9,米切尔17分

懂球帝
2026-02-20 10:31:02
高志凯:中国若真给日本断供,别说大蒜、洋葱,棺材板可能都没了

高志凯:中国若真给日本断供,别说大蒜、洋葱,棺材板可能都没了

云舟史策
2026-02-19 07:16:32
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
春晚小品《血压计》让我脊背发凉,为什么拿医生职业操守调侃?

春晚小品《血压计》让我脊背发凉,为什么拿医生职业操守调侃?

可乐谈情感
2026-02-19 20:54:38
华山五绝最弱的是谁?此人虚伪无比,表面清高,实则名利心极重

华山五绝最弱的是谁?此人虚伪无比,表面清高,实则名利心极重

武侠百晓生
2026-02-18 13:47:58
朱珠回天津婆家过年,婆婆在师范大学工作,做13道菜热情招待儿媳

朱珠回天津婆家过年,婆婆在师范大学工作,做13道菜热情招待儿媳

观察鉴娱
2026-02-20 10:47:01
微信突然“镀金”朋友圈一夜刷屏!有人已领到红包,别再傻傻错过

微信突然“镀金”朋友圈一夜刷屏!有人已领到红包,别再傻傻错过

林子说事
2026-02-20 10:28:27
伊朗国防部队已进入全面战备状态!美军已做好“最早本周末打击伊朗”准备!俄外长警告:将产生严重后果

伊朗国防部队已进入全面战备状态!美军已做好“最早本周末打击伊朗”准备!俄外长警告:将产生严重后果

每日经济新闻
2026-02-19 13:59:04
2026-02-20 11:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2229637文章数 5499关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

与爱泼斯坦16次同飞 希拉里:我丈夫因做慈善乘过几次

头条要闻

与爱泼斯坦16次同飞 希拉里:我丈夫因做慈善乘过几次

体育要闻

宁忠岩4年从第7到摘金,刷新奥运纪录

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
本地
游戏
时尚
公开课

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

魔兽世界时光服:P2阶段引发质变的五大饰品,高端玩家标配神器!

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版