网易首页 > 网易号 > 正文 申请入驻

Trump当选概率有多大?UC伯克利CAIS联手打造「AI预言家」,吊打人类分析师

0
分享至


新智元报道

编辑:乔杨 Frey

【新智元导读】AI的能力终于癫成了和这个世界匹配的样子——来自UCB等机构的研究者们用GPT-4o,开发出了一个「AI预言家」。

LLM的神奇职能,又多了一个。

用更形象的话说,就是中国的「算命签」、欧洲的「水晶球」,可以用「超人」的能力预测未来。

去年12月,Nature就刊登了一篇研究,可以用LLM预测一个人生活中即将发生的事件,就像预测句子中的next token一样。


实验结果表明,这个模型甚至能预测一个人未来4年内死亡的可能性,准确率高达78.8%。

最近,AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员,开发了一个更强大的系统FiveThirtyNine,预测更宏观的社会事件,比如「Trump能否赢得2024年大选」。


这个AI预测机器人基于GPT-4o构建,用户输入想查询的事件,FiveThirtyNine就能预测出发生的概率,就像天气预报中给出的下雨概率一样。

那么预测的准确度和可信度如何?

知名作家、民意调查师Nate Silver最近在一档节目上表示,AI不会很快取代人类预测分析师的能力。想看到超人的预测能力,起码要等15年。


Nate Silver最新预测:Trump有64%的获胜几率

但这个项目的作者表示不服,他们表示,539的表现好过经验丰富的人类预报员单打独斗,大致和一群预报员合作的表现相当,甚至更好。

因此,分析预测市场很快就能通过AI实现自动化!

从项目Demo中也能发现,539能够预测的事件范围也很广泛,比如美国大选是政坛事件,其他领域包括生物安全、AI技术、环境健康、网络安全等也都能预测。


原文地址:https://www.safe.ai/blog/forecasting

Demo地址:https://forecast.safe.ai/

除了放出博客文章和Demo,研发团队还计划出一篇详细的技术报告,虽然还没完稿,但坑位已经占上了,感兴趣的朋友可以期待下。


原文地址: https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

为什么给这个机器人取名叫FiveThirtyNine?

原作者特地发推解释,原来是想致敬著名的民意预测员Nate Silver,但又要表示AI的能力比他强,因此本来计划取名为Nate Gold。

但没得到本人同意,只好借用他twitter名的后缀538,再+1表示「迭代」一版,就得到了539。

FiveThirtyNine工作原理

这里,简单总结下FiveThirtyNine的工作原理。

举个例子,如果向FiveThirtyNine询问「Trump会赢得2024年美国总统大选吗?」。

接收了这一Prompt的FiveThirtyNine,就如同一个AI预言家一样,会借助搜索引擎检索相关的新闻和文章,整合信息并做出预测。


基于GPT-4o的FiveThirtyNine的预测示例

Prompt的内容也是很重要的,可能是为了复现方便,作者给出了实验中使用的prompt模板。


在充足的先验知识的基础上,FiveThirtyNine首先会依据事实总结归纳。

对一件事的Yes/No两方面,539会分别给出支持或反对的理由,再依据重要性分配相应的权重,可解释性拉满了。


比如,预测Trump当选的论据包括:票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。


反面的论据也有5个,同样现实且有力,包括Harris民意调查领先、筹款优势和关键人群的支持,以及Trump本人的极化倾向和法律挑战。

总结这些论据后,FiveThirtyNine还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见,整合多重因素,给出一个初步的概率。


最后,它还需要对这个概率值进行理性分析,结合推理进一步优化,并给出校准后的概率——在本例中为52%。


AI预言家优于市场预测为了测试AI预言家的表现,作者们借助Metaculus平台的问题对其进行了评估。

为了比较的公正性,AI预言家与人工预言家使用相同的信息。

值得注意的是,GPT-4o的数据仅囊括2023年10月之前的,因此研究者将新闻和文章都限定在该日期前,要求539和人类分别计算Metaculus中177个事件发生的概率。

针对这177个事件,Metaculus自身模型的预测准确率为87.0%,而FiveThirtyNine将其提升至87.7%±1.4。

相对于市场预测,AI预言家具有多种其无法比拟的优势。如,它能在几秒内快速生成预测,速度比当前市场预测高了几个数量级。

不仅速度更快,还不需要额外的奖励机制去优化预测,在精度相当的情况下,显然AI预言家更具性价比。

局限性

虽然作者放话表示,AI预言家已经优于人类预测员,但这个机器人依旧存在不少工程和性能上的局限性。

比如,539依旧会对无效查询做出回应,因为作者还没给它加上拒绝功能。

实时更新知识库这方面,也有显著的缺陷,毕竟它还没能接上推特的API。

5G冲浪的网友可以马上知道推特上的热门事件,但如果涉及到预训练所用的知识库盲区,539就一无所知。

比如,刚刚完成预训练的539还不知道Joe Biden已经退选,如果不重新过一遍知识库,依旧会傻傻地预测Biden当选的概率。


尤其是对于那些迫在眉睫、即将见分晓的事件,这种迟钝的反应是完全比不上人类的。

更重要的是,当前的「AI预言家」没有经过微调,还未达到最优精度,仅仅是依据工程化的Prompt检索并撰写总结报告。


可通过单击forecast.safe.ai中的齿轮图标找到它的prompt

此外,「自动化偏见」(automation bias)也是一个重要的问题,推特评论区也有网友问到。


「自动化偏见」是社会心理学领域的发现,即人类倾向于过度依赖自动化系统的建议,而忽略而忽略非自动化方式产生的矛盾信息,即使这些信息是正确的。

作者表示,这个问题或许可以通过优化界面来改进或避免。

尽管机器人在广度、速度和准确性方面通常表现优异,但在某些特定方面,它依旧比不上人类。

比如在非常依赖专业知识的金融领域,539对市场的预测能力还没有被验证。

它的预测还可能忽视尾部风险,造成「自证预言」。如果改进这一缺陷,AI预言家的预测精度可能会得到极大的提升。

研究者称,最初将其称为超人,并不是指它在各个方面都无懈可击,只是想表达AI预言家的预测能力并不比人类逊色。

就像何恺明大神也会宣称PReLU网络在ImageNet上有「超人性能」一样,虽然也会犯人类不可能犯的错误,但不耽误AI在某些方面匹配甚至超越人类表现。


「AI预言家」能干什么

如果说,以维基百科为代表的认知技术,推动了人类参与知情讨论、维持现实共识,以及构建共同的世界观,那么未来AI的用途,可能会走得更远。

作为中立的智能第三方,「AI预言家」或许可以改进决策和公共话语,有助于缓和极端、立场两极分化的事件。

完善聊天机器人功能

将AI预测功能集成到AI聊天机器人或个人AI助手中,可以辅助决策、规避风险。

例如,可以为政策制定者们提供值得信赖、公正的概率评估,还可以帮助量化专家规避风险。


补充新闻报道

AI预言家还可用来补充新闻报道,比如帮助预测加州AI安全法案SB 1047成功签署的可能性。


美国著名天文学家Carl Sagan曾说过,「如果单纯积累力量而不增长智慧,人类必定会走向自我毁灭的道路」。

不可否认,未来AI技术将不断变强,而其所具备的预测能力也有望为我们提供预警式和启发式的建议。

网友评论

「AI预言家」这个项目可以说是看点十足,很能吸引眼球,但推特上的网友大多持负面评论。

有人认为这只是给GPT-4o套了个壳、做了点提示工程,本质上是一个「新闻阅读器」的应用。


还有人指责作者「路走歪了」,除了炒作,这类项目完全看不到价值或实际功用。


此外,也有技术方面的质疑。

因为作者提到,在评估时允许机器人接入互联网,在有日期截断的前提下,防止它得知事件结果。

但「日期截断」这个功能完全不可靠,反例一抓一大把,因此评估结果也是靠不住的。


其中的技术含量究竟有多少?所谓「超越人类表现」的评估结果到底能告诉我们什么?

看来只有等技术报告发布后才能得知了。

参考资料:

https://www.safe.ai/blog/forecasting

https://x.com/DanHendrycks/status/1833152719756116154

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
死里逃生!深圳男子骑电动车突然爆燃,全身烧伤,官方回应引争议

死里逃生!深圳男子骑电动车突然爆燃,全身烧伤,官方回应引争议

小淇言说
2024-10-08 15:09:03
新韭菜来了!刚开户不久的00后外甥教训70后老股民:你太保守了!

新韭菜来了!刚开户不久的00后外甥教训70后老股民:你太保守了!

看晓天下事
2024-10-08 15:34:14
坑亲奶奶的炫富孙子!账户余额24亿,博物院国宝家中藏

坑亲奶奶的炫富孙子!账户余额24亿,博物院国宝家中藏

大风文字
2024-10-08 09:49:13
乒乓球亚锦赛女团1/4决赛:孙颖莎1-3不敌金琴英,丢掉首盘

乒乓球亚锦赛女团1/4决赛:孙颖莎1-3不敌金琴英,丢掉首盘

直播吧
2024-10-08 22:29:10
覃海洋“塌房”?竟有人2年前就预言:他极大概率2024年会出轨

覃海洋“塌房”?竟有人2年前就预言:他极大概率2024年会出轨

西虹市闲话
2024-10-08 08:52:37
武网乱了:首位大满贯冠军+中国金花一轮游出局,郑钦文喜从天降

武网乱了:首位大满贯冠军+中国金花一轮游出局,郑钦文喜从天降

侃球熊弟
2024-10-08 17:58:31
中科院院士支持孙凝晖院士的意见,中国芯片的发展,不能只靠华为封闭式的垄断模式,需要其他开放式的企业

中科院院士支持孙凝晖院士的意见,中国芯片的发展,不能只靠华为封闭式的垄断模式,需要其他开放式的企业

月听雨
2024-10-08 16:52:33
宁波一商场有人因炒股失败跳楼?警方:已传唤造谣嫌疑人

宁波一商场有人因炒股失败跳楼?警方:已传唤造谣嫌疑人

极目新闻
2024-10-08 18:55:55
50年肖华刚调到北京,路边瞥见香烟小贩:这不是杀害黄骅的凶手吗

50年肖华刚调到北京,路边瞥见香烟小贩:这不是杀害黄骅的凶手吗

历史龙元阁
2024-10-07 23:57:01
辛瓦尔很难被消灭,拎着炸药袋强迫20名人质围身边,以军无能为力

辛瓦尔很难被消灭,拎着炸药袋强迫20名人质围身边,以军无能为力

译言
2024-10-08 10:13:40
越闹越大!湖南警察索要百元买烟钱可通融出境,官方回应评论沦陷

越闹越大!湖南警察索要百元买烟钱可通融出境,官方回应评论沦陷

小淇言说
2024-10-08 10:46:54
A股跳水的原因找到了!

A股跳水的原因找到了!

Mask的小酒馆
2024-10-08 15:24:40
江苏小伙回村当伴郎,看见伴娘后一眼沦陷,好友劝退:追她有难度

江苏小伙回村当伴郎,看见伴娘后一眼沦陷,好友劝退:追她有难度

梅子的小情绪
2024-10-08 21:10:14
05后大学生股民跑步进场,今天交易被套:我对后市有信心

05后大学生股民跑步进场,今天交易被套:我对后市有信心

红星新闻
2024-10-08 19:24:13
10月8日俄乌最新:菲佐反水

10月8日俄乌最新:菲佐反水

西楼饮月
2024-10-08 21:05:04
1971年,许世友将军接到毛主席密令,紧急出动2个师逮捕王维国

1971年,许世友将军接到毛主席密令,紧急出动2个师逮捕王维国

历史龙元阁
2024-10-07 23:57:43
西甲下课第1人,执教99天:9场3分垫底,拿180万赔偿走人

西甲下课第1人,执教99天:9场3分垫底,拿180万赔偿走人

叶青足球世界
2024-10-08 20:35:02
这些为恐袭成功狂欢的人,无论如何也想不到,他们改变了历史

这些为恐袭成功狂欢的人,无论如何也想不到,他们改变了历史

莫问先生
2024-10-08 12:09:40
“安邦定国” 纪念邦国同志

“安邦定国” 纪念邦国同志

黎禾梨财经人物
2024-10-08 20:11:28
网友:疯涨400%!南京楼市,连夜涨价!许多朋友连夜买房都抢不到

网友:疯涨400%!南京楼市,连夜涨价!许多朋友连夜买房都抢不到

火山诗话
2024-10-08 18:03:17
2024-10-09 02:36:49
新智元
新智元
AI产业主平台领航智能+时代
11610文章数 65621关注度
往期回顾 全部

科技要闻

诺贝尔物理奖变身图灵奖?科学家解释爆冷

头条要闻

以色列总理:已打死黎真主党领导人继任者

头条要闻

以色列总理:已打死黎真主党领导人继任者

体育要闻

伊涅斯塔:可能是最懂怎么踢足球的人

娱乐要闻

福原爱女儿7岁生日 妈妈福原爱缺席

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

探店全新瑞虎8 PLUS 这是一台能让你躺平的SUV

态度原创

房产
本地
数码
亲子
公开课

房产要闻

重磅!首个区域官宣!海南打响取消限购、取消转让年限第一枪!

本地新闻

云游中国|还有谁不知道 荆门人有属于自己的仙本那

数码要闻

配备M4芯片的 MacBook Pro可能支持两台外接显示器

亲子要闻

乖乖排队吃东西的小萌娃,吃到面条后的表情太可爱了!

公开课

眼花失眠抽筋,你的肝该调调了

无障碍浏览 进入关怀版