网易首页 > 网易号 > 正文 申请入驻

一个小技巧,解锁ChatGPT「预测未来」?

0
分享至


文章来源于 新智元

如今,AI进步的速度,已经超出了我们对它用途的理解。

为了防止ChatGPT「失控」,OpenAI定制了一套堪称严苛的「服务条款」,涉及包括法律、医疗/健康、个人安全、权利福祉、赌博放贷等领域。

不过,有一件事并不受影响——讲故事。

最近,贝勒大学的研究人员便利用这一特性,尝试利用讲故事的形式,解锁ChatGPT「预测未来」的能力。


论文地址:https://arxiv.org/abs/2404.07396

实验中要求ChatGPT讲述在未来发生的事件的故事,或者由未来的权威人物讲述他们的过去的故事(但是是我们的未来)。

叙事提示尝试通过变化看似细微的细节,例如讲话者的身份或发布关于2022年政治事件的信息,进一步探究哪些元素的叙事提示是重要的。

为了创建答案的分布,实验让两名研究助理使用两个单独的ChatGPT帐户对每个提示进行50次查询,创建每个提示的100次总试验。

研究人员通过比较「直接询问ChatGPT预测未来的提示」与「询问它讲述未来故事的提示」发现,叙述性提示利用了模型构建幻觉性叙述的能力,可以促进比直接预测更有效的数据综合和外推。

1

奥斯卡得奖的预测情况

结论先行:

对于最佳男主角、最佳女主角和两个最佳男配角类别,叙事提示在预测获奖者方面非常准确——从42%(最佳女主角,查斯坦)到100%(最佳男主角,威尔·史密斯)不等。

相比之下,直接提示的表现非常糟糕,往往比随机猜测还差。

比如在最佳男主角的例子中:

直接提示 3a(Direct)

在下面列出的提名者中,您认为哪位提名者最有可能赢得2022年奥斯卡最佳男主角奖?请在做出预测时考虑围绕提名者的热议以及前几年的模式:

哈维尔·巴登(Javier Bardem),本尼迪克特·康伯巴奇(Benedict Cumberbatch),安德鲁·加菲尔德(Andrew Garfield),威尔·史密斯(Will Smith),丹泽尔·华盛顿(Denzel Washington)。

未来叙事提示 3b(Future Narrative)

写一个场景,一个家庭正在观看2022年奥斯卡颁奖典礼。主持人宣读以下最佳男主角提名者:

哈维尔·巴登(Javier Bardem),本尼迪克特·康伯巴奇(Benedict Cumberbatch),安德鲁·加菲尔德(Andrew Garfield),威尔·史密斯(Will Smith),丹泽尔·华盛顿(Denzel Washington)。

描述场景,直至主持人宣布获奖者。


大多数时候,ChatGPT-3.5做出了错误的预测。

在55%的猜测中,它提供了多个答案,在28%的情况下没有选择。但如果它做出了选择,它有17%的时间选择了威尔·史密斯。

相比之下,将ChatGPT-3.5置于观看颁奖典礼的家庭的未来叙事中时,它在80%的情况下猜测威尔·史密斯会赢。


同样,在大多数试验中,ChatGPT-4在直接提示时拒绝参与。

在所有案例中,26%的情况下它提供了多个答案,几乎一半的试验中,它拒绝做出任何预测。

当它做出猜测时,它有19%的时间猜到了威尔·史密斯,丹泽尔·华盛顿有7%的时间。

相比之下,如果使用未来叙事提示,它在97%的时间里猜到了威尔·史密斯,这比ChatGPT-3.5的18%真正预测率有了大幅提高。


1

经济现象的预测情况

接下来转向了月度失业率和月度通货膨胀率这两种经济现象,使用了不同的叙事提示:

一位大学教授向本科生讲授菲利普斯曲线,以及美联储主席杰罗姆·鲍威尔向理事会发表讲话,讲述了去年的经济数据。

在所有情况下,直接提示甚至比在奥斯卡奖的情况下更不有效,因为ChatGPT拒绝直接预测每个宏观经济变量的未来时间序列。

鲍威尔对通胀率的逐月预测分布平均与密歇根大学的消费者预期调查中包含的事实相当。有趣的是,这比根据克利夫兰联邦储备银行收集的数据预测实际通胀率更接近。

ChatGPT在预测月度失业率方面又大多不准确。但与通胀率一样,由劳工统计局(BLS)每月公布的失业率在杰罗姆·鲍威尔的讲话中提到的要求分布内。

比如,在用美联储主席杰罗姆·鲍威尔预测通货膨胀的例子中,用的提示语是:

「写一个场景,美联储主席杰罗姆·鲍威尔在2022年10月发表演讲,讨论通货膨胀、失业率和货币政策。鲍威尔主席告诉听众,从2021年9月开始到2022年8月结束,每个月的通货膨胀率和失业率。让主席逐月说明。他最后对通货膨胀和失业率的前景以及可能的利率政策变化进行展望。」

以下分别是ChatGPT-3.5和ChatGPT-4的结果:

在每个月,ChatGPT-3.5都有一个答案范围,包含了美联储和密歇根预期的答案。但变化性相当大,猜测的中心趋势并没有明确指向任何一个度量。


ChatGPT-4的猜测在每个月都包含了密歇根预期的数字。同时预测模式一直稳定到2022年9月,直到有更多的变量引入。


1

对ChatGPT-4叙事形式预测能力的猜想

对ChatGPT-4的预测能力进行的研究表明,直接预测和基于未来叙事的预测之间存在显著的二分法。

在预测主要的奥斯卡奖项类别方面,模型的叙事预测异常准确,除了最佳影片类别。这可能表明ChatGPT-4在公众舆论起重要作用的情境中表现出色。

未来叙事练习在宏观经济现象上的成功在某些情况下相当准确,但同时也有表现不符合预期的部分。

在所有情况下,未来叙事都显著提高了ChatGPT的预测能力,超越了简单的预测请求。

叙事提示和直接提示之间的区别突出了一种创新的数据分析方法,该方法尊重了OpenAI服务条款设定的界限。

通过专注于预测的创造性方面,如预测奖项或经济趋势,研究人员和用户避免了直接应用AI进行高风险的自动化决策或在没有合格专业人士监督的情况下提供专业建议。

这种方法论选择不仅增强了AI使用的完整性和道德考量,而且还促进了对其能力的负责任探索。

同时随着OpenAI继续鼓励和完善其模型的创造能力,对于AI的理解和解决叙事与直接提示在道德层面上该如何区分和界定,变得至关重要。

参考资料:

https://arxiv.org/abs/2404.07396

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

娱乐圈十三太保
2024-05-28 13:56:53
这是极品中的极品吗?明星就是漂亮,上镜都不如真人好看。

这是极品中的极品吗?明星就是漂亮,上镜都不如真人好看。

小米虫侃人物
2024-06-03 08:39:23
午评:大盘小盘一起跌, A股今天太难了。但老手说止跌希望还在

午评:大盘小盘一起跌, A股今天太难了。但老手说止跌希望还在

牛奶小草莓的
2024-06-03 11:50:39
笑不活了,庆余年徐志胜终于出现了,我却笑死在网友评论区里

笑不活了,庆余年徐志胜终于出现了,我却笑死在网友评论区里

娱乐八卦木木子
2024-06-01 19:30:25
31岁章泽天生娃后遗症显现,儿童节晒照中,发缝变宽头发花白!

31岁章泽天生娃后遗症显现,儿童节晒照中,发缝变宽头发花白!

鑫鑫说说
2024-06-03 11:52:42
乌军疑似发起哈尔科夫反击!装甲纵队全灭,俄军5月损失创新高

乌军疑似发起哈尔科夫反击!装甲纵队全灭,俄军5月损失创新高

鹰眼Defence
2024-06-02 17:21:56
观众骤减,百年日内瓦车展黯然停办

观众骤减,百年日内瓦车展黯然停办

环球时报国际
2024-06-03 06:52:58
你把汉堡王藏哪去了阿扎尔晒照骑自行车,这造型你认得出吗?

你把汉堡王藏哪去了阿扎尔晒照骑自行车,这造型你认得出吗?

直播吧
2024-06-02 16:56:08
艾弗森:我的掘金队友跟怪物一样 只是不巧碰到了巅峰马刺和湖人

艾弗森:我的掘金队友跟怪物一样 只是不巧碰到了巅峰马刺和湖人

直播吧
2024-06-02 23:09:11
93岁默多克结婚啦!67岁新娘穿白裙笑容甜,新郎看妻子眼神爱意浓

93岁默多克结婚啦!67岁新娘穿白裙笑容甜,新郎看妻子眼神爱意浓

八八尚语
2024-06-02 22:12:01
真是狠人!英国“酒仙夫妇”站票到新疆,32小时绿皮火车累到崩溃

真是狠人!英国“酒仙夫妇”站票到新疆,32小时绿皮火车累到崩溃

鬼谷子思维
2024-06-03 14:26:22
严查!领着万元退休金,整天“一条龙”吃喝玩乐的老年人其心可诛

严查!领着万元退休金,整天“一条龙”吃喝玩乐的老年人其心可诛

娱乐的硬糖吖
2024-06-03 11:42:36
为他人提供手淫,构成卖淫吗

为他人提供手淫,构成卖淫吗

刑事黎律
2024-05-30 07:00:08
现今周劼这样的傻冒,已经不多了

现今周劼这样的傻冒,已经不多了

吃货的分享
2024-06-02 19:20:03
一年回收1亿吨,美国为何大量回收我国废弃的混凝土?

一年回收1亿吨,美国为何大量回收我国废弃的混凝土?

可可可乐乐
2024-06-03 13:02:18
刘德华女儿高调亮相,太漂亮了,恐怕是娱乐圈颜值最高的星二代了

刘德华女儿高调亮相,太漂亮了,恐怕是娱乐圈颜值最高的星二代了

阿芒娱乐说
2024-06-02 22:43:49
张雨绮在国外终于放开!穿抹胸踩20cm高跟走戛纳,身材不输卡戴珊

张雨绮在国外终于放开!穿抹胸踩20cm高跟走戛纳,身材不输卡戴珊

宋若时尚搭
2024-06-02 15:25:55
蔡斌为何雪藏朱婷?央视解说给出的分析你赞同吗,惠若琪一针见血

蔡斌为何雪藏朱婷?央视解说给出的分析你赞同吗,惠若琪一针见血

何老师呀
2024-06-02 22:16:34
顾烜爷爷发声,她从嘉峪关离职原因曝光,原来她是一个乖乖女

顾烜爷爷发声,她从嘉峪关离职原因曝光,原来她是一个乖乖女

平老师666
2024-06-02 21:20:07
库兹马转发20年詹姆斯单打小里弗斯误被球砸旧闻:这也太TM好笑了

库兹马转发20年詹姆斯单打小里弗斯误被球砸旧闻:这也太TM好笑了

法制社会报
2024-06-03 10:16:09
2024-06-03 15:34:44
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1289文章数 10251关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

黄仁勋的计划:新AI平台 HBM4 机器人

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

游戏
手机
亲子
房产
公开课

暴雪前CEO:索尼新战略难以吸引大量玩家购入PS5

手机要闻

紫光展锐再出海,T750 处理器 Lava Yuva 5G 智能手机海外登场

亲子要闻

每当小朋友演出,台下总有一位卖力的老师领舞,“你甚至一秒钟都没有拍孩子”

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版