网易首页 > 网易号 > 正文 申请入驻

AI“短板”暴露:研究发现GPT-4 Turbo回答高级历史题准确率仅46%

0
分享至

IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。

这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。

论文合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“这项研究的主要结论是,尽管 LLMs 令人印象深刻,但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,仍无法胜任。”

IT之家注意到,研究人员分享了一些 LLMs 答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但实际上,这种技术是在 1500 年后才出现在埃及的。del Rio-Chanona 解释说,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们倾向于从非常突出的历史数据中推断,而难以检索到更冷门的历史知识。

另一个例子是,研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但 LLM 却错误地回答“有”。del Rio-Chanona 认为,这可能是因为关于其他古代帝国(如波斯)拥有常备军的公开信息较多,而古埃及的相关信息较少。“如果你被反复告知 A 和 B,而 C 只被提到一次,当你被问及 C 时,你可能会只记得 A 和 B,并试图从中推断。”她解释道。

研究还发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的表现更差,这表明其训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示,这些结果表明,在某些领域,LLMs 仍无法替代人类。

尽管如此,研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道:“总体而言,尽管我们的结果突显了 LLMs 需要改进的领域,但它们也强调了这些模型在历史研究中的潜力。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

泪满过眼
2026-03-21 21:48:10
糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

快乐的小大夫
2024-08-22 10:26:01
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

小娱乐悠悠
2026-03-25 10:28:48
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

青梅侃史啊
2026-03-25 12:17:08
“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

汉史趣闻
2026-03-26 14:13:20
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

阿策聊实事
2026-03-26 04:16:27
以军一特种部队士兵在黎巴嫩南部死亡

以军一特种部队士兵在黎巴嫩南部死亡

界面新闻
2026-03-26 16:15:25
据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

紫京讲谈
2026-03-26 01:39:04
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
3月25日俄乌:川普再次吹嘘并“许愿”

3月25日俄乌:川普再次吹嘘并“许愿”

山河路口
2026-03-25 16:36:21
主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

狼叔评论
2026-03-25 23:58:05
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

薇说体育
2026-03-26 16:03:59
41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

观星赏月
2026-03-26 03:56:16
FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

Ping值焦虑
2026-03-25 13:41:53
2026-03-26 16:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
艺术
数码
时尚
公开课

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

艺术要闻

哪一座桥不是风景?

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版