网易首页 > 网易号 > 正文 申请入驻

AI“短板”暴露:研究发现GPT-4 Turbo回答高级历史题准确率仅46%

0
分享至

IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。

这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。

论文合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“这项研究的主要结论是,尽管 LLMs 令人印象深刻,但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,仍无法胜任。”

IT之家注意到,研究人员分享了一些 LLMs 答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但实际上,这种技术是在 1500 年后才出现在埃及的。del Rio-Chanona 解释说,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们倾向于从非常突出的历史数据中推断,而难以检索到更冷门的历史知识。

另一个例子是,研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但 LLM 却错误地回答“有”。del Rio-Chanona 认为,这可能是因为关于其他古代帝国(如波斯)拥有常备军的公开信息较多,而古埃及的相关信息较少。“如果你被反复告知 A 和 B,而 C 只被提到一次,当你被问及 C 时,你可能会只记得 A 和 B,并试图从中推断。”她解释道。

研究还发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的表现更差,这表明其训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示,这些结果表明,在某些领域,LLMs 仍无法替代人类。

尽管如此,研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道:“总体而言,尽管我们的结果突显了 LLMs 需要改进的领域,但它们也强调了这些模型在历史研究中的潜力。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三星Galaxy S26 Ultra真机释出:4.74GHz高配版骁龙8E5

三星Galaxy S26 Ultra真机释出:4.74GHz高配版骁龙8E5

IT之家
2026-02-23 11:09:22
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

削桐作琴
2025-12-10 16:53:18
海南封关首个春节,三亚免税店排长队!每克黄金低近180元,金饰品区格外火爆

海南封关首个春节,三亚免税店排长队!每克黄金低近180元,金饰品区格外火爆

大风新闻
2026-02-23 10:54:05
万荣县出租司机称当地强制他们给游客打折:一天可能50块都赚不到

万荣县出租司机称当地强制他们给游客打折:一天可能50块都赚不到

映射生活的身影
2026-02-22 08:39:24
爆堵!大批人返深路上被堵哭,有人开了近24小时!网友:高速全红

爆堵!大批人返深路上被堵哭,有人开了近24小时!网友:高速全红

王晓爱体彩
2026-02-23 00:25:24
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
A股:大家做好准备,A股突发两条消息,周二股市要这样走!

A股:大家做好准备,A股突发两条消息,周二股市要这样走!

财经大拿
2026-02-23 11:05:47
癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

癌的“源头”已发现?咸菜没上榜,第一名大家或许天天都在吃!

健康之光
2026-02-11 14:15:20
邮轮假期变噩梦!退休夫妇回家见账单崩溃,存款瞬间缩水

邮轮假期变噩梦!退休夫妇回家见账单崩溃,存款瞬间缩水

华人生活网
2026-02-23 02:27:49
恩爱17年难抵残酷现实,王志文近况曝光,年龄差终究是道坎

恩爱17年难抵残酷现实,王志文近况曝光,年龄差终究是道坎

琨玉秋霜
2026-02-23 03:39:38
尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

尼克松访华,毛主席只送了4两茶叶被嫌弃?周总理笑着说出4个字,美国总统立马变了脸色

文史明鉴
2025-12-13 22:15:21
一人毁了一部电影?《惊蛰无声》唯一败笔,观众:看他演戏真别扭

一人毁了一部电影?《惊蛰无声》唯一败笔,观众:看他演戏真别扭

吴猖旅行ing
2026-02-23 05:15:42
特朗普访华泡汤?中方划下红线,今年必须做了断,美国这次听懂了

特朗普访华泡汤?中方划下红线,今年必须做了断,美国这次听懂了

介知
2026-02-23 06:36:39
队报:舍瓦利耶失去巴黎主力位置,可能落选法国队世界杯名单

队报:舍瓦利耶失去巴黎主力位置,可能落选法国队世界杯名单

懂球帝
2026-02-23 07:17:12
赵心童10-7夺冠,六进决赛全胜,喜迎四大利好!

赵心童10-7夺冠,六进决赛全胜,喜迎四大利好!

情系雨樱花叶
2026-02-23 11:06:29
每户发1000到3000元?江苏这波“真金白银”的操作,暖心!

每户发1000到3000元?江苏这波“真金白银”的操作,暖心!

西莫的艺术宫殿
2026-02-22 17:31:45
纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

谈史论天地
2026-02-19 15:41:31
美媒:谷爱凌口才像政治家能玩弄所有记者,但已不可能在美国从政

美媒:谷爱凌口才像政治家能玩弄所有记者,但已不可能在美国从政

杨华评论
2026-02-23 02:51:08
2026-02-23 11:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330549文章数 607012关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

艺术
数码
手机
房产
公开课

艺术要闻

十大名家画春,送给春天的你!

数码要闻

英国硬盘价格高得让人飞到美国购买:跨越半个地球竟省一大笔钱

手机要闻

OPPO Find N6专属礼盒曝光,含磁吸支架、保护壳、卡包等

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版