网易首页 > 网易号 > 正文 申请入驻

超百位科学家投票,23个大语言模型排名!OpenAI o3夺魁,DeepSeek入围!

0
分享至

近日,美国的艾伦人工智能研究所(Ai2开发了一款名为SciArena的基础模型基准测试平台,采用类似Chatbot Arena的众包、头对头评估方法,主要针对科学文献任务。

该平台现已公开发布:https://sciarena.allen.ai/

截至6月30日,该团队对全球23个大型语言模型(LLM)进行了排名,邀请了102名研究人员进行了超过13,000次投票,涉及自然科学、医疗保健、工程学以及人文社科的四个类别。

OpenAI o3夺冠 五家各有所长

曾打造出ChatGPT的OpenAI公司,凭借最新的o3模型实现了断层领先。该模型对引用的科学论文进行了更详细的阐述,并且其输出在工程学科中更具技术性。

其余模型的性能因学科而异,被誉为编程之王的Claude-4-Opus在医疗保健方面表现出色,而DeepSeek-R1-0528在自然科学方面表现良好。

值得注意的是,即使是实验中表现最好的模型o3在预测人类偏好方面的准确率也只有65.1%。

与斯坦福的LLM排行榜AlpacaEval和GPT系列对话数据集WildChat 等通用基准相比有明显差距,后者的成对评估协议的准确率超过 70%。

Ai2的Arman Cohan表示:用户对o3的偏好可能源于该模型倾向于在引用的文献中提供大量细节,并产生技术上细致入微的回答。

但相关报道也提醒,LLM可能会生成与引用论文冲突的文本,也会误解术语,并且可能无法准确回答问题,阅读 LLM 生成的研究论文摘要并不能替代阅读论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗新任最高领袖感谢伊朗人民

伊朗新任最高领袖感谢伊朗人民

界面新闻
2026-03-12 22:00:00
凌晨在北京去世?75岁“风流妖精”刘晓庆,给内娱明星们上了一课

凌晨在北京去世?75岁“风流妖精”刘晓庆,给内娱明星们上了一课

乡野小珥
2026-03-11 19:44:41
太讽刺!这群跑到美国的中国人,后悔了

太讽刺!这群跑到美国的中国人,后悔了

毛豆论道
2026-03-12 18:50:10
抖音盛典成“祛魅现场”!网红集体见光死,网友:名字和脸对不上

抖音盛典成“祛魅现场”!网红集体见光死,网友:名字和脸对不上

子芫伴你成长
2026-03-11 22:52:28
郑薇淘汰的人,被宫鲁鸣重用当队长,半场0分,球迷:又菜又装!

郑薇淘汰的人,被宫鲁鸣重用当队长,半场0分,球迷:又菜又装!

我就是一个说球的
2026-03-12 22:18:36
长期不住的房子,物业费能少交吗?民法典早说了,别再交冤枉钱!

长期不住的房子,物业费能少交吗?民法典早说了,别再交冤枉钱!

老特有话说
2026-03-11 14:47:30
两会受权发布|中华人民共和国主席令  (第七十三号)

两会受权发布|中华人民共和国主席令  (第七十三号)

新华社
2026-03-12 20:47:04
富可敌国!新世界首富身价高达5.8万亿元,相当于12个中国首富

富可敌国!新世界首富身价高达5.8万亿元,相当于12个中国首富

数字财经智库
2026-03-11 16:53:20
春天使劲吃这菜,一清热,二抗菌,三养肝,四护眼,蒸着吃特鲜

春天使劲吃这菜,一清热,二抗菌,三养肝,四护眼,蒸着吃特鲜

江江食研社
2026-03-12 03:30:03
世界第7输给了世界第21!亚洲霸主制造大冷门:冲击世界杯悬了?

世界第7输给了世界第21!亚洲霸主制造大冷门:冲击世界杯悬了?

萌兰聊个球
2026-03-12 08:32:59
实锤!美媒给出美军“战斧”袭击伊朗小学证据

实锤!美媒给出美军“战斧”袭击伊朗小学证据

新华社
2026-03-09 15:34:17
停止一切拨款!中科院正式向全世界宣布终止,西方学界已哀嚎一片

停止一切拨款!中科院正式向全世界宣布终止,西方学界已哀嚎一片

离离言几许
2026-03-12 18:23:19
美国攻打伊朗是侵略吗?先说答案:不是

美国攻打伊朗是侵略吗?先说答案:不是

黔有虎
2026-03-12 19:14:48
把 OpenClaw 装在本地电脑 24 小时工作,6000 字零基础上手教程

把 OpenClaw 装在本地电脑 24 小时工作,6000 字零基础上手教程

唐韧
2026-03-11 13:38:47
巴黎现场太真实!Lisa三角区尴尬,全智贤状态差,刘亦菲也翻车了

巴黎现场太真实!Lisa三角区尴尬,全智贤状态差,刘亦菲也翻车了

一娱三分地
2026-03-12 19:11:45
生死时速72小时,营救伊朗女球员

生死时速72小时,营救伊朗女球员

家传编辑部
2026-03-12 11:07:56
“四个季度考核都是C,年度考核等级D”女子差1分合格,失去12.9万年终奖,仲裁赢了官司输了已上诉

“四个季度考核都是C,年度考核等级D”女子差1分合格,失去12.9万年终奖,仲裁赢了官司输了已上诉

大风新闻
2026-03-12 18:40:43
人大代表毕利霞哽咽建议提高农民养老金后,多部委已致电与其沟通

人大代表毕利霞哽咽建议提高农民养老金后,多部委已致电与其沟通

界面新闻
2026-03-11 17:09:02
伊朗最高领袖穆杰塔巴社交媒体更新,贴出4张个人照片

伊朗最高领袖穆杰塔巴社交媒体更新,贴出4张个人照片

每日经济新闻
2026-03-13 00:36:07
体制内犯政治纪律错有多严重?顶流也能给你按下去,张艺兴走窄了

体制内犯政治纪律错有多严重?顶流也能给你按下去,张艺兴走窄了

社会酱
2026-03-12 17:31:34
2026-03-13 05:16:49
智药局 incentive-icons
智药局
我们更懂药物创新
1070文章数 196关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

伊朗:特朗普几条推文结束不了战争

头条要闻

伊朗:特朗普几条推文结束不了战争

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

贝克汉姆全家给27岁大布送生日祝福

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

教育
时尚
亲子
旅游
本地

教育要闻

“哈佛老师能穿成这样?”老人吹嘘一家高学历,被网友一眼识破

就这样从头拿捏松弛感

亲子要闻

认养一头牛旗下“哞星人”联名“超级飞侠”,发布儿童纯牛奶新品

旅游要闻

春假去哪玩?南京文旅向长三角家庭发出“串门”邀约

本地新闻

坐标北京,过敏季反向迁徒

无障碍浏览 进入关怀版