网易首页 > 网易号 > 正文 申请入驻

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

0
分享至

新智元报道

编辑:海狸 好困

【新智元导读】最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

如今,用AI大模型辅助写论文早已成为科研工作者的家常便饭。

ZIPDO 2025教育报告显示,AI已经无缝融入70%的研究实验室,并在五年内推动相关科研论文数量增长了150%。

AI在辅助科研的路上一路狂飙,但一个关键问题却长期悬而未解:

「大模型科研能力究竟怎么样?」

传统benchmark静态且片面,难以衡量科研任务所需的上下文理解与推理能力。

为此,Ai2联合耶鲁大学和纽约大学推出了科研界的Chatbot Arena——SciArena,正式开启科学智能的「擂台赛」时代!

论文链接:https://arxiv.org/pdf/2507.01001

目前,已有23个最前沿的大语言模型登上SciArena的擂台,涵盖OpenAI、Anthropic、DeepSeek、Google等巨头产品。

其中,OpenAI o3断崖式领先,坐上了科学任务的头把交椅,在所有科学领域都稳居第一,输出的论文讲解也更有技术含量。

其他模型在不同领域各有千秋:

例如Claude-4-Opus的医疗健康知识很强,而DeepSeek-R1-0528在自然科学表现抢眼。

值得一提的是,SciArena刚发布没多久就得到了Nature的特别报道,并被盛赞为「解释大模型知识结构的新窗口」。

下面我们就来看看,评估基础模型科研能力,SciArena究竟靠谱在哪里?

SciArena:科研AI新「试金石」

SciArena是首个专为科学文献任务量身定制的大模型「开放式评估平台」。

在这里,科研人员可以对不同基础模型处理科学文献任务的表现进行比较和投票。

团队引入了Chatbot Arena式的众包、匿名、双盲对决机制,用真实科研问题来验货大模型。

SciArena专门针对科学探究的复杂性与开放性进行了优化,解决通用基准测试在科研场景中「失效」的问题。

该平台主要由三大核心组件构成:

  • SciArena平台: 科研人员在此提交问题,并「同台对比」查看不同基础模型的回复,选出自己更偏好的输出。

  • 排行榜: 平台采用Elo评分系统对各大模型进行动态排名,从而提供一份实时更新的性能评估报告。

  • SciArena-Eval: 基于SciArena平台收集的人类偏好数据构建的元评估基准集,其核心目标是检验用模型来猜测人类偏好的准确性。


对决背后:评测机制大揭秘



从提问到投票:SciArena评估全流程

SciArena的工作流程包括检索论文、调用模型回复、用户评估三个环节。

与通用问答相比,科研问答最大的壁垒在于要以严谨的科学文献为依据。

为了确保检索信息的质量与相关性,团队改编了Allen Institute for AI的Scholar QA系统,搭建了一套先进的多阶段检索流水线。

该流水线包含查询分解、段落检索和结果重排序等多个步骤。

收到用户提交的问题后,平台启用流水线,检索相关的科学论文作为上下文。

随后,平台把上下文和用户的问题合在一起,同时发送给两个随机选择的基础模型。

两个模型各自生成内容详实、附带标准引文的长篇回复。

平台会统一处理两份回复,变成格式一致的标准化纯文本,以免用户「认出」模型的回答风格。

最后,用户对这两个纯文本输出进行评估,并投票选出自己偏好的答案。

值得注意的是,SciArena的注意力主要集中于可横向评估的「通用基础模型」。

至于OpenAI Deep Research等定制型智能体或闭源研究系统,则不在平台的考虑范畴内。

102位专家,13000票

要想评测准,数据必须信得过。

SciArena团队对数据的把关严格得令人发指。

在平台上线的前四个月里,他们收集了不同科研领域的102位专家的13000多次投票。

这102位专家绝非随意参与的路人,而是科研一线的在读研究生,人均手握两篇以上论文。

而且,所有的标注员都接受了一小时的线上培训,确保评价标准一致。

再加上盲评盲选机制,SciArena的每一条评估结果都有据可依。

在SciArena的高标准和严要求下,平台的标注数据自我一致性极高(加权科恩系数κ=0.91),标注者间一致性也达到了较高水平(κ=0.76)。

这13000多次投票为SciArena平台打下了值得信赖的评估基础。

最强AI,猜不透科研人的心

在SciArena平台上,研究团队基于元评估基本集SciArena-Eval,测试了「模型评模型」的自动评估方法:

给一个评估模型一条科研问题和两个模型的回答,让它猜哪个更可能被人类选中。

结果很扎心。

哪怕是表现最好的o3模型,准确率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,几乎跟「掷硬币选答案」的准确率差不多。

对比一下通用领域,像AlpacaEval、WildChat这些基准的评估模型,准确率都能跑到70%以上,相比之下,科研任务显得难多了。

看来,「让模型理解科研人的偏好」并非易事。

不过也不是全无亮点。

加入了推理能力的模型,在判断答案优劣上普遍表现更好。

例如,o4-mini比GPT-4.1高出 2.9%,DeepSeek-R1也小胜自家模型DeepSeek-V3。

这说明,会推理的AI更懂科研问题的本质。

研究团队表示,SciArena-Eval未来有望成为科研AI评估的「新标准」。

它能帮我们看清AI到底有没有真正「读懂」科研人的心思。

参考资料:

https://allenai.org/blog/sciarena

https://arxiv.org/pdf/2507.01001

https://the-decoder.com/sciarena-lets-scientists-compare-llms-on-real-research-questions/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

浙江女孩在意大利酒吧,遭流浪汉杀害,只因索要10欧元饭钱

情感艺术家
2026-05-06 04:58:30
A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

A股:周日下午传来3个特大消息!明天或迎来更大级别变盘行情?

趋势清风侠
2026-05-10 15:29:01
四川华蓥“瀑布秋千”夺命之后:闭园已近一周,项目设计或存严重缺陷

四川华蓥“瀑布秋千”夺命之后:闭园已近一周,项目设计或存严重缺陷

澎湃新闻
2026-05-10 10:12:36
全网祝贺!刘诗雯亮相新岗位,职务级别不一般,薪资待遇流出

全网祝贺!刘诗雯亮相新岗位,职务级别不一般,薪资待遇流出

寻墨阁
2026-05-10 00:07:34
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
上海海港找回中后场的节奏感,也更让人想念加布里埃尔

上海海港找回中后场的节奏感,也更让人想念加布里埃尔

米奇兔
2026-05-10 22:46:59
月薪几万却招不到人?远洋海员背后的残酷,配偶:男女关系太乱了

月薪几万却招不到人?远洋海员背后的残酷,配偶:男女关系太乱了

李将平老师
2026-05-08 09:42:27
世乒赛争冠阵容:梁靖崑战张本,王楚钦对松岛,林诗栋三单

世乒赛争冠阵容:梁靖崑战张本,王楚钦对松岛,林诗栋三单

佳佳说奇事故事
2026-05-10 23:37:56
为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

极目新闻
2026-05-09 19:27:51
闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

郝小小看体育
2026-05-10 09:30:13
女团夺冠孙颖莎场内采访!点出王曼昱顶住压力,致谢乒乓队支持!

女团夺冠孙颖莎场内采访!点出王曼昱顶住压力,致谢乒乓队支持!

篮球资讯达人
2026-05-10 22:21:11
张萌每一套都那么诱人

张萌每一套都那么诱人

乡野小珥
2026-04-30 15:18:35
缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

健康之光
2026-05-07 20:50:03
阿森纳有麻烦了!曼城3-0后差2分,客场对西汉姆不胜或英超丢冠

阿森纳有麻烦了!曼城3-0后差2分,客场对西汉姆不胜或英超丢冠

体育知多少
2026-05-10 07:41:26
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

乔话
2026-04-19 22:13:11
航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

民间胡扯老哥
2026-05-10 07:06:14
问界M9被极氪9X搅局,谁能做国产豪车中的“苹果”?

问界M9被极氪9X搅局,谁能做国产豪车中的“苹果”?

汽车通讯社
2026-05-09 22:39:59
劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

小马达情感故事
2026-05-09 19:50:03
白酒大逃杀

白酒大逃杀

虎嗅APP
2026-05-10 05:30:10
2026-05-11 00:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
房产
本地
健康
公开课

《明末》官号复活!连发多条动态 网友感叹担忧

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版