网易首页 > 网易号 > 正文 申请入驻

浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼

0
分享至

编辑 | ScienceAI

随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估 LLMs 科学知识的高级基准非常缺乏。

近日,来自浙江大学 NLP 实验室与腾讯AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的科学智能,共包含化学和生物领域 50,000 个不同层次的科学评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。

其中,拥有千亿至万亿参数的通用大语言模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 表现出色,整体性能大幅优于中小型开源模型,如 Qwen1.5 和 Llama3 等。

相关研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》为题,发布在预印平台arXiv上。

论文链接:https://arxiv.org/abs/2406.09098

一般来说,同一系列的模型的大小与其性能成正相关,例如,Galactica-30B 的表现就明显优于 Galactica-6.7B。

作者还评测了一系列科学专业领域大模型,如上海交通大学、苏州实验室和思必驰联合研发的ChemDFM-13B,以及上海人工智能实验室开发的 ChemLLM 系列等。

此类领域大模型大都在开源模型基础上,利用科学领域语料进一步预训练,并进行经过精巧设计的微调所得。

在专业领域知识测试中,此类领域大模型整体表现优秀,特别是百亿参数的ChemDFM-13B,不仅全面领先其他开源模型,其化学水平也整体逼近 GPT-4o、Gemini1.5-Pro 等千亿甚至万亿参数的通用大模型,显示出垂域科学大模型的优势。

表 1:化学领域中 LLMs 五个级别的零样本表现

从评测结果还可以发现,L1-L4 的性能与 L5 的性能排名有时相差较大。在化学领域最高级的 L5 级任务中,ChemDFM-13B 甚至全面超越了通用大模型。

为了探究这个现象出现的原因,进一步观察各个维度任务的组成情况,可以发现 L1-L4 任务大都是论文新构建的以选择题出现的新任务;而 L5 中的分子描述生成和分子生成两个任务是较为典型的化学人工智能模型任务。

由此可以认为,对于这些模型来说,L5 评测的是在已训练任务上的能力,而 L1-L4 则更多的评测 LLM 的通用能力(指令遵循和任务泛化的能力等)。

总而言之,基座大模型的SFT 不一定能提升模型的性能,SFT 任务的选择和处理至关重要。

SFT 过程中的任务选择、组合和处理对大语言模型在科学领域的专业化起到了举足轻重的影响;而在构造 SFT 数据集的过程中,应该不仅仅考虑对科学领域相关能力的增强,也应尽量维持甚至提高模型的通用语言能力;从而确保模型拥有足够的指令遵循和任务泛化能力,在更广泛的科学任务上取得更优异的表现。

附:

在 SciKnowEval 框架中,研究者通过五个递进的科学知识层次来评估 LLMs 的科学知识,包括广泛学习、认真探询、深入思考、准确判断和实际应用。每个层次都旨在评估 LLMs 在不同方面的科学知识和应用能力。

图 1:SciKnowEval 框架设计思路

L1: 广泛学习(即知识覆盖)。主要评估大型语言模型对不同科学领域知识的广泛掌握,主要考查模型的记忆和理解多种科学概念的能力。

L2: 认真探究(即知识探询和探索)。关注大型语言模型在科学环境中进行深入探究和探索的能力,包括分析科学文献、识别核心概念及提出相关问题。

L3: 深入思考(即知识反思和推理)。评估模型在批判性思维、逻辑推理、进行数值计算、预测功能以及通过反思性推理解决问题的能力。

L4: 准确判断(即知识辨识和安全评估)。涉及大型语言模型基于科学知识做出正确、安全及符合道德的决策能力,包括对信息的危害性和毒性进行评估,以及理解科学活动相关的伦理和安全问题。

L5: 实际应用(即知识实践和应用)。评价大型语言模型将科学知识有效应用于现实世界情境的能力,如解决复杂的科学问题和开发创新解决方案。。

表 2:在化学领域 L1-L5 的评测任务

表 3:生物学和化学领域中 LLMs 五个级别的零样本表现

*数值较小表示排名较高。表中粗体字标示的是所有模型中的最佳表现,带下划线的是次优表现,蓝色标示的是开源模型中的最佳表现

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高盛2026年全球股市展望:非科技行业今年可能表现强劲 人们可能会越来越关注科技行业以外的公司

高盛2026年全球股市展望:非科技行业今年可能表现强劲 人们可能会越来越关注科技行业以外的公司

财联社
2026-01-23 18:34:18
不要轻易做手术!医生提醒:65岁后,这4类手术可尽量避免

不要轻易做手术!医生提醒:65岁后,这4类手术可尽量避免

路医生健康科普
2026-01-23 10:10:57
“这种家,谁能爱回?”农村大学生晒崩溃瞬间,浙江父母又赢了

“这种家,谁能爱回?”农村大学生晒崩溃瞬间,浙江父母又赢了

妍妍教育日记
2026-01-23 19:26:58
杀猪宴变杀猪盘后续:恶人全员曝光,警方介入,地图名字图片全改

杀猪宴变杀猪盘后续:恶人全员曝光,警方介入,地图名字图片全改

甜柠聊史
2026-01-23 16:54:07
触目惊心!2025俄罗斯高校集体崩盘,无一所进全球前200

触目惊心!2025俄罗斯高校集体崩盘,无一所进全球前200

老马拉车莫少装
2026-01-22 21:24:42
退休夫妇花10万“邮轮养老”:船上住15年,包吃包打扫,环游世界4圈,比房租便宜得多!

退休夫妇花10万“邮轮养老”:船上住15年,包吃包打扫,环游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

云上乌托邦
2026-01-23 15:07:21
反转!婚纱是女方提前一年定制,第一支舞近尾声才上台,谁在说谎

反转!婚纱是女方提前一年定制,第一支舞近尾声才上台,谁在说谎

聪明的橙子hj
2026-01-23 11:02:46
高盛被套哭了!刚重仓新进341万股,股价牛市暴跌40%,太惨了

高盛被套哭了!刚重仓新进341万股,股价牛市暴跌40%,太惨了

鹏哥投研
2026-01-23 09:49:47
“伊宅购”“宅购通”涉嫌非法集资被立案侦查,长沙警方通报:实控人等涉案人员被抓获

“伊宅购”“宅购通”涉嫌非法集资被立案侦查,长沙警方通报:实控人等涉案人员被抓获

界面新闻
2026-01-23 16:40:03
洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

素素娱乐
2026-01-23 11:07:53
存活不到24小时!揭秘北京“反谣大战”十二时辰

存活不到24小时!揭秘北京“反谣大战”十二时辰

新京报
2026-01-23 10:48:04
嫣然医院房东确为医美机构思妍丽创始人张毅;李亚鹏时隔一周开播,直播间瞬间拥入超10万人,多款产品刚上线就被秒光,销售额超1683万

嫣然医院房东确为医美机构思妍丽创始人张毅;李亚鹏时隔一周开播,直播间瞬间拥入超10万人,多款产品刚上线就被秒光,销售额超1683万

极目新闻
2026-01-23 21:08:36
国乒男单外战再失利,卫冕冠军出局温瑞博决赛对阵德国名将

国乒男单外战再失利,卫冕冠军出局温瑞博决赛对阵德国名将

两兄弟养牛
2026-01-24 00:04:10
上映5天票房1100万,吴京投资的新片再次被影迷抛弃,亏本成定局

上映5天票房1100万,吴京投资的新片再次被影迷抛弃,亏本成定局

八卦南风
2026-01-22 11:36:53
消费者投诉称限量发售的6.68万元“一口价”飞度要加价3000元购买,广汽本田回应:已启动专项调查

消费者投诉称限量发售的6.68万元“一口价”飞度要加价3000元购买,广汽本田回应:已启动专项调查

鲁中晨报
2026-01-22 17:23:31
德约妻子罕见亲自下场批评球员:一点也不尊重人!

德约妻子罕见亲自下场批评球员:一点也不尊重人!

网球之家
2026-01-23 22:55:44
贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

乡野小珥
2026-01-23 16:14:15
三部门发文公示拟开展有奖发票试点城市名单

三部门发文公示拟开展有奖发票试点城市名单

界面新闻
2026-01-23 21:15:04
幸亏放弃赵睿!上海队二选一成功,辽篮三冠前锋太香,成全王哲林

幸亏放弃赵睿!上海队二选一成功,辽篮三冠前锋太香,成全王哲林

体坛大事记
2026-01-23 18:17:53
2026-01-24 00:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1216文章数 223关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

视频:女游客被雪豹咬伤面部 疑因靠近拍照引发

头条要闻

视频:女游客被雪豹咬伤面部 疑因靠近拍照引发

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

数码
教育
房产
公开课
军事航空

数码要闻

号称枪战之王!iQOO 15 Ultra首发超感触控肩键:寿命近乎无限

教育要闻

关于留学生搞钱搞副业,说点大实话!

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版