网易首页 > 网易号 > 正文 申请入驻

让大模型「懂」实验,从理解协议开始!北大团队发布 BioProBench

0
分享至

作者 | 刘宇阳

编辑 | ScienceAI

✨如果说大语言模型正在改变人类与知识的交互方式,那么它是否也能改变科学实验的执行流程?

在生命科学研究中,实验协议(biological protocol)是最基本也是最关键的部分——每一条步骤、每一项参数都可能决定实验的成败。

然而,大多数大型语言模型(LLMs)虽能「生成文本」,却难以真正理解实验流程。从「生成合理的步骤」到「识别协议中的潜在错误」,它们常常陷入「看似懂了,其实没懂」的尴尬境地。

为此,北京大学的研究团队推出了BioProBench:首个面向生物实验协议的大规模、多任务基准评测平台,旨在系统评估并推动大模型在实验协议理解、推理与生成方面的能力。

背后的挑战:为什么需要BioProBench?

生物实验协议看起来只是文字说明,实则蕴含丰富的隐性知识:

  • 术语专业:跨越细胞学、分子生物、化学等多个领域
  • 结构复杂:不仅是线性步骤,还包含条件分支、时间依赖
  • 容错率低:任何理解偏差都可能导致实验失败甚至损坏设备

而目前主流大模型大多缺乏在真实实验协议上的训练与评估,没有标准数据集,无法衡量能力上限,更难发现关键瓶颈。

BioProBench正是为了解决这些问题而生,它构建了一个覆盖真实协议、设计科学任务、配套专业评测的完整平台。

数据集规模:BioProBench有多大?

  • 27,000+真实实验协议
  • 来自Bio‑protocol、JOVE、Protocols.io、Nature Protocols等权威来源
  • 556,000+结构化任务样本
  • 包括问答、排序、错误修正、协议生成与推理等多样任务
  • ✅覆盖主流生物实验类型:PCR、蛋白表达、细胞染色、转染、电泳……

我们基于这些协议构建了五大核心任务:

模型测得如何?现实远比想象更严峻!

为了系统验证BioProBench的评测价值,我们对多个主流大语言模型进行了全面测试,涵盖12个开源模型闭源API和生物领域模型

  • 在协议排序和错误纠正上,主流模型普遍准确率低于50%
  • 模型常常「遗漏关键步骤」,或「生成冗余流程」
  • 在专业术语处理、药剂浓度与时间控制方面出错率明显偏高

对于实验协议生成任务(GEN)上,更多考验的是LLMs对于生物领域性知识的理解和推理能力,以及指令遵循的文本生成能力。该任务的挑战性较高,如表格所示,通用的N-gram指标普遍较低:BLEU最高得分为10.23(Qwen2.5-72b-instruct),METEOR最高得分为24.78(Claude-3-7-sonnet),而ROUGE-L仅为20.70(GPT-4-turbo)。为此,我们提出了域特定的度量指标:基于关键词的内容度量基于嵌入的结构化度量。其中基于嵌入的结构化度量包含:

1)步骤召回率(SR):该指标旨在确保完整性。它使用相似度阈值delta = 0.7来量化生成协议中语义上捕获的必要参考步骤的比例。

2)步骤准确度(SP):该指标与SR互补,旨在衡量简洁性和相关性。它使用相似度阈值delta = 0.7来量化生成步骤中与参考步骤在语义上对应的比例。SP越高,质量越好(生成过程中虚假或不相关的步骤越少)。

SR仍然低于0.43,这意味着超过一半的必要步骤被省略或错误呈现。SP得分介于0.20和0.32之间,表明生成步骤中经常包含不相关或无关的步骤,凸显了生成步骤的低精度。

值得注意的是,在GEN任务中,使用CoT会导致大多数模型和指标的性能持续下降。Claude-3-7-sonnet的SR从0.4280下降到0.3918,其METEOR略有下降,而大多数模型在CoT下N-gram和关键词得分下降幅度更大。这表明,未调优的推理框架可能会干扰连贯、结构化的协议文本的生成。为了解决这个问题,BioProBench提供了结构化的CoT样本,这些样本可作为微调模型的基础,从而生成更流畅、逻辑更一致的程序。

这些结果表明:当前LLMs并不具备稳定可靠的实验协议处理能力,在真正用于实验室自动化前,还有很长的路要走。

团队还提供了什么?

BioProBench不仅仅是一个数据集,它是一个完整的评测工具包和研究框架:

  • 统一数据接口:支持直接用于Hugging Face datasets
  • ⚙️模型评估框架:开放可测评自定义代码
  • 丰富基线对比:提供多个主流模型的结果参考,方便横向比较
  • 文档齐全:包括任务定义、评分指标、样例分析等

应用前景广阔:不止科研,还有更多可能

BioProBench的推出,希望推动AI与科研实验场景的深度融合。

未来,它可广泛应用于:

  • 实验自动化平台:在机器人执行前进行协议语义检查
  • 智能实验助理:帮助新手快速理解复杂实验流程
  • AI+生物课程教学:训练学生理解实验逻辑、设计流程

欢迎访问与参与!

BioProBench已全面开源,欢迎每一位对「AI+实验」感兴趣的研究者、工程师、同学加入我们!

项目链接:

Arxiv:https://arxiv.org/pdf/2505.07889

GitHub:https://github.com/YuyangSunshine/bioprotocolbench

Hugging Face:https://huggingface.co/datasets/BioProBench/BioProBench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

大象新闻
2026-03-06 18:47:02
中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

有范又有料
2026-03-06 18:35:54
金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

魔都姐姐杂谈
2026-03-06 12:49:40
张一鸣成为中国首富

张一鸣成为中国首富

江西工人报
2026-03-05 20:32:13
特殊时点,金正恩再上“最大的船”

特殊时点,金正恩再上“最大的船”

中国新闻周刊
2026-03-06 18:14:11
姜至鹏肘击染红!媒体人热议:太严厉,肘击并不典型,见血从严

姜至鹏肘击染红!媒体人热议:太严厉,肘击并不典型,见血从严

奥拜尔
2026-03-06 20:28:51
政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

冷观互联网
2026-03-06 11:48:12
魏牌广告被指抄袭路虎!长城魏建军道歉:的确抄袭了 愿担责

魏牌广告被指抄袭路虎!长城魏建军道歉:的确抄袭了 愿担责

快科技
2026-03-06 19:29:28
公共走廊被邻居安厨房装马桶后续:房主发声,邻居给2个解决方案

公共走廊被邻居安厨房装马桶后续:房主发声,邻居给2个解决方案

观察者海风
2026-03-06 15:56:06
世界现役最大军舰,确认被击毁!

世界现役最大军舰,确认被击毁!

航空知识
2026-03-04 19:09:03
他成为韩国大学教授了?

他成为韩国大学教授了?

奋斗在韩国
2026-03-06 13:26:13
虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

红星新闻
2026-03-06 18:25:17
局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

基斯默默
2026-03-06 16:42:00
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
独家|西贝大面积延迟发工资,当天走人不影响

独家|西贝大面积延迟发工资,当天走人不影响

凤凰网科技
2026-03-06 12:26:17
外交部副部长苗得雨吊唁哈梅内伊

外交部副部长苗得雨吊唁哈梅内伊

第一财经资讯
2026-03-06 11:36:51
今天,我无聊地想起了马杜罗……司机

今天,我无聊地想起了马杜罗……司机

忽然亦周
2026-03-06 09:59:41
广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

大象新闻
2026-03-06 02:03:20
国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

极目新闻
2026-03-06 18:28:25
特朗普宣称“与伊朗不会达成任何协议”

特朗普宣称“与伊朗不会达成任何协议”

界面新闻
2026-03-06 22:15:25
2026-03-06 23:00:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1245文章数 224关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
健康
旅游
公开课
军事航空

家居要闻

暖棕撞色 轻法奶油风

转头就晕的耳石症,能开车上班吗?

旅游要闻

印·记|打造顶流目的地,上海还能再做什么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版