网易首页 > 网易号 > 正文 申请入驻

直击科学计算与设计痛点,跨学科推理统一基座模型SciReasoner

0
分享至

作者 | 论文团队

编辑 | ScienceAI

面对多模态、跨尺度、强约束的科研问题,通用 LLM 正从「工具」升级为「合作者」。

来自上海人工智能实验室等机构的研究团队提出了一款为科学数据「读 — 思 — 设」而生的统一科学基座模型:以更完整的科学数据基座、更系统的训练日程与更可验证的推理机制,直击科学计算与设计痛点。

  • 论文:https://arxiv.org/pdf/2509.21320
  • 数据集:https://huggingface.co/SciReason
  • 模型:https://huggingface.co/SciReason
  • 代码:https://github.com/open-sciencelab/SciReason

它有三点最值得关注:

  • 覆盖更广:统一 I/O 与「任务分组奖励」让单一骨干跨化学 / 生命 / 材料等多领域;
  • 可验证性更强:从数据标注到思维链再到 RL 奖励全面「科学化」,强调度量统一与工具可复核;
  • 工程更到位:明确的数据配比、训练日程与算力规模,保证性能与可复现性。

更重要的是,这不是「做题型」模型的又一次包装:它以 206B 级多学科科学数据为基础,覆盖科学文本、纯科学序列(DNA/RNA/ 蛋白 / SMILES)、科学序列 — 文本 / 科学序列 — 科学序列成对数据,并在此之上统一建模、统一标注、统一度量,让「读 — 思 — 设」闭环可以被数据真实地驱动与校核。

科学数据「读 — 思 — 设」专精的基座模型

这是一套统一的科学推理基座:在 206B 级跨学科科学语料与数据上预训练,随后经「三段式」对齐 —— 大规模指令微调(≈4000 万样本)、退火式冷启动(诱导长链思维)、以及引入任务分组与连续化科学奖励的强化学习(DAPO)—— 把自然语言与异构科学表示(DNA/RNA/ 蛋白、分子 SMILES、材料结构与文本等)深度对齐,覆盖从文本↔科学格式互译、知识 / 要素抽取、性质预测 / 分类到序列生成与可约束设计在内的完整工作流,单模型覆盖 5 大能力,共 103 个子任务。

与「做题型模型」的区别:

  • 题库式 / 考试式模型:以高等教育考题数据为基础,侧重少量文本问答与模板化推导,缺少多表示科学数据(序列、符号、结构)的一致编码与可逆互译,无法直达科学研究一线。
  • 本模型 SciReasoner:以「文本+纯序列+序列 — 文本 / 序列 — 序列配对」的 AI-ready 科学数据做预训练母体;在后训练阶段统一 I/O 模式、统一标签域(如
  • ),并以物理 / 化学一致性的专业工具校验奖励和连续化奖励作为优化目标,确保推理与设计可被数据与度量反向约束。

三大方法学亮点

1)自适应科学推理(Adaptive Scientific Reasoning)

模型区分「即时型(instant)」与「思考型(thinking)」两类任务:前者保留直接答案监督,后者用思维链数据全量替换,确保在真正需要多步推理时给出连贯可查的理由,而简单任务保持高效直答。进一步的实证结论:在任务级别进行「思维链替换」优于在同一任务内混配 CoT 与非 CoT 目标,避免风格 / 长度不一致带来的校准偏移。

2)任务分组奖励(Task Grouped Rewarding)

将科学任务划分为距离度量型(数值预测)、匹配度量型(检索 / 抽取)与专业工具校验型三类,分别设计可比的质量度量与优势估计,提升跨任务的泛化与鲁棒性。

3)科学奖励「软化」(Scientific Reward Softening)

把原本难以优化的 0/1 正确性信号,统一映射为 [0,1] 的连续奖励(如把 BERTScore、RMSE 等标准量规规范化),显著改善复杂科学推理任务的收敛性与性能提升。

覆盖「全栈」科学智能

  • 五大能力家族:①文本↔科学表示的双向翻译;②文本 / 知识抽取;③性质回归预测;④性质分类;⑤序列生成与设计 —— 任务总量涵盖至 103 类。
  • 纵向对比:在 54 项任务上拿到 SOTA,并在 101 项任务里名列前二,显示统一骨干在跨学科迁移与端到端工作流覆盖上的优势。
  • 典型任务覆盖:分子表征互译(SMILES↔IUPAC/Formula)、分子描述 / 图说、蛋白功能翻译、跨模态知识抽取到材料 / 生物 / 化学性质预测与分类,再到约束可控的序列与材料 / 分子设计,强调「可逆性、守恒性、可检验性」的科学语义保真。

能落地到哪些场景

  • 药物与分子设计:以性质回归 / 分类为「筛」,可控序列 / 分子生成为「设」,工具校验与知识检索为「评」,构成「筛 — 设 — 评」的可迭代数据闭环,降低无效合成与实验成本。
  • 蛋白 / 核酸工程:从功能 / 本体描述与信息抽取,到稳定性 / 可溶性等属性预测,再到定向序列设计,兼顾规则约束与可达性。
  • 材料科学:围绕文本 — 结构 — 数值三证据链开展性质回归 / 分类与候选筛选,适配主流数据库字段与口径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姐弟误按电动车落水,弟弟溺亡遗体被安置在岸引关注,村干部发声

姐弟误按电动车落水,弟弟溺亡遗体被安置在岸引关注,村干部发声

三农老历
2026-05-02 18:39:53
成都市纪委监委:7人被通报

成都市纪委监委:7人被通报

金台资讯
2026-05-02 18:07:32
不能说的秘密

不能说的秘密

贵圈真乱
2026-05-02 12:20:52
穷人的饭碗为什么装满碳水,富人却偏爱蛋白?背后的秘密令人震惊

穷人的饭碗为什么装满碳水,富人却偏爱蛋白?背后的秘密令人震惊

富贵说
2026-04-30 20:53:01
林彪坦言邓华是个危险人物,必须赶出军队,邓小平:让他当副省长

林彪坦言邓华是个危险人物,必须赶出军队,邓小平:让他当副省长

扬平说史
2026-05-01 23:02:31
沙漠的奇迹:土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

沙漠的奇迹:土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

七分瘦三分肥
2026-04-23 11:13:56
5月2日央视节目单,斯诺克世锦赛决赛将诞生,希金斯冲历史纪录

5月2日央视节目单,斯诺克世锦赛决赛将诞生,希金斯冲历史纪录

等等talk
2026-05-02 07:31:09
看来是真的,港媒:055驱逐舰在菲律宾附近发射鹰击-20导弹

看来是真的,港媒:055驱逐舰在菲律宾附近发射鹰击-20导弹

爱吃醋的猫咪
2026-04-29 21:16:58
谁会是中国版的“英伟达”?可能不是华为,而是这家公司!

谁会是中国版的“英伟达”?可能不是华为,而是这家公司!

触摸史迹
2026-05-02 01:58:32
60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

心理观察局
2026-05-01 17:36:26
人走茶凉!李亚鹏重启嫣然重光慈善晚宴,仅募336万,评论区炸锅

人走茶凉!李亚鹏重启嫣然重光慈善晚宴,仅募336万,评论区炸锅

火山詩话
2026-05-02 09:16:49
41岁单核六场晋级!詹皇28+8+7迎里程碑 系列赛得分王不值顶薪?

41岁单核六场晋级!詹皇28+8+7迎里程碑 系列赛得分王不值顶薪?

颜小白的篮球梦
2026-05-02 12:12:34
堪比曹操的一炮:特朗普这一下,把美国霸权的四根柱子全干塌了

堪比曹操的一炮:特朗普这一下,把美国霸权的四根柱子全干塌了

纪史行者
2026-05-02 11:36:37
嫁老头? 包养男学生? 不雅照? 央视主持人张蕾私生活谣言不堪入目

嫁老头? 包养男学生? 不雅照? 央视主持人张蕾私生活谣言不堪入目

小樾说历史
2026-04-23 15:13:27
令人愤怒“妈妈身上只剩4383块”事件:病态教育观,毁了多少孩子

令人愤怒“妈妈身上只剩4383块”事件:病态教育观,毁了多少孩子

夜深爱杂谈
2026-04-30 07:23:39
快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

黑翼天使
2026-03-30 13:23:53
男子酷似毛主席,毛新宇见了情绪失控?毛新宇:这种情形不止一次

男子酷似毛主席,毛新宇见了情绪失控?毛新宇:这种情形不止一次

覃仕勇说史
2026-04-29 16:57:15
四川父子三人溺亡,遗体已打捞上来,细节曝光,网友:害人害己

四川父子三人溺亡,遗体已打捞上来,细节曝光,网友:害人害己

瓦伦西亚月亮
2026-05-01 12:41:18
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
都在盯中东!没人发现中国这一邻国已变天,给中方送上大礼?

都在盯中东!没人发现中国这一邻国已变天,给中方送上大礼?

小兰聊历史
2026-05-01 16:07:43
2026-05-02 19:56:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

美国制裁5家中企 商务部发禁令阻断

头条要闻

美国制裁5家中企 商务部发禁令阻断

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

数码
教育
时尚
本地
游戏

数码要闻

威联通推出GPU-Ready边缘AI存储服务器QAI-h1290FX

教育要闻

亲爱的妈妈,孩子躺平不是你的错,你也是“受害者”!

流汗不流“汤”!五一假期底妆指南请收好~

本地新闻

用青花瓷的方式,打开西溪湿地

LPL第二阶段:九连败史诗成就达成!JDG三局战胜WE

无障碍浏览 进入关怀版