网易首页 > 网易号 > 正文 申请入驻

直击科学计算与设计痛点,跨学科推理统一基座模型SciReasoner

0
分享至

作者 | 论文团队

编辑 | ScienceAI

面对多模态、跨尺度、强约束的科研问题,通用 LLM 正从「工具」升级为「合作者」。

来自上海人工智能实验室等机构的研究团队提出了一款为科学数据「读 — 思 — 设」而生的统一科学基座模型:以更完整的科学数据基座、更系统的训练日程与更可验证的推理机制,直击科学计算与设计痛点。

  • 论文:https://arxiv.org/pdf/2509.21320
  • 数据集:https://huggingface.co/SciReason
  • 模型:https://huggingface.co/SciReason
  • 代码:https://github.com/open-sciencelab/SciReason

它有三点最值得关注:

  • 覆盖更广:统一 I/O 与「任务分组奖励」让单一骨干跨化学 / 生命 / 材料等多领域;
  • 可验证性更强:从数据标注到思维链再到 RL 奖励全面「科学化」,强调度量统一与工具可复核;
  • 工程更到位:明确的数据配比、训练日程与算力规模,保证性能与可复现性。

更重要的是,这不是「做题型」模型的又一次包装:它以 206B 级多学科科学数据为基础,覆盖科学文本、纯科学序列(DNA/RNA/ 蛋白 / SMILES)、科学序列 — 文本 / 科学序列 — 科学序列成对数据,并在此之上统一建模、统一标注、统一度量,让「读 — 思 — 设」闭环可以被数据真实地驱动与校核。

科学数据「读 — 思 — 设」专精的基座模型

这是一套统一的科学推理基座:在 206B 级跨学科科学语料与数据上预训练,随后经「三段式」对齐 —— 大规模指令微调(≈4000 万样本)、退火式冷启动(诱导长链思维)、以及引入任务分组与连续化科学奖励的强化学习(DAPO)—— 把自然语言与异构科学表示(DNA/RNA/ 蛋白、分子 SMILES、材料结构与文本等)深度对齐,覆盖从文本↔科学格式互译、知识 / 要素抽取、性质预测 / 分类到序列生成与可约束设计在内的完整工作流,单模型覆盖 5 大能力,共 103 个子任务。

与「做题型模型」的区别:

  • 题库式 / 考试式模型:以高等教育考题数据为基础,侧重少量文本问答与模板化推导,缺少多表示科学数据(序列、符号、结构)的一致编码与可逆互译,无法直达科学研究一线。
  • 本模型 SciReasoner:以「文本+纯序列+序列 — 文本 / 序列 — 序列配对」的 AI-ready 科学数据做预训练母体;在后训练阶段统一 I/O 模式、统一标签域(如
  • ),并以物理 / 化学一致性的专业工具校验奖励和连续化奖励作为优化目标,确保推理与设计可被数据与度量反向约束。

三大方法学亮点

1)自适应科学推理(Adaptive Scientific Reasoning)

模型区分「即时型(instant)」与「思考型(thinking)」两类任务:前者保留直接答案监督,后者用思维链数据全量替换,确保在真正需要多步推理时给出连贯可查的理由,而简单任务保持高效直答。进一步的实证结论:在任务级别进行「思维链替换」优于在同一任务内混配 CoT 与非 CoT 目标,避免风格 / 长度不一致带来的校准偏移。

2)任务分组奖励(Task Grouped Rewarding)

将科学任务划分为距离度量型(数值预测)、匹配度量型(检索 / 抽取)与专业工具校验型三类,分别设计可比的质量度量与优势估计,提升跨任务的泛化与鲁棒性。

3)科学奖励「软化」(Scientific Reward Softening)

把原本难以优化的 0/1 正确性信号,统一映射为 [0,1] 的连续奖励(如把 BERTScore、RMSE 等标准量规规范化),显著改善复杂科学推理任务的收敛性与性能提升。

覆盖「全栈」科学智能

  • 五大能力家族:①文本↔科学表示的双向翻译;②文本 / 知识抽取;③性质回归预测;④性质分类;⑤序列生成与设计 —— 任务总量涵盖至 103 类。
  • 纵向对比:在 54 项任务上拿到 SOTA,并在 101 项任务里名列前二,显示统一骨干在跨学科迁移与端到端工作流覆盖上的优势。
  • 典型任务覆盖:分子表征互译(SMILES↔IUPAC/Formula)、分子描述 / 图说、蛋白功能翻译、跨模态知识抽取到材料 / 生物 / 化学性质预测与分类,再到约束可控的序列与材料 / 分子设计,强调「可逆性、守恒性、可检验性」的科学语义保真。

能落地到哪些场景

  • 药物与分子设计:以性质回归 / 分类为「筛」,可控序列 / 分子生成为「设」,工具校验与知识检索为「评」,构成「筛 — 设 — 评」的可迭代数据闭环,降低无效合成与实验成本。
  • 蛋白 / 核酸工程:从功能 / 本体描述与信息抽取,到稳定性 / 可溶性等属性预测,再到定向序列设计,兼顾规则约束与可达性。
  • 材料科学:围绕文本 — 结构 — 数值三证据链开展性质回归 / 分类与候选筛选,适配主流数据库字段与口径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

荆医生科普
2026-04-02 17:35:43
局中手指磕伤流血,王楚钦向队友索要湿巾:你要没有,你就找去

局中手指磕伤流血,王楚钦向队友索要湿巾:你要没有,你就找去

懂球帝
2026-05-03 20:51:33
空房交物业费合理吗?2026年物业费新规:这4种情况一分不掏

空房交物业费合理吗?2026年物业费新规:这4种情况一分不掏

老特有话说
2026-04-15 15:11:16
李小冉与徐佳宁丁克真相,网友:不是选择丁克而是难以生育好吗?

李小冉与徐佳宁丁克真相,网友:不是选择丁克而是难以生育好吗?

小娱乐悠悠
2026-05-02 10:45:13
浙江男子购买新手机,发现里面居然有自己和老婆的照片,男子认为这不是新机,要求退一赔三,店家:你这是敲诈!法院判了!

浙江男子购买新手机,发现里面居然有自己和老婆的照片,男子认为这不是新机,要求退一赔三,店家:你这是敲诈!法院判了!

明德阅读
2026-04-30 19:59:35
广东获3将回暖!胡明轩连爆2场,麦考尔强输出,崔永熙进关键三分

广东获3将回暖!胡明轩连爆2场,麦考尔强输出,崔永熙进关键三分

篮球资讯达人
2026-05-04 01:06:09
3亿成本血本无归?《寒战1994》五一档票房崩塌,最后荣光凉了!

3亿成本血本无归?《寒战1994》五一档票房崩塌,最后荣光凉了!

草莓解说体育
2026-05-02 09:24:11
快讯!关于赵少康的问题!

快讯!关于赵少康的问题!

故事终将光明磊落
2026-05-03 11:46:27
乌军方驳斥俄国防部造谣,泽连斯基制裁前总统办公室主任

乌军方驳斥俄国防部造谣,泽连斯基制裁前总统办公室主任

史政先锋
2026-05-03 16:50:13
德国外长:伊朗应立即开放霍尔木兹海峡

德国外长:伊朗应立即开放霍尔木兹海峡

新华社
2026-05-03 23:52:04
无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
杨幂荷塘大片火出圈:谁说她只会演烂片,这眼神绝了!

杨幂荷塘大片火出圈:谁说她只会演烂片,这眼神绝了!

阿废冷眼观察所
2026-05-03 14:28:40
有网友发布了跟霍思燕的合影……霍思燕怎么胖成这样了

有网友发布了跟霍思燕的合影……霍思燕怎么胖成这样了

老吴教育课堂
2026-05-02 08:50:36
随着梅努一剑封喉+比分3-2,曼联险胜利物浦,提前3轮拿下欧冠席位

随着梅努一剑封喉+比分3-2,曼联险胜利物浦,提前3轮拿下欧冠席位

侧身凌空斩
2026-05-04 00:25:44
禁止所有中国外交官入境,不让两岸统一,这个国家比美国还要嚣张

禁止所有中国外交官入境,不让两岸统一,这个国家比美国还要嚣张

阿尢说历史
2026-05-03 20:32:58
杜锋:两场悬崖边挺过来不容易 冠军只有一个 要正确理解输赢

杜锋:两场悬崖边挺过来不容易 冠军只有一个 要正确理解输赢

狼叔评论
2026-05-03 22:56:05
“五一”当天58万人次游上海外滩,南京路“拉链式”人墙成热门打卡点,游客站台阶追拍

“五一”当天58万人次游上海外滩,南京路“拉链式”人墙成热门打卡点,游客站台阶追拍

极目新闻
2026-05-03 12:45:11
笑死!打工人的通勤包包越来越抽象了,网友:领导以为我去丢垃圾

笑死!打工人的通勤包包越来越抽象了,网友:领导以为我去丢垃圾

水泥土的搞笑
2026-05-01 09:19:49
初步报告显示在摩洛哥失踪美军士兵可能落入海中

初步报告显示在摩洛哥失踪美军士兵可能落入海中

财联社
2026-05-04 01:15:06
2026年这5个行业,竟已发不出工资!形势真的很严峻了

2026年这5个行业,竟已发不出工资!形势真的很严峻了

细说职场
2026-04-26 16:52:27
2026-05-04 02:07:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
手机
数码
房产
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

华为多款新机销售表现曝光,畅享90 Pro Max激活百万台

数码要闻

自费测评aigoGS11耳机:一篇可能得罪厂商,但必须发出来的真实体验

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版