网易首页 > 网易号 > 正文 申请入驻

阶跃星辰上线基于单智能体架构Step-DeepResearch !|上海新“模”样

0
分享至

转载自:阶跃星辰

比肩 gemini、成本直降 90%!

向大家介绍我们最新端到端深度研究智能体模型:step-deepresearch。


它能做什么?

会思考:懂规划、会反思、还能自主验证信息的真伪,不只是数据爬虫。

更专业:结合高质量搜索 api,内置 2000 万+ 高质量文档库和 600+ 权威站点索引,过滤低信源信息干扰。

更聪明:独特的原子能力训练法,让模型把“专家思维”内化在骨子里。

在针对真实复杂场景的 adr-bench 评测中,step-deepresearch 表现出极强竞争力,在多个维度上全面超越海内外一线 deepresearch 产品和模型,包括基于千亿级甚至万亿级参数 moe 架构的 gemini deepresearch、openai deepresearch 等模型。

而 step-deepresearch 仅基于单智能体架构实现。


在我们的技术报告全面公开后,立刻引发海内外社区热烈讨论,并入选 huggingface daily papers。



现在,我们开启 api 内测,欢迎大家踊跃体验!

论文地址:https://arxiv.org/pdf/2512.20491

github:https://github.com/stepfun-ai/stepdeepresearch

api 内测:https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8cp78pjgkjvvih2c3ef3cc

官方主页:https://www.stepfun.com/deep-research-invitation

step-deepresearch 在多项权威基准测试中都达到全球顶尖水平。

在 research rubrics 上,step-deepresearch 得分 61.42%,仅次于 gemini deepresearch(约 63.69分),且超越了 openai deepresearch。


在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。


在针对真实研究场景的 adr-bench 评测中,step-deepresearch 的人类 elo 评分在多个维度处于第一梯队。

特别是在与 gemini deepresearch等顶尖模型的直接博弈中,其“胜+平”率高达67.1%,证明了其生成的报告质量已达到当前最先进水平。


step-deepresearch 引用最新行业动态(step-gui、豆包手机等),来自上百条条高质量信源,内容覆盖底层技术、应用、挑战与争议,客观全面分析议题,达到标准调深度研报告水平。


▲上下滑动查看详细内容

step-deepresearch 的主要创新可归纳为3方面:

基于原子能力的数据合成策略

渐进式智能体训练范式

自建 adr-bench 评估体系

我们将深度研究能力拆分为四个原子能力,并针对性地合成数据进行强化。

规划与任务拆解:能将模糊、宏大的用户需求拆解为可执行的子任务,并根据环境反馈动态调整路径。

深度信息搜索:具备多跳推理能力,能在信息不完整时进行“主动拓扑行走”,挖掘隐藏实体。

反思与验证:拥有“自纠错”和“事实核查”能力,能识别自身错误并区分网络信息的真伪,通过跨源验证确保逻辑严密。

报告生成:通过中期训练(mid-training)学习专家写作风格,并利用 sft 确保报告严格遵循规划结构和引用规范。

我们的智能体训练范式主要包含三个阶段:

agentic mid-training:在预训练和微调之间加入 mid-training,通过 32k 和 128k 两个阶段的上下文调度,注入原子能力,使模型内化“下一步行动”的决策逻辑,而非简单的“预测下一个 token”。

sft:侧重于长程决策轨迹的合成与领域适配,强化意图理解、规划执行及严格引用格式的遵循,解决模型在长时间研究任务中容易“分心”或“迷路”的问题。

rl:引入 checklist-style judger 奖励设计,将复杂的报告质量评估转化为细粒度的信号,进一步优化长程决策的鲁棒性。

在系统架构上,我们采用单智能体 react 架构,避免复杂多智能体系统协作带来的系统冗余。


此外,为了填补中文深度研究评估的空白,我们还构建了 adr-bench,涵盖商业调研、政策分析、软件工程等 9 大领域,包含通用和专业(法律、金融)两个维度。该基准测试不仅关注搜索结果是否正确,更加关注研究过程中的逻辑严密性、意图识别深度以及长程决策的鲁棒性。

欢迎转发,但请注明出处“上海经信委”

上观号作者:上海经信委

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海外俄侨庆祝遭戏耍,普京表态愿意结束战争!匈牙利新总理的演说

海外俄侨庆祝遭戏耍,普京表态愿意结束战争!匈牙利新总理的演说

鹰眼Defence
2026-05-10 16:45:06
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
男团决赛,梁靖昆让二追三,助力国乒拿下关键一分,1-0领先!

男团决赛,梁靖昆让二追三,助力国乒拿下关键一分,1-0领先!

宝哥精彩赛事
2026-05-11 02:31:34
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
奶奶刚死3天,瞎子上门讨饭,临走时说:明天你们家要多一口棺材

奶奶刚死3天,瞎子上门讨饭,临走时说:明天你们家要多一口棺材

千秋文化
2026-04-27 20:12:24
广东一男子加满640元汽油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

广东一男子加满640元汽油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

大象新闻
2026-05-10 13:46:09
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
河南籍演员北京聚餐!一眼望去熟人满满,李亚鹏岳云鹏刘震云都在

河南籍演员北京聚餐!一眼望去熟人满满,李亚鹏岳云鹏刘震云都在

天天热点见闻
2026-05-08 04:32:33
万茜的老公万茜的丈夫叫徐洪涛,圈外人,1972年生,比万茜大10岁

万茜的老公万茜的丈夫叫徐洪涛,圈外人,1972年生,比万茜大10岁

草莓解说体育
2026-05-11 01:27:15
51岁TVB绿叶自曝日开销100元,称艺人工作机会少,靠开火锅店赚钱

51岁TVB绿叶自曝日开销100元,称艺人工作机会少,靠开火锅店赚钱

临云史策
2026-05-10 14:31:52
双杀日本队!国乒男女团夺金,升国旗奏国歌,球迷熬夜看球沸腾了

双杀日本队!国乒男女团夺金,升国旗奏国歌,球迷熬夜看球沸腾了

曹说体育
2026-05-11 01:27:45
遗憾官宣!陈赫直播透露:李晨加盟五哈彻底受阻,多次协调无果

遗憾官宣!陈赫直播透露:李晨加盟五哈彻底受阻,多次协调无果

一盅情怀
2026-05-10 17:29:06
手机突然收到陌生验证码千万别慌!内行忠告:立刻打开飞行模式

手机突然收到陌生验证码千万别慌!内行忠告:立刻打开飞行模式

Thurman在昆明
2026-05-09 05:11:35
攻防两端的存在感都越来越低了,骑士应该将他踢出先发阵容?

攻防两端的存在感都越来越低了,骑士应该将他踢出先发阵容?

稻谷与小麦
2026-05-11 01:30:01
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
特朗普拒绝中方要求,美媒连忙警告:别摆架子,中国不期待你访华

特朗普拒绝中方要求,美媒连忙警告:别摆架子,中国不期待你访华

介知
2026-05-11 00:11:29
重要突破!三星堆发现商代晚期中国西南地区最早纯陨铁制品

重要突破!三星堆发现商代晚期中国西南地区最早纯陨铁制品

上观新闻
2026-05-10 15:27:19
浙江一加油站92号汽油6.6元/升被质疑“便宜没好货”,回应:优惠力度大

浙江一加油站92号汽油6.6元/升被质疑“便宜没好货”,回应:优惠力度大

潇湘晨报
2026-05-10 17:11:17
打爆了活塞内线!骑士先发中锋最近两场比赛加起来拿下了40分?

打爆了活塞内线!骑士先发中锋最近两场比赛加起来拿下了40分?

稻谷与小麦
2026-05-11 01:17:41
2026-05-11 04:11:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
480646文章数 761345关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

菁英人居 全能豪宅

艺术要闻

这些美人体摄影,简直美得让人窒息!

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版