网易首页 > 网易号 > 正文 申请入驻

OpenAI把搜索做成决策引擎,90%团队却还在当爬虫用

0
分享至


一个调研任务,AI搜了47个网页,输出3000字报告,产品经理看完直接扔回收站。不是信息不够,是看完更不知道怎么决策了。这场景在2024年反复上演,直到有人意识到:研究型智能体(Research Agent)的根本价值从来不是"搜得多",而是"判得准"。

当前行业有个荒诞的分裂。一方面,Perplexity、OpenAI的Deep Research、Google的Gemini Deep Research把搜索+推理的链路跑通,用户开始习惯"问复杂问题,拿结构化答案";另一方面,企业内部落地的"研究Agent"大多沦为高级爬虫——输入关键词,输出摘要,中间零判断。某头部云厂商的内部调研显示,其客户部署的研究类Agent中,73%的查询停留在单轮检索,没有证据比对环节。

检索便宜,合成才是价值。

原文作者画了一张流程图,把生产级研究Agent的骨架拆成8个函数:澄清问题、分解子问题、搜索来源、过滤来源、提取主张、比对证据、解决冲突、引用式总结。这串动作对应一个被忽视的真相——资深分析师的研究流程本身就是Agentic的,只是过去用Excel和咖啡模拟,现在用代码自动化。

但自动化不等于智能化。多数失败案例栽在同一个坑:把"能访问网页"当成"能做好研究"。

研究Agent的两种死法

第一种死法是幻觉型自信。没有工具调用的研究Agent,面对"2025年企业级Agentic AI客服落地案例"这类时效性问题,会基于训练数据编造客户名称和部署规模。某AIinfra创业公司的内部测试显示,纯LLM在回答"LangGraph vs CrewAI生产环境架构取舍"时,32%的"事实陈述"存在版本号错误或功能描述过时。

第二种死法是信息淹没。某咨询公司给研究Agent的评估指标是"单任务处理网页数"和"报告字数",结果Agent为了刷指标,把reddit讨论和官方文档同等权重塞进答案。产品经理拿到20页PDF,里面夹着3条高价值洞察和17页噪音。

原文作者提了一个尖锐的区分:决策支持型研究 vs 内容工厂型研究。前者输出可行动的洞察(actionable insight),后者输出趋势摘要(trend summary)。这个区分直接指向评估标准的重构——别再问"总结了多少页",要问"呈现了多少反方证据"。

冲突不是故障,是洞察的来源。

生产级研究Agent必须内置"合成循环"(Synthesis Loop):比对→权衡→精炼。当两个信源对"AutoGen是否适合金融级合规场景"给出相反结论时,Agent的任务不是选边站,而是标注分歧、评估信源可信度、给出置信度评分。这要求Agent具备一种反直觉的设计:主动暴露自己的不确定。

原文列了信源评估的四个维度:作者资质、引用网络、时效性、利益相关度。听起来像图书馆学基础课,但90%的"AI搜索"产品没做这层过滤。Perplexity的早期版本曾因过度依赖Medium博客文章而被嘲讽"用自媒体写论文",后来的迭代重点正是信源分层——学术期刊、官方文档、一手财报优先,观点类内容降级。


工具调用是放大器,不是替代判断。研究Agent需要对接搜索引擎、数据库、API,但工具返回的原始数据必须经过"证据提取层"处理。一个典型反模式是:Agent拿到SEC文件全文,直接塞进上下文窗口让LLM"总结一下",结果关键风险披露被淹没在200页法律文本中。

信任靠克制建立

原文作者画了条红线:永远不要让Agent自主决定"什么信息重要",永远不要让Agent在没有引用的情况下陈述事实,永远不要相信没有置信度评分的结论。这三条禁令指向同一个设计原则——研究Agent的输出必须是可审计的,每个主张都能追溯到具体信源。

某金融科技公司的实践案例很说明问题。他们的研究Agent在分析"某东南亚数字银行牌照申请进展"时,系统强制要求对每个关键节点标注信息源类型:监管机构公告(Tier 1)、当地媒体报道(Tier 2)、LinkedIn员工动态(Tier 3)。Tier 2/3的信息可以被纳入分析,但必须在输出中明确标注可靠性折扣。这个设计让合规团队敢于采用Agent输出,而不是像对待黑箱一样反复人工复核。

评估指标同样需要重构。原文建议关注:决策速度提升、人工复核率变化、下游决策准确率。与之相对,"处理网页数""报告字数""用户满意度评分"都是误导性指标——用户可能因为报告看起来专业而打高分,尽管它根本没回答核心问题。

研究Agent的本质是判断外包,不是劳动外包。

这个区分决定了产品形态。劳动外包型Agent追求端到端自动化,用户输入问题、拿到答案、流程结束。判断外包型Agent则在关键节点强制引入人类:问题澄清阶段确认边界条件,证据冲突阶段选择处理策略,置信度不足时标注"建议人工深入"。

原文作者用了一个产品经理熟悉的类比:好的研究Agent像资深分析师的初稿,坏的研究Agent像实习生剪贴的资料堆。两者的差距不在信息量,而在"这里有个矛盾,我需要告诉你"的判断力。

2024年下半年,多个团队开始公开讨论研究Agent的"认知架构"设计。Anthropic的Claude在系统提示中强调"先思考再回答",OpenAI的Deep Research展示多轮搜索的推理痕迹,这些产品的共同点是让用户看到"思考过程"而非仅展示"结论"。这不仅是可解释性需求,更是建立信任的必要条件——当用户能看到Agent为什么相信A而不相信B,才敢把决策权部分让渡。

从搜索工具到决策基础设施

研究Agent的终局形态可能是企业知识流的重新布线。当前多数企业的决策链条是:业务问题→人工调研→专家会议→决策。研究Agent的插入点不是替代人工调研,而是压缩"从问题到可讨论假设"的周期。某跨国药企的试点项目中,研究Agent把"某适应症竞争格局分析"的前置准备时间从3周降到3天,专家会议从"信息同步"变成"基于共同假设的辩论"。

但这个价值实现有严格的前提条件。原文反复强调:研究Agent的问题是认识论问题,不是技术问题。团队如果没想清楚"什么算好证据""如何处理冲突""如何表达不确定",堆再多工程能力也是南辕北辙。

一个值得关注的细节是原文的结尾设计——没有总结升华,只有一句"帮助人类更快做出更好决策,且保持清醒"。这本身就是产品哲学的体现:研究Agent的KPI不是替代人类判断,而是让人类在更充分的信息基础上做判断。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沈南谈张雪峰葬礼:最初大家都克制小声哭,张母大哭全场都放声哭

沈南谈张雪峰葬礼:最初大家都克制小声哭,张母大哭全场都放声哭

喜欢历史的阿繁
2026-03-29 18:56:46
重庆师范大学15名本科生被学校退学,被退学原因公布,值得重视

重庆师范大学15名本科生被学校退学,被退学原因公布,值得重视

凯旋学长
2026-03-29 13:36:22
人生建议:千万不要被别人随便借运

人生建议:千万不要被别人随便借运

十点读书
2026-03-28 18:37:56
美国智库警告:一旦中美台海开战,美军将有92%几率击败解放军?

美国智库警告:一旦中美台海开战,美军将有92%几率击败解放军?

别人都叫我阿螫
2026-03-29 17:02:30
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
我今年55了,想用血泪教训告诉你:永远不要在朋友圈晒4样东西,真的很傻!

我今年55了,想用血泪教训告诉你:永远不要在朋友圈晒4样东西,真的很傻!

东林夕亭
2026-03-20 09:02:31
1951年,戴笠的儿子戴善武被执行死刑,被枪毙的时候才36岁

1951年,戴笠的儿子戴善武被执行死刑,被枪毙的时候才36岁

百年历史老号
2026-03-28 20:32:38
俄军士兵遇到乌克兰当地凶兽!还没脚掌大却凶猛无比,寸步不让

俄军士兵遇到乌克兰当地凶兽!还没脚掌大却凶猛无比,寸步不让

狸猫之一的动物圈
2026-03-29 10:05:12
笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

夜深爱杂谈
2026-03-21 19:50:42
遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

奇思妙想草叶君
2026-03-26 02:36:58
4月将至,2026退休人员基本养老金调整通知来了吗?还会调整吗?

4月将至,2026退休人员基本养老金调整通知来了吗?还会调整吗?

夜深爱杂谈
2026-03-29 18:06:40
17战15胜,新鹰王26+5+10起飞!三方交易又捡漏19分13板火箭弃将

17战15胜,新鹰王26+5+10起飞!三方交易又捡漏19分13板火箭弃将

锅子篮球
2026-03-29 13:26:09
西蒙斯开心晒渔获引热议!球迷羡慕:手握两亿美刀过上最爽的日子

西蒙斯开心晒渔获引热议!球迷羡慕:手握两亿美刀过上最爽的日子

罗说NBA
2026-03-29 06:55:46
摩洛哥OUT!徐阳现场感受CMG群众足球赛:中国群众足球更纯粹

摩洛哥OUT!徐阳现场感受CMG群众足球赛:中国群众足球更纯粹

懂球帝
2026-03-29 19:49:11
伊朗首次劝返两艘中国商船 霍尔木兹规则正在改变

伊朗首次劝返两艘中国商船 霍尔木兹规则正在改变

桂系007
2026-03-27 22:41:10
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
最坏情况发生,美军舰载机在沿海被击中,白宫意识到大国出手了!

最坏情况发生,美军舰载机在沿海被击中,白宫意识到大国出手了!

无情有思ss
2026-03-27 19:41:34
对巴拿马的反制措施来了,一箩筐那么多

对巴拿马的反制措施来了,一箩筐那么多

远方青木
2026-03-29 00:03:28
于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

往史过眼云烟
2026-03-23 19:27:43
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
2026-03-29 20:31:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
413文章数 27关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

时尚
亲子
房产
公开课
军事航空

今年春天最火的叠穿法则,照着搭时髦又减龄!

亲子要闻

宝蓝和爸爸叔叔挑战盲选三种颜色做彩泥,看看谁做的彩泥更漂亮!

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版