我花了一个月记录调研时间,结果挺难堪:每周40小时。不是分析,不是定策略,就是搜资料、整理格式、核对来源。
具体拆分:18小时泡在网页搜索和数据收集,12小时复制粘贴调格式,8小时交叉验证来源,真正做分析和决策只有2小时。按每小时200欧元算,我花大钱干数据录入的活。
![]()
于是我把整个流程重造了一遍。现在每周调研只要4小时,剩下36小时全自动化。这篇文章讲技术实现。
![]()
为什么调研最难自动化
调研不是单一任务,是一条任务流水线,每环需要不同技能:发现未知来源、从无结构页面提取结构化数据、多源交叉验证、把原始数据变成 actionable 情报、在正确时间把洞察推给正确的人。
多数自动化工具只擅长一环,没有原生覆盖全流程的。突破点不是找更好工具,而是把多个工具串成一条流水线。
流水线架构
我搭的系统分三层,每层解决一个调研阶段的问题。
第一层:发现自动化(搜索代理)
人工调研从搜索开始:输关键词、看结果、点链接、收藏页面、循环往复。这是最慢的环节,因为每步都要人做判断。
自动化换个思路。不是被动搜索,而是定义需求,让代理持续监控。
搜索代理是一份声明式配置:命名、指定来源(谷歌新闻、Crunchbase、Linkedin帖子、Product Hunt)、设定查询语句、过滤条件(语言、日期范围、情感倾向)、输出格式(Markdown表格含日期、来源、摘要、相关度评分)、执行计划(每天早上6点运行)、触发警报的关键词(融资、收购、定价变动)。
代理自主运行:查询来源、过滤噪音、提取结构化数据、生成报告。不用手动搜索,不用管理标签页,不用复制粘贴。
关键洞察:代理不取代人类判断,而是把候选内容推给人判断。人还是决定某条融资消息重不重要,但审的是一张筛选好的表格,而不是扫50个来源。
第二层:结构化提取(带模式的网页抓取)
搜索找到页面,下一步是从页面提取数据。多数没API的网站,HTML里仍包含有结构的数据。
naive 做法是用 XPath 或正则抓取。这经常崩:网站改版、CSS类改名、JavaScript框架更新,选择器就失效。
更好的做法是模式驱动抓取。不是硬编码"第3个div里的第2个span",而是定义"公司页面必须包含:名称、成立年份、员工数、总部位置、融资总额"。然后让模型从任意页面结构里提取这些字段。
模式是契约。页面结构变,契约不变。提取逻辑用视觉布局或语义标签定位,不依赖具体DOM路径。
我用的提取层结合了几种技术:视觉模型理解页面布局,把渲染后的页面当图像处理,识别表格、列表、卡片等数据区域;文本模型解析内容,从提取区域里抽具体字段;验证层交叉核对,同一字段多源出现,用一致性评分挑最可靠的值。
输出是结构化记录,不是原始HTML。一条公司记录可能长这样:名称、成立年份、员工数、总部、融资总额、最后融资轮次、来源URL、置信度分数、提取时间戳。
第三层:合成与分发(智能报告生成)
原始数据没价值,洞察才有。第三层把结构化记录变成可读的、可操作的报告。
合成分两步。第一步是聚合:按实体分组记录,合并多源信息,解决冲突值。如果Crunchbase说公司B轮融资5000万,公司官网新闻稿说4700万,系统记录两者并标置信度。
第二步是叙事生成。不是简单拼接文本,而是生成摘要突出变化、异常和模式。对竞争对手监控代理,报告会写:"X公司本周宣布B轮融资,金额较A轮增长300%,但员工增长仅15%,可能预示自动化程度提升或招聘冻结。"
分发用规则引擎。报告按内容路由:融资新闻推给投资关系团队,产品发布推给产品经理,定价变动推给销售负责人。每份报告带相关度评分,低分内容进每日摘要,高分内容即时推送到Slack。
技术栈选择
![]()
这套系统不是单块应用,是编排多个专用服务的流水线。我的选择:
搜索层用 Exa(原 Metaphor)做语义搜索,比关键词匹配更能找相关来源;用 Playwright 做浏览器自动化,处理需要JavaScript渲染的动态页面。
提取层用 Firecrawl 做结构化抓取,它把任意网站转成LLM友好的Markdown;用 Pydantic 定义提取模式,运行时验证;用本地运行的视觉模型做布局理解,避免把敏感页面送第三方API。
合成层用 Claude 3.5 Sonnet 做叙事生成,长上下文窗口能一次处理数十页材料;用 LangChain 做流程编排,但只用它做连接,核心逻辑自己写。
存储用 PostgreSQL 存结构化记录,用 Pinecone 做向量索引支持语义检索,用 S3 存原始页面快照供审计。
实际运行效果
这套系统跑了六个月,处理了我公司90%的常规调研需求。具体数字:
时间:从每周40小时降到4小时,降幅90%。这4小时花在审阅代理输出、验证异常值、做系统不覆盖的定性判断。
覆盖:系统监控87个竞争对手、23个目标市场、14个技术趋势话题。每天处理约2000个来源,生成12-15份定制报告。
准确率:结构化字段提取准确率约94%,剩余6%需要人工复核。叙事生成部分,约80%的洞察可直接使用,20%需要调整或补充背景。
成本:运行成本约每月400美元,主要是API调用和计算资源。之前我时薪200欧元,40小时就是8000欧元每周。现在每周省36小时,成本结构完全改写。
什么不能自动化
这套系统有明确边界。三类任务仍需人工:
关系推断。系统能提取"X公司CEO是Y",但推不出"Y是Z的表弟,而Z在竞争对手董事会"。这类网络分析需要背景知识。
动机评估。系统能报告"某公司裁员20%",但判断这是战略收缩还是财务危机,需要行业经验和非公开信息。
创造性综合。把零散洞察拼成颠覆性假设,目前仍是人类强项。系统擅长优化已知问题,不擅长发现未知问题。
实施建议
如果你想建类似系统,我的建议:
别从工具开始,从工作流开始。先手工记录一周调研活动,标出每步时间和痛点。自动化最痛的环节,不是最有趣的环节。
模式设计比模型选择重要。花更多时间定义"我要什么数据",而不是调prompt。清晰的数据契约比聪明的提取逻辑更可靠。
保持人在回路。全自动是目标,但初期设人工检查点。信任但验证,逐步扩大自动化范围。
接受不完美。94%准确率意味着6%错误。设计系统时考虑错误处理:怎么发现错误、怎么快速修正、怎么不让错误累积。
我的系统还在迭代。下一步是加多模态输入,让代理能处理财报电话会议录音和YouTube产品演示。再下一步是预测层,不只报告发生了什么,还提示"基于这些信号,建议关注X"。
但核心原则不变:自动化信息收集,放大人类判断。不是取代思考,是把时间还给思考。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.