网易首页 > 网易号 > 正文 申请入驻

Notion被塞进一个AI管家:3个工程师用声音操控电脑

0
分享至


去年有个做SaaS的朋友跟我吐槽:他的团队试了7款AI Agent工具,最后全弃了。问题不是不够智能,是太智能了——任务跑完,只剩一个结果,中间怎么崩的、去哪查的资料、为什么选A不选B,全黑箱。审计要翻日志,复盘要凭记忆,知识沉淀更是无从谈起。

这大概是AI Agent最讽刺的悖论:帮你省时间的工具,反而制造了新的信息黑洞。

Notion MCP挑战赛上有个叫Rio的项目,解法粗暴但有效——让AI把脑子里的每一步都写进Notion,实时、结构化、可搜索。不是事后导出,是边想边写。用户说话下指令,Rio的多个Agent分工执行:Orchestrator(调度器)拆任务、UI Navigator(界面导航器)操控浏览器、Creative Agent(创作代理)写报告。每个动作同时落库,像给AI装了台直播摄像机。

开发者形容得挺准:Notion不是插件,是Rio思考的介质。

Agent的黑箱病,用"实时笔记"治

现在的AI Agent有个通病:来无影去无踪。你丢过去一个需求,它后台启动虚拟机、调API、跑脚本,最后扔给你一份总结。看起来高效,实则隐患一堆——出错时没法溯源,合规时拿不出证据,团队协作时接不上上下文。

Rio的架构设计直接针对这个痛点。每个Agent配备一个NotionMemory模块,logger.info()的每一行都同步写成Notion数据库的一行。Orchestrator认领任务时写一条,UI Navigator点击浏览器按钮时写一条,Creative Agent生成段落时写一条。状态、详情、时间戳,全结构化存储。

代码片段显示,日志写入是异步await调用,不阻塞主流程。这意味着性能损耗可控,但信息密度暴增。用户随时打开Notion,能看到Agent此刻正在查哪个网页、卡在哪一步、用了什么关键词。

这种设计对产品经理出身的团队尤其有杀伤力。我们太熟悉那种场景:演示时AI表现完美,客户买单后现场翻车,然后双方对着一个黑盒互相甩锅。Rio把过程透明化,本质上是把技术债务前置消化。

MCP协议:让Notion从仓库变大脑

Rio用到了MCP(Model Context Protocol,模型上下文协议),这是Anthropic去年推出的开放标准,想让AI模型安全地连接外部数据源。Rio的实现分两层,每层对Notion的用法都不一样。

第一层是结构化日志(Structured Logging)。纯写入,单向流,解决"留下了什么"的问题。第二层更激进——Notion作为推理工具(Reasoning Tool),Agent执行中主动查询和写入,双向交互。

具体看代码:Creative Agent写报告前,会先调用notion-search翻一遍现有页面,避免重复造轮子。Orchestrator则持续轮询Task Queue数据库,像外卖骑手刷派单大厅。MCPToolset初始化时显式声明了三个工具:搜索、创建页面、查询数据库,权限粒度很细。

这里有个产品细节值得玩味。Rio没有让Agent直接操作Notion的块级结构(blocks),而是封装在数据库(database)层面。数据库有固定schema,比自由文档更适合机器读写,也更容易后续做分析、看板、自动化。换句话说,开发者预判了用户"事后想怎么用这些数据"的需求

零配置上手:OAuth流程里的用户洞察

技术Demo常犯一个错:演示时惊艳,部署时崩溃。Rio的接入流程明显受过产品经理的打磨。

用户点击"Connect Notion",走完整的OAuth 2.0 + PKCE流程。PKCE(Proof Key for Code Exchange)是移动端常用的安全扩展,防止授权码被截获。Rio把它用在桌面Agent场景,说明团队对token泄露风险有警觉。

授权完成后,Rio在session内存中保管token,不硬编码任何数据库ID。然后自动调用auto_setup(),在用户工作区创建两个数据库:Rio Logs(运行日志)和Rio Task Queue(任务队列)。零手动配置,开箱即用的背后,是对"用户懒得读文档"这一人性的尊重

最后WebSocket初始化,把NotionMemory和MCPToolset注入各Agent。整个流程三步:登录、授权、开用。对比某些需要复制粘贴数据库ID、手动调权限的竞品,Rio的漏斗转化率应该会好看很多。


声音交互:为什么是语音,以及为什么现在

Rio的入口是语音输入,这在AI Agent里不算主流。多数产品选择聊天窗口或API调用,语音被视为"锦上添花"的功能。

但Rio团队可能算过一笔账:他们的目标场景是"用户说话,Agent执行复杂桌面任务"。如果用户已经腾不出手(比如在做饭、开车、或者只是懒得切换窗口),语音是唯一的自然交互方式。更关键的是,语音输入强制简化了指令结构——用户不会粘贴三千字Prompt,只会说"查一下竞品A最近三个月的价格变动,做个对比表"。

这种约束反而是好事。Agent接收到的任务边界清晰,Orchestrator拆解时歧义更少。Rio的架构图显示,语音输入后直接进入调度层,没有冗长的意图识别模块,说明团队对当前ASR(自动语音识别)的准确率有足够信心。

一个推测:Rio可能用了Whisper或类似的端到端模型,而非传统的NLP流水线。这解释了为什么他们能跳过"语音转文字→语义解析→任务映射"的复杂环节,直接把语音当结构化输入用。

多Agent协作:没有中央大脑,只有分工协议

Rio的架构图里有三个核心Agent:Orchestrator、UI Navigator、Creative Agent。没有"主控AI",只有基于Notion状态的松耦合协作。

Orchestrator盯着Task Queue,有新任务就认领,决定派给谁。UI Navigator收到指令后,操控浏览器完成网页交互——点击、输入、滚动、截图。Creative Agent则负责最终的内容产出,写报告、做总结、生成可交付物。

这种设计和Single-Agent架构有本质区别。后者把所有能力塞进一个模型,上下文窗口爆炸,幻觉概率陡增。Rio的拆分让每个Agent专注窄域,Prompt可以更精确,失败时也容易定位。Notion在这里充当了一个低成本的消息总线,Agent之间不直接通信,而是通过数据库状态间接同步。

代码片段里有个细节:UI Navigator的每一步浏览器操作都带action和status字段。这意味着用户能看到"正在点击搜索框""输入关键词'AI Agent'""等待页面加载"这样的细粒度状态。对于耗时任务,这种反馈能显著缓解焦虑——你知道它没死,只是慢。

Notion的野心:从笔记软件变成AI基础设施

Rio选择Notion而不是自建存储,有个务实的考量:Notion已经渗透了目标用户的工作流。对于25-40岁的科技从业者,Notion往往是项目管理的默认界面。Agent的输出直接写进熟悉的环境,学习成本趋近于零。

但更深一层,Rio验证了Notion作为"AI可读写基础设施"的可能性。MCP协议的出现,让Notion从"人记笔记的地方"变成"机器也能读写的知识库"。这对Notion公司是巨大的战略利好——他们不需要自己做AI,只需要成为AI最愿意连接的数据层

对比Obsidian、Roam Research等竞品,Notion的数据库结构和API成熟度更适合机器交互。Rio的开发者提到,他们试过其他方案,最后卡在"怎么让Agent高效查询历史记录"上。Notion的搜索API和数据库查询能力,恰好解决了这个痛点。

一个值得观察的信号:Rio之后,Notion MCP挑战赛涌现了几十个类似项目,方向从代码生成到财务分析不等。这说明"AI+Notion"的组合已经被开发者社区认可,接下来要看Notion官方会不会把MCP支持做成一级功能,而非依赖第三方集成。

产品化的隐患:当日志爆炸时怎么办

Rio的Demo很干净,但真实场景会暴露压力测试的问题。假设用户让Rio监控某个网站的价格变动,每小时执行一次,每次产生50条日志。一个月下来就是3.6万行记录,Notion数据库的查询性能会不会崩?

更麻烦的是信息检索。结构化日志解决了"有没有"的问题,但没解决"怎么快速找到"。Rio目前的实现依赖Notion原生的搜索和过滤,当数据量上去后,用户可能需要更高级的查询能力——比如"找出所有UI Navigator在amazon.com上耗时超过10秒的操作"。

开发者在文档里提到,他们考虑过导出到专用分析工具,但为了保持"零配置"的体验,暂时搁置了。这是一个典型的产品权衡:易用性 vs. 可扩展性。Rio选择了前者,但留下了技术债。


另一个隐患是token安全。Rio把Notion访问令牌存在session内存,服务重启就丢失,需要重新授权。这对个人用户是保护,对企业用户可能是麻烦——IT部门通常希望token能持久化、可审计、可轮换。Rio的OAuth流程没有暴露refresh token的机制,长期使用的稳定性存疑。

竞品对比:为什么Rio不是又一个AutoGPT

2023年AutoGPT爆火时,很多人以为AI Agent的时代来了。结果是一地鸡毛:任务跑飞、成本爆炸、输出不可用。核心问题是AutoGPT让单个模型既当指挥又当执行,上下文管理混乱,没有可靠的外部记忆。

Rio的解法是把记忆外包给Notion,把执行拆给专用Agent。这不是架构炫技,是对AutoGPT失败经验的直接回应。Multi-Agent + 外部结构化存储,成了新一代Agent项目的标配设计。

对比最近推出的Devin(AI软件工程师)和OpenAI的Operator,Rio的定位更轻量、更开放。Devin封闭在自有环境,输出格式固定;Operator绑定ChatGPT生态,数据沉淀在OpenAI。Rio选择寄生在用户的Notion工作区,数据所有权清晰,迁移成本可控。

代价是Rio没有自己的模型,完全依赖底层能力。如果GPT-5或者Claude 4升级后API行为变化,Rio需要跟进适配。这是一种战略选择:做薄中间层,快速跟随,而不是重资产押注单一模型。

开发者背景:3人团队的产品直觉

挑战赛提交页面没有透露团队规模,但从代码结构和文档完整度推测,Rio是3-5人的小团队作品。特点是工程实现扎实,产品文档比技术文档更用心——这在黑客松项目里不多见。

一个细节:Rio的GitHub仓库没有放架构图,而是放了一段"30秒理解Rio"的语音交互脚本。场景是用户说"帮我准备明天的产品评审会",Rio自动查日历、拉需求文档、对比竞品数据、生成讨论要点。这种叙事方式比技术参数更能打动评委和使用者。

团队显然理解Notion MCP挑战赛的评选标准:不是技术最难,而是最能让Notion用户"啊哈"一下。Rio的"实时笔记"概念,恰好击中了Notion核心用户群的痛点——他们已经在Notion里管理一切,现在想要AI也遵守这个秩序。

落地场景:谁会用,以及用来干什么

Rio的Demo场景偏向知识工作者:市场研究、竞品监控、报告生成。但架构本身不限于此。UI Navigator的存在,意味着任何浏览器能完成的操作都可以自动化——填表、抢票、比价、甚至游戏挂机。

一个可能的延伸方向是电商运营。卖家需要监控竞品价格、跟踪库存变化、批量更新商品信息,这些任务规则明确、重复性高、需要审计痕迹。Rio的Notion日志正好满足合规需求,语音触发则适合移动场景。

另一个场景是个人知识管理。比如"把我过去三个月收藏的关于RAG(检索增强生成)的文章,按应用场景分类,输出一份学习路径"。Rio可以自动打开Notion的Web Clipper数据库,读取标签,调用搜索补全信息,最后生成结构化页面。这里的价值不是省时间,是把"稍后读"真正变成"已消化"

企业场景的门槛更高。Rio目前的OAuth流程要求每个用户单独授权,无法做组织级别的集成。如果Notion企业版能支持管理员预授权第三方应用,Rio的部署成本会大幅下降。

技术债与未来:Rio还需要什么

Rio的当前版本是挑战赛提交作品,距离生产环境还有距离。优先级最高的可能是错误处理——Demo里所有操作都标记"done",真实世界会有超时、验证码、页面结构变化导致的Selector失效。

其次是成本优化。Rio的多Agent架构意味着多次LLM调用,加上Notion API的速率限制,高频使用时的账单可能不好看。开发者提到考虑过本地小模型处理简单任务,但还没实现。

长期看,Rio的真正竞争壁垒不是技术,而是用户数据沉淀。当用户的Rio Logs积累到足够多,迁移到其他Agent平台的成本会陡增。这是Notion生态的粘性逻辑,Rio只是借道而行。

一个开放的问题是:如果Notion官方推出类似的Agent功能,Rio怎么办?参考Figma收购Diagram、Notion自己收购Cron的历史,小团队的最佳出路可能是被招安。但在那之前,Rio需要证明自己能跑通商业化——比如按任务量收费,或者卖企业版的安全合规套件。

Rio的开发者最后更新文档时,加了一句用户反馈:"我终于知道我的AI在干什么了。"这句话或许比任何架构图都更能说明价值。当AI Agent从黑箱变成玻璃房,信任的建立才是规模化应用的开始。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一老太太花24块钱买卤菜,顺走40多块钱的大肠,偷第二次时被发现,店主:当时没反应过来东西丢了,等老人走后清点了下才明白

江苏一老太太花24块钱买卤菜,顺走40多块钱的大肠,偷第二次时被发现,店主:当时没反应过来东西丢了,等老人走后清点了下才明白

洪观新闻
2026-03-30 15:41:26
儿子去世一周后,白发人送黑发人的张妈妈状态曝光,未来令人心痛

儿子去世一周后,白发人送黑发人的张妈妈状态曝光,未来令人心痛

妙知
2026-03-31 10:42:52
毛主席晚年为何要“批孔”?起初大家都不理解,如今终于明白!

毛主席晚年为何要“批孔”?起初大家都不理解,如今终于明白!

老谢谈史
2026-03-30 12:59:58
斯诺克最新战报:8强已出其5,中国仅剩一席,吴宜泽打法大变!

斯诺克最新战报:8强已出其5,中国仅剩一席,吴宜泽打法大变!

不甜的李子
2026-03-31 13:36:30
刚刚,直线飙升!特朗普,突然释放重磅信号!

刚刚,直线飙升!特朗普,突然释放重磅信号!

数据宝
2026-03-31 11:31:45
伊朗谴责以色列袭击科威特海水淡化厂

伊朗谴责以色列袭击科威特海水淡化厂

看看新闻Knews
2026-03-30 23:51:05
天然气即将断供,台湾快坚持不下去,赖清德摆烂,统一是唯一选择

天然气即将断供,台湾快坚持不下去,赖清德摆烂,统一是唯一选择

凡知
2026-03-30 22:21:02
公园打花事件后续:景区回应,保洁老人被开除,网友评论一针见血

公园打花事件后续:景区回应,保洁老人被开除,网友评论一针见血

潮鹿逐梦
2026-03-31 10:44:17
美官员:特朗普决定逐步停战

美官员:特朗普决定逐步停战

极目新闻
2026-03-31 10:51:24
大S去小玥儿学校照曝光 托腮看女儿上课慈爱温柔

大S去小玥儿学校照曝光 托腮看女儿上课慈爱温柔

TVB的四小花
2026-03-31 11:39:03
字节某员工:犹豫了很久,决定入籍新加坡了

字节某员工:犹豫了很久,决定入籍新加坡了

蚂蚁大喇叭
2026-03-30 16:32:25
山东高密化工厂爆炸案调查结果公布:10人被追究刑责,49人被建议处分处理

山东高密化工厂爆炸案调查结果公布:10人被追究刑责,49人被建议处分处理

封面新闻
2026-03-30 20:21:04
109-119比赛让4队受益,骑士首轮对手确定,哈登选择正确

109-119比赛让4队受益,骑士首轮对手确定,哈登选择正确

曦言说
2026-03-31 10:35:00
教皇:耶稣拒绝好战者,你们的手上沾满鲜血

教皇:耶稣拒绝好战者,你们的手上沾满鲜血

观察者网
2026-03-30 08:44:05
郑丽文将访问大陆,重启什么,开创什么?

郑丽文将访问大陆,重启什么,开创什么?

新民周刊
2026-03-31 09:08:20
重庆一隧道发生爆炸事故,致4人死亡

重庆一隧道发生爆炸事故,致4人死亡

界面新闻
2026-03-31 08:29:34
一对母女同框征婚火了!母亲3万8、女儿8万8,网友神评笑翻全网

一对母女同框征婚火了!母亲3万8、女儿8万8,网友神评笑翻全网

行者聊官
2026-03-30 12:53:10
重庆一高校多名贫困生兼职送外卖被处分,最新进展:校方中止处分流程,未实际处罚

重庆一高校多名贫困生兼职送外卖被处分,最新进展:校方中止处分流程,未实际处罚

湖南法治报
2026-03-30 14:47:57
面相大变?那个砸神像、睡坟场“八字命硬”的网红,如今差别太大

面相大变?那个砸神像、睡坟场“八字命硬”的网红,如今差别太大

鲸探所长
2026-03-30 19:37:08
美军使用钻地弹袭击伊朗大型弹药库

美军使用钻地弹袭击伊朗大型弹药库

新京报
2026-03-31 10:44:11
2026-03-31 15:31:00
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
544文章数 2关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

手机
旅游
艺术
游戏
家居

手机要闻

四曲面屏重出江湖!iPhone 20将搭载1.1毫米极窄边框

旅游要闻

“登遍四川”怎能少了蜀山之王?贡嘎山盛邀:人间四月天,海螺看杜鹃

艺术要闻

石涛『野色册』

在武林风云中成为一代宗师——《宗门起源》现已登陆 Steam!

家居要闻

新婚爱巢 甜蜜情趣拉满

无障碍浏览 进入关怀版