OPPO 小布记忆：全模态碎片化内容的理解与智能整理实践｜AICon 上海|算法|上海市|大模型|oppo

OPPO 小布记忆：全模态碎片化内容的理解与智能整理实践｜AICon 上海

2026-05-29 17:45:18　来源: 新浪财经

河北举报

分享至

来源：InfoQ

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日 -6 月 27 日，AICon 全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+ 头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

OPPO 高级算法工程师王闯闯已确认出席 “Agent 数据、记忆与运行时基础设施” 专题，并发表题为《小布记忆：全模态碎片化内容的理解与智能整理实践》的主题分享。用户每天产生大量碎片化内容——截图、语音、视频、文档、多图……如何让 AI 理解这些异构多模态数据，并自动整理成有价值的"记忆"？

本次演讲将介绍 OPPO 小布记忆的技术实践：首先，构建端云协同的一键闪记架构，基于自研 AndesVL 多模态大模型实现端侧推理，通过智能任务分流实现 80% 简单场景端侧处理、20% 复杂场景云侧处理；其次，深入讲解多模态理解能力，包括截图 / 语音 / 视频 / 文档 / 多图等全模态理解、POI/ 时间 / 价格等结构化信息提取、Dense Caption 端侧图片理解等；再次，介绍关联记忆与合集归纳的内容聚合方案，实现从碎片到结构化记忆的自动整理；最后，分享流程化算法开发工作流与自动化评测体系的工程实践。

王闯闯，负责 OPPO 大模型算法团队核心业务，主导平台 AI 能力和小布记忆产品的算法架构设计与落地，涵盖一键闪记、记忆管理 Agent、合集生成、垂域洞见、自研 AndesVL 端侧大模型等多个核心模块，带领团队完成多项 S 级 /A 级需求交付，算法效果全面领先竞品。研究方向：AI Memory、端侧大模型、LLM 应用工程化。他在本次会议的详细演讲内容如下：

演讲提纲：

问题背景：为什么需要全模态记忆整理，为什么难
- 碎片化内容的多模态特性：截图、语音、视频、文档、多图的异构挑战
- 三大核心难点：模态异构理解、跨模态关联、结构化生成
- 用户价值与业务场景：从碎片到有序记忆的产品目标
一键闪记整体架构：端云协同的多模态理解框架
- 产品层触发入口：
- 小布记忆（单击 / 长按 / 双击）、魔方按键、小布助手（Query/ 主动 / 推荐气泡）
- 端侧采集框架（三指上滑 / 点击交互）、截屏（普通截图 / 长截图）
- AI 流体云（取餐码）、密码本（个人信息）、日历（日程 / 待办）、相机（大师参数）
- 端侧引擎（基于自研 AndesVL 多模态大模型）：
- 采集：图文提取、语音转 ASR、视频
- 端侧算法（AIUnit）：NER&OCR 能力、图片分类和总结、结构化字段、取餐码、账单、大师参数等
- 存储记忆数据
- 云侧服务：
- 内容安全
- 复杂推理任务：复杂订单提取、复杂 NER 提取、复杂日程待办
端云任务分流与多模态理解能力
- 分流模块：对输入图文信息进行分析，生成分类标签；根据分类标签进行任务规划
- 简单场景（流量占比 80%）：直屏 / 焦点屏（单屏）+ 手机 + 任务数≤2 + 单标签单实例（如单个订单、单个火车票、单个日程），需同时满足
- 复杂场景（流量占比 20%）：分屏 / 多浮窗 / 平板，或任务数 2，或多标签分类 / 多实例信息（如多个日程、多个火车票）
- 多模态理解能力
- 截图理解：11 类场景分类、POI/ 时间 / 价格等结构化信息提取、Dense Caption 端侧图片理解
- 语音理解：语音转 ASR、意图识别、关键信息提取（语音记 - 日程待办、语音记 - 记账）
- 图文理解：结构化提取、日程待办、取餐码、记账、文本 - 记账分类
- 视频理解：关键帧提取与内容摘要生成
- 文档 / 多图理解：长文档结构化、多图相册的批量理解
- 多语种 POI 提取：英语、印地语、印尼语场景优化
- 端云结果合并：端侧抽取结果传到云端后处理 → 云侧合成最终结果 → 返回端侧 AIUnit → 流体云服务下游分发
内容聚合与智能整理：从碎片到结构化记忆
- 关联记忆：多规则融合召回（标题 / 实体 / 标签匹配）+ Rerank + LLM 精排
- 合集归纳：用户手动创建、A 标签推荐、洞见推荐三链路统一 → Reranker + Verify 两阶段聚合
- 合集分类与总结：分类 LLM 识别知识 / 旅行 / 健康合集 → 自适应摘要模板
- 效果数据：合集创建准确率 83% → 97%，新记忆加入准确率 76% → 95%+
工程实践与效果验证
- 流程化算法开发：Model Selection → Prompt Eng（人工 +APE）→ Business Benchmark
- 自动化评测体系：LLM-as-a-Judge 的多维度质量保障，badcase 反馈闭环
- 核心效果指标：场景分类准确率、结构化信息提取准召率、合集创建准召率

听众收益：

掌握端云任务分流的设计方法：如何定义简单 / 复杂场景边界，如何通过分类标签生成动态 Prompt，如何在保证效果的同时最大化端侧推理占比（80% 流量端侧化）
了解全模态理解的技术挑战与解决方案：如何基于自研 AndesVL 多模态大模型构建端侧推理能力，端侧 AIUnit 支持的任务类型（图文 - 结构化提取、日程待办、取餐码、记账等），以及端侧推理优化策略（Prompt 精简、输出格式优化、图片 resize）
掌握内容聚合的双路方案：关联记忆的多规则融合召回 + Rerank + LLM 精排架构，合集归纳的三链路统一 + Reranker/Verify 两阶段聚合方案，以及如何平衡召回率与准确率
学习合集分类与自适应总结的实现方法：分类 LLM 如何识别知识 / 旅行 / 健康合集，不同垂类如何切换摘要模板，以及如何避免模型幻觉
学习 LLM 应用的工程化实践：流程化算法开发工作流（Model Selection → Prompt Eng → Business Benchmark）、自动化评测体系（LLM-as-a-Judge）、badcase 反馈闭环等可直接复用的方法论

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+ 资深专家在现场带来前沿技术洞察和一线实践经验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.