95后华人创业开发首个大视觉记忆模型，像人类一样看见并“记忆”|推理|上下文|人工智能|神经网络

分享至

AI 能否像人类一样真正“看见”并形成持久的“记忆”？如今，这一设想正逐渐成为现实。

这一突破性进展的实现，源自 28 岁华人沈俊潇（Shawn Shen）所创立的美国硅谷初创公司 Memories.ai。该公司不久前发布了全球首款大型视觉记忆模型（LVMM，Large Visual Memory Model），突破性地实现了对海量视觉信息的长期存储、快速检索与深度推理。

这一技术正应用于安防、个性化 AI 助手、媒体创作等众多领域。根据公司描述，其“准确率极高，甚至能精确达到毫秒级理解”，让机器像人类一样理解世界，为构建下一代具备持续学习能力的通用人工智能奠定基础。

值得关注的是，沈俊潇的学术与职业背景也为这一技术突破提供了坚实支撑。他在英国完成高中学业后，获得全额奖学金进入英国剑桥大学连续攻读本科、硕士及博士学位，其后曾担任 Meta Reality Labs 的研究科学家，在虚拟与增强现实领域积累了大量前沿经验。目前，他还同时担任英国布里斯托大学助理教授，持续推动视觉计算与人工智能领域的交叉研究。

有望为多个领域带来颠覆性变化

未来的通用人工智能（AGI）如果要在某些方面接近人类，就必须具备两个彼此独立的核心能力：智力与记忆。这两者分属不同维度——正如一个人可能聪慧却健忘，或记忆力超群但推理能力有限。

当前，无论是工业界还是学术界，大多将重心放在提升 AI 的智力层面，而对 AI 长期记忆机制的系统性探索仍显不足。尽管已有部分企业开始涉足这一领域，但多数局限于文本级别的上下文工程（context engineering），尚未深入更本质的视觉化记忆架构。

在沈俊潇看来，文字从本质上并不能构成真正的记忆，它更近似于一种短期上下文。这种形式虽然能够支撑程序性记忆（procedural memory），却难以承载人类真正意义上的长期记忆——情景记忆（episodic memory）。

他举例解释道：“当一个人回想起上次吃汉堡的情景，脑海中浮现的是具体的画面，比如汉堡的外观，而非‘我吃了一个汉堡’这样的文字描述。”据他介绍，人类记忆中约 80% 属于视觉化内容，仅有约 20% 为文字或程序性内容。因此，构建 AI 的长期记忆更应聚焦于引入视觉记忆机制，而非停留在文本层面。

受人类记忆结构的启发，Memories.ai 在开发 LVMM 时，设计了一套完整的记忆处理架构，其能够准确解析用户意图、精准定位并提取相关的视觉记忆片段、整合所有关联视觉信息，并能够基于这些记忆内容与用户当前查询进行复杂推理。

该系统包括多个功能模块：一个负责将记忆线索转换为可检索请求的查询模型、一个执行粗粒度筛选的检索模型、一个支持全模态索引的存储模型、一个执行细粒度信息提取的选择模型、一个用于记忆监控的反射模型，以及一个实现记忆重建的重构模型。

沈俊潇对 DeepTech 表示：“LVMM 部分功能依托视频检索，但其核心远不止于此。理解 10 小时视频与 1 小时视频在基础技术上或许相似，但实现百万小时级别的视觉理解，则需根本性的架构创新——包括数据库设计、算法优化与底层基础设施的重构。目前，我们可处理数据库的规模已经达到亿级。”

根据 Memories.ai 发布的技术报告，LVMM 在视频分类、检索与问答等多个任务中都表现出卓越性能。其中一个显著的对比是，在视频分析时长方面，OpenAI GPT 4o 是 3 分钟，Google Gemini 2.5 Pro 可实现 1 小时，而 LVMM 是近乎无限的视觉记忆。

据介绍，LVMM 的长期视觉记忆有望在多个领域带来颠覆性的变化。

安防监控领域，核心挑战在于实现持续的身份识别。一个典型的案例是，在电视剧《我是刑警》的情节中，警方曾动员数百人通宵筛查监控视频以追踪嫌疑人。而借助 LVMM 系统，同类任务可通过 AI 自动观看并快速定位目标片段，甚至可对从童年到成年阶段的人物进行追踪，并极大提升效率。

沈俊潇还举例说道：“不同地区对危险的定义存在差异，例如美国各州对同一行为的判定可能截然不同，系统需借助长期学习以理解这些场景特征。”

AI 助手与硬件方向，个性化是重要发展趋势。理想的 AI 助手应能理解用户所见所闻，从而更精准地响应需求。现有工具如 ChatGPT 虽智力表现突出，但在用户体验上常显得“不够贴心”，仍需用户频繁补充上下文，并且这些信息往往涵盖多模态内容。因此，发展具备多模态长期记忆能力的 AI 助手已成为明确的技术方向之一。据了解，Memories.ai 已与头部 AI 硬件公司展开合作，如 Rokid 和前魅族 CMO 李楠创立的 AI 硬件公司 Angry Miao。

媒体和教育领域，Memories.ai 正在与 BBC 等媒体以及相关公司展开合作，旨在将大量历史视频素材与其他多模态数据整合为动态的数据湖，以支持更高效的搜索与问答功能。

相册和视频管理应用中，长期视觉记忆同样至关重要。据介绍，Memories.ai 正在与三星展开合作，把 LVMM 部署到端侧手机上。拥有“记忆”意味着在数万张照片和视频中，能够通过自然语言精准检索特定的某个片段。对于视频创作者来说，该系统可构建专门的视频搜索引擎和文档引擎，并可实现快速自动剪辑。

此外，基于网络视频进行宏观趋势分析也成为可能，AI 可借此识别内容流行度规律、成因与传播特征，为创作与决策提供参考。

从更长远的角度看，该技术为构建人工智能的基础视觉记忆层奠定了重要基础。无论是能够追溯生活点滴的 AI 助手、通过观察世界学习的人形机器人、智能眼镜或可穿戴设备，还是真正具备视觉理解能力的下一代智能系统，都有赖于持续、稳定且高效的视觉记忆机制。

“不走寻常路”：从 14 岁出国读高中到硅谷创业

沈俊潇出生于江苏吴江，他始终秉持“选择大于努力”的信念，其人生轨迹也因多次“非同寻常”的选择而显得独特。他的第一个关键抉择是从镇小学转至市区初中就读，然而他并未止步，始终想去“更大的世界看看”。尽管中考成绩出色，14 岁的他仍凭借全国仅有两个名额的全额奖学金远赴英国攻读高中。

在剑桥大学，沈俊潇完成了从本科到博士的全程学习，博士阶段的研究聚焦于开发基于机器学习的用户交互意图推断模型，应用于光学透视头戴式显示器场景，师从佩尔·奥拉·克里斯滕森（Per Ola Kristensson）教授和比尔·伯恩（Bill Byrne）教授。在这一时期，人工智能技术的迅猛发展使他看到了实现“以技术提升人类效率”这一愿景的现实路径。

博士毕业后，沈俊潇加入 Meta Reality Labs 担任研究科学家。在该岗位中，他主要从事与时间序列分析密切相关的科研工作。他表示：“我此前从事了大量手势理解相关研究，而手势识别本质也属于时间序列问题。无论是手势识别、语义理解还是视频解析，这些研究方向在方法论上是一脉相承的。”

在多数企业集中于提升 AI“智力”之时，他选择了差异化的研究方向——专注于构建 AI 的“记忆”能力。然而，当前人工智能领域在长期记忆，尤其是对海量视觉信息进行结构化存储与有效利用方面仍存在诸多尚未突破的科学问题。

在这一背景下，沈俊潇及合作者率先从人类记忆的理论体系出发，系统探索了 AI 长期记忆的实现路径。人类智能依托智力与记忆两大支柱：当前 AI 的智力层面已广泛采用神经网络模型，其设计灵感本就源自对人脑结构的借鉴；而在记忆方面，团队致力于在“生物学合理性”（与人类记忆的相似程度）与“工程性能”（实际解决问题的效能）之间寻求平衡。

完全模拟人类记忆并不一定带来最优性能，而完全脱离生物启示的设计又往往难以契合复杂认知任务的需求。正如神经网络并未完全复制人脑，却在两者间找到有效平衡，沈俊潇与团队也以类似思路推进记忆研究——并非追求一对一的机械映射，而是以人类记忆机制为深层启发，构建更符合认知架构的 AI 记忆系统。

在沈俊潇作为通讯作者发表在预印本网站arXiv的一篇论文中，对此有比较清晰的阐述。相关论文题目为《人类启发视角：人工智能长期记忆综述》（Human-inspired Perspectives: A Survey on AI Long-term Memory）[1]。

该研究从人类记忆机制出发，探讨了 AI 长期记忆的存储、检索和遗忘机制，并提出了一个基于人类记忆理论的新型认知架构——自适应长期记忆架构（SALM，Self-Adaptive Long-term Memory），为未来 AI 系统的设计提供了理论基础。

诺贝尔物理学奖得主杰弗里·辛顿（Geoffrey Hinton）曾提出“记忆重构”的概念，即记忆并非静态存储，而是在每次提取时被动态重建。沈俊潇团队同样将记忆处理为结构化表征，并在回溯时实施层级化的重新塑造，以模拟人类记忆的灵活性与适应性。

研究中还借鉴了人类长期记忆的经典“三分模型”，将人类长期记忆分为情景记忆（Episodic Memory）、语义记忆（Semantic Memory）和程序性记忆（Procedural Memory）。

具体而言，情景记忆是关于特定事件的记忆，比如“我上周开车去郊游”；语义记忆是关于事实和概念的记忆，比如“汽车有四个轮子，自行车有两个轮子”；而程序性记忆是关于技能和习惯的记忆，比如“我如何学会驾驶汽车”。

在另一项研究中 [2]，沈俊潇还与合作者共同探讨了记忆增强技术的现有局限性，以及为解决这些问题而开展的研究工作。

他们在研究过程中发现，现有的记忆增强技术存在一些明显的不足。例如，目前的技术只能基于标签进行搜索，而无法实现基于语义的搜索和问答。这限制了记忆增强技术在复杂场景中的应用，因为语义搜索能够更精准地理解和回应用户的查询需求。

基于这些发现，团队将长期视频理解视为更具突破意义的研究方向。他们判断，以第一视角为主的视频数据将在未来成为主流，因而较早开始推进相关技术的落地探索，致力于使 AI 系统能够实现对长周期、高复杂度视频内容的结构化理解和语义检索。

通过这些工作，团队提出应通过引入长期视觉记忆增强 AI 的系统能力，并在理论构建与技术实践之间建立闭环。他们相信，通过克服现有记忆模型在语义化、自适应与重构能力方面的不足，能够为构建真正具备可持续学习与演化能力的 AI 系统开辟新路径。

正是看到了这些问题，2024 年沈俊潇决定“快速行动”——他与曾在 Meta并肩作战的机器学习工程师 Ben（Enmin）Zhou 共同创立了 Memories.ai。另据悉，截至目前 Memories.ai 已经完成由 Susa Ventures 领投，三星风投、Fusion Fund 等知名机构跟投的 800 万美元种子轮融资。

沈俊潇认为，AI 技术必将重塑未来硬件形态，在个人电脑和智能手机之后将催生第三代核心终端。依托 Memories.ai 所研发的海量视频理解核心技术，公司已与一家国内头部硬件企业达成合作，将共同推出产品 LUCI Pin。

目前，Memories.ai 还在积极推进一款与可穿戴设备深度融合的核心硬件研发。该设备旨在全天候记录用户生活影像，捕获人类的视觉记忆，并将其有效转化为 AI 可用的视觉记忆体系。“我们希望未来 AI 的长期视觉记忆能变得更精准、更快速，并在更多行业得到广泛应用。”沈俊潇表示。

参考资料：

1.https://arxiv.org/abs/2411.00489

2.J. Shen, J. J. Dudley and P. O. Kristensson, Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception, 2024 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), Bellevue, WA, USA, 2024, pp. 923-931, doi: 10.1109/ISMAR62088.2024.00108.

3.https://shawnshenjx.github.io/

4.https://memories.ai/blog/large-visual-memory-model

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.