网易首页 > 网易号 > 正文 申请入驻

99年华人科学家创业,掏出全球首个视觉记忆大模型,无限上下文,已获三星投资

0
分享至


智东西
作者 王涵
编辑 漠影

智东西7月25日消息,今天,前Meta员工沈俊潇(Shawn Shen)在海外社交媒体X上宣布,其和Enmin Zhou联合创立的Memories.ai,正式推出其首款大型视觉记忆模型(Large Visual Memory Model)

沈俊潇还宣布Memories.ai已完成由Susa Ventures领投,Crane Venture Partners、三星Next、Fusion Fund等机构跟投的800万美元(约合人民币5730万元)种子轮融资

感兴趣的用户立即享受首月免费体验,无需任何附加条件。

体验地址:https://memories.ai/app


▲沈俊潇官宣推文(来源:X)

这一技术旨在为多模态大语言模型(multi-modal LLMs)赋予视觉记忆回溯能力。该模型实现了视觉记忆检索功能,能够解析用户意图,检索相关视觉记忆片段,整合关联的视觉记忆信息,并基于这些记忆和用户查询进行推理。

其创新点在于智能决策机制,能自主判断何时、如何及调取哪些视觉记忆。完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,这使得多模态大模型具备无限长视觉记忆上下文处理能力。

Memories.ai的两位联合创始人均是华人,沈俊潇在博客中透露自己14岁就远赴英国读高中。

一、两位华人联合创立,曾14岁就远赴英国求学

1999年出生的沈俊潇,初中在苏州上学,14岁就获得奖学金到远赴英国读高中。领英主页显示,其本硕博均在剑桥大学就读,2019年取得了工程专业的文学学士学位( 剑桥大学等部分高校保留传统BA授予制度,其工程专业毕业生仍获BA学位),2020年取得都柏林圣三一学院的工程学硕士学位,2023年获得工程学哲学博士学位。

在本科就读期间,沈俊潇还曾回到上海摩根士丹利短期实习,在博士就读期间,2022年,他到了Meta现实实验室工作,担任研究科学家职位。2024年沈俊潇离职创业,联合创立了Memories.ai。


▲左:沈俊潇,右:Enmin Zhou(图源:Memories.ai)

Memories.ai联合创始人兼CTO Enmin Zhou,2020年从美国加州大学洛杉矶分校毕业,获得数学与计算科学学士学位,后在美国布朗大学就读数据科学专业,于2022年毕业。

本科就读期间他也曾回到上海,在上海深察信息科技短暂实习,硕士毕业后在Meta就职,担任机器学习工程师一职。2024年Enmin Zhou离职创业,联合创立了Memories.ai。

在博客中,沈俊潇写道,他们正是因为意识到解决视觉记忆问题刻不容缓,才离开Meta共同创立Memories.ai。

二、视频问答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1

从性能上看,在视频零样本分类基准测试中,Memories.ai的分数都较历史第一的模型PE-G都一定上涨,其中在HMD8数据库中,分数上涨了7.6分,在K400数据库中,分数上涨了6.6分


视频检索基准测试中,Memories.ai在所有数据集中的分数都超越了历史第一Perception Encoder,各项测试均夺得桂冠,其中在AVN数据集的文字转视频测试中,其分数较Perception Encoder提升了11分


视频问答基准测试中,Memories.ai在MVBench、NextQA以及Temp Compass数据集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能记录。



▲包括OpenAI和谷歌模型系统在内的比较数据,均源自OpenAI和谷歌各自的官方发布博客。

三、受人类记忆机制启发,建立初始记忆架构

在另一篇技术博客中,沈俊潇介绍到,Memories.ai的创造是受了人类记忆机制启发,而创立的整个大视觉记忆模型的初始记忆架构,包括:

将记忆线索转化为可搜索请求的查询模型、用于粗粒度检索的检索模型、全模态索引模型、用于细粒度细节提取的选择模型、用于记忆监控的反思模型,以及用于记忆重构的重建模型。

记忆检索过程可分解为以下关键步骤:

1、记忆线索:激发回忆过程

回忆通常始于线索。线索可以是外部的,如问题、旧照片、旋律、气味、地名;也可以是内部的,如念头、情绪。当大脑接收线索时,会激活与目标记忆相关的特定神经网络。

在系统中,采用查询模型将线索(主要为基于文本的线索)转化为具体的、可搜索的内容,涉及文本解析和转录等步骤,将线索转化为适合后续处理的格式。

2、粗粒度检索:初步 “筛选”

激活过程并非总是精确的,初始检索往往粗略且泛化。大脑快速搜索海量信息,寻找与当前线索最匹配的模式,一些相关的视觉片段可能会被初步激活,此为 “线索依赖性回忆”。

在系统中,使用检索模型进行粗粒度检索。对于上一步解析的查询对象,检索模型选择合适的数据库和查询方法,识别所有相关片段,减轻 “线索依赖性回忆” 的影响,并激活所有相关视觉片段。

3、细粒度细节提取:深度 “阅读” 与 “编辑”

当初始线索激活相关区域后,大脑进入更精细的处理阶段,记忆的重构特性开始显现:

细节补全:大脑填补记忆的细节,这些细节可能基于对世界的理解、逻辑推理和过往经验推断补充。

关联整合:大脑将不同信息片段(如视觉图像、听觉片段和情绪波动)关联整合,形成更完整的记忆图景。

过滤选择:大脑根据当前目标和问题,从所有激活信息中过滤出最相关和最重要的片段,具有高度目的性。

在系统中,使用全模态字幕模型和选择模型进行细粒度细节提取。对于所有视觉片段,全模态字幕代理结合记忆线索为关键核心内容添加字幕。选择代理基于所有已字幕内容进行推理,筛选出若干最相关的视觉片段,缩小记忆搜索范围,基本完成视觉记忆检索过程。

4、记忆监控:记忆的 “自我校正”

回忆过程中,大脑会监控和验证检索到的信息,评估其准确性和真实性,包括将其与现有的知识、信念和其他相关记忆进行比较。若回忆信息与已知事实相矛盾,可能会尝试进一步回忆或修正。

在系统中,使用反思模型进行记忆检测和验证。当检索到的记忆内容与事实冲突或不一致时,会重新进入细粒度细节提取阶段。

5、记忆重构:从碎片到 “精修版”

回忆复杂事件时,大脑倾向于提取事件的核心要点、主要参与者和关键结果,过滤掉较不重要或冗余的信息,将其概括为更易存储和检索的形式。重构过程还涉及将分散的记忆碎片整合成有意义的模式,组织成连贯的叙述或概念。

在系统中,使用重建模型进行记忆重构。基于记忆线索和所有当前检索到的信息,识别信息模式,利用世界知识和逻辑推理补全缺失细节,过滤和精炼无关或冗余信息,将分散的感知、概念和情感片段整合成连贯、有意义的叙述或概念结构。

结语:或将成为AGI发展的重要节点

沈俊潇在博客中称“这是在通用人工智能(AGI)发展中的一步。”

Memories.ai此次推出的大型视觉记忆模型,在技术路径上以人类大脑的记忆机制为参照构建了初始架构,其具备的视觉记忆检索、整合及推理能力,在视频分类、检索、问答等基准测试中展现出一定性能优势。

而800万美元种子轮(约合人民币5730万元)融资的完成,也体现了投资机构对该技术方向的关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

小徐讲八卦
2026-01-12 14:35:55
旗袍:一件会呼吸的契约

旗袍:一件会呼吸的契约

疾跑的小蜗牛
2026-01-12 23:39:08
俄驻委大使披露详情:马杜罗及妻子被控制时,身边实际上没有任何人;防空系统的远程预警站通信出了问题

俄驻委大使披露详情:马杜罗及妻子被控制时,身边实际上没有任何人;防空系统的远程预警站通信出了问题

扬子晚报
2026-01-11 11:42:19
朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

米君文史
2026-01-07 10:01:47
创业失败的95后北大学霸,去了工地搬砖

创业失败的95后北大学霸,去了工地搬砖

中国企业家杂志
2026-01-12 19:49:34
是活通透了?湖北35岁男子不工作不结婚躺平,“这辈子就这样吧”

是活通透了?湖北35岁男子不工作不结婚躺平,“这辈子就这样吧”

唐小糖说情感
2026-01-12 11:14:15
皮尔斯:东契奇几乎在骂施罗德傻,但他说的4年8400万不现实

皮尔斯:东契奇几乎在骂施罗德傻,但他说的4年8400万不现实

懂球帝
2026-01-13 09:29:06
正式确认!新西兰野猫被列入捕杀名单!上百万只将被彻底清除!“很多一生从未见过人类!”

正式确认!新西兰野猫被列入捕杀名单!上百万只将被彻底清除!“很多一生从未见过人类!”

新西兰天维网
2026-01-12 06:38:04
蔚来,不闹了

蔚来,不闹了

虎嗅APP
2026-01-12 21:57:05
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
湖人112-124不敌国王 遭遇三连败

湖人112-124不敌国王 遭遇三连败

上游新闻
2026-01-13 16:40:11
9连胜!谁能终结上海男篮连胜步伐?未来8天,有4场恶仗等着他们

9连胜!谁能终结上海男篮连胜步伐?未来8天,有4场恶仗等着他们

男足的小球童
2026-01-12 16:27:51
深圳天气将迎大反转!最高温直冲……

深圳天气将迎大反转!最高温直冲……

深圳晚报
2026-01-13 08:21:54
苹果新品上市:1月12日,已正式上架!

苹果新品上市:1月12日,已正式上架!

科技堡垒
2026-01-12 11:50:09
最多领先33分!恩比德27+8+7失误76人轻取猛龙 马克西33分

最多领先33分!恩比德27+8+7失误76人轻取猛龙 马克西33分

醉卧浮生
2026-01-13 10:58:37
日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

极目新闻
2026-01-13 10:19:55
日本首相暗示打算提前举行大选,外交部:日本内政,不作评论

日本首相暗示打算提前举行大选,外交部:日本内政,不作评论

澎湃新闻
2026-01-13 15:16:29
杨瀚森被弃因祸得福,开拓者超巨伤退球队或摆烂,小杨转正成基石

杨瀚森被弃因祸得福,开拓者超巨伤退球队或摆烂,小杨转正成基石

二哥聊球
2026-01-13 11:22:35
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

天天热点见闻
2026-01-13 05:15:58
伊朗货币成废纸!里亚尔对欧元/美元汇率已为0?

伊朗货币成废纸!里亚尔对欧元/美元汇率已为0?

随波荡漾的漂流瓶
2026-01-13 16:17:06
2026-01-13 16:59:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11063文章数 116941关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

白宫称正考虑针对伊朗的军事选项 外交部回应

头条要闻

白宫称正考虑针对伊朗的军事选项 外交部回应

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

艺术
亲子
旅游
游戏
公开课

艺术要闻

书法争议再起:拙与妍孰优孰劣引发热议

亲子要闻

fsh高怎么调理?打促排期间怎么提高卵泡质量?

旅游要闻

从“秘境”到“解秘”

女友买游戏送男友让人酸爆!恋爱酸臭味引外网热议

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版