网易首页 > 网易号 > 正文 申请入驻

99年华人科学家创业,掏出全球首个视觉记忆大模型,无限上下文,已获三星投资

0
分享至

智东西7月25日消息,今天,前Meta员工沈俊潇(Shawn Shen)在海外社交媒体X上宣布,其和Enmin Zhou联合创立的Memories.ai,正式推出其首款大型视觉记忆模型(Large Visual Memory Model)

沈俊潇还宣布Memories.ai已完成由Susa Ventures领投,Crane Venture Partners、三星Next、Fusion Fund等机构跟投的800万美元(约合人民币5730万元)种子轮融资

感兴趣的用户立即享受首月免费体验,无需任何附加条件。

体验地址:https://memories.ai/app

▲沈俊潇官宣推文(来源:X)

这一技术旨在为多模态大语言模型(multi-modal LLMs)赋予视觉记忆回溯能力。该模型实现了视觉记忆检索功能,能够解析用户意图,检索相关视觉记忆片段,整合关联的视觉记忆信息,并基于这些记忆和用户查询进行推理。

其创新点在于智能决策机制,能自主判断何时、如何及调取哪些视觉记忆。完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,这使得多模态大模型具备无限长视觉记忆上下文处理能力。

Memories.ai的两位联合创始人均是华人,沈俊潇在博客中透露自己14岁就远赴英国读高中。

一、两位华人联合创立,曾14岁就远赴英国求学

1999年出生的沈俊潇,初中在苏州上学,14岁就获得奖学金到远赴英国读高中。领英主页显示,其本硕博均在剑桥大学就读,2019年取得了工程专业的文学学士学位( 剑桥大学等部分高校保留传统BA授予制度,其工程专业毕业生仍获BA学位),2020年取得都柏林圣三一学院的工程学硕士学位,2023年获得工程学哲学博士学位。

在本科就读期间,沈俊潇还曾回到上海摩根士丹利短期实习,在博士就读期间,2022年,他到了Meta现实实验室工作,担任研究科学家职位。2024年沈俊潇离职创业,联合创立了Memories.ai。

▲左:沈俊潇,右:Enmin Zhou(图源:Memories.ai)

Memories.ai联合创始人兼CTO Enmin Zhou,2020年从美国加州大学洛杉矶分校毕业,获得数学与计算科学学士学位,后在美国布朗大学就读数据科学专业,于2022年毕业。

本科就读期间他也曾回到上海,在上海深察信息科技短暂实习,硕士毕业后在Meta就职,担任机器学习工程师一职。2024年Enmin Zhou离职创业,联合创立了Memories.ai。

在博客中,沈俊潇写道,他们正是因为意识到解决视觉记忆问题刻不容缓,才离开Meta共同创立Memories.ai。

二、视频问答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1

从性能上看,在视频零样本分类基准测试中,Memories.ai的分数都较历史第一的模型PE-G都一定上涨,其中在HMD8数据库中,分数上涨了7.6分,在K400数据库中,分数上涨了6.6分

视频检索基准测试中,Memories.ai在所有数据集中的分数都超越了历史第一Perception Encoder,各项测试均夺得桂冠,其中在AVN数据集的文字转视频测试中,其分数较Perception Encoder提升了11分

视频问答基准测试中,Memories.ai在MVBench、NextQA以及Temp Compass数据集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能记录。

▲包括OpenAI和谷歌模型系统在内的比较数据,均源自OpenAI和谷歌各自的官方发布博客。

三、受人类记忆机制启发,建立初始记忆架构

在另一篇技术博客中,沈俊潇介绍到,Memories.ai的创造是受了人类记忆机制启发,而创立的整个大视觉记忆模型的初始记忆架构,包括:

将记忆线索转化为可搜索请求的查询模型、用于粗粒度检索的检索模型、全模态索引模型、用于细粒度细节提取的选择模型、用于记忆监控的反思模型,以及用于记忆重构的重建模型。

记忆检索过程可分解为以下关键步骤:

1、记忆线索:激发回忆过程

回忆通常始于线索。线索可以是外部的,如问题、旧照片、旋律、气味、地名;也可以是内部的,如念头、情绪。当大脑接收线索时,会激活与目标记忆相关的特定神经网络。

在系统中,采用查询模型将线索(主要为基于文本的线索)转化为具体的、可搜索的内容,涉及文本解析和转录等步骤,将线索转化为适合后续处理的格式。

2、粗粒度检索:初步 “筛选”

激活过程并非总是精确的,初始检索往往粗略且泛化。大脑快速搜索海量信息,寻找与当前线索最匹配的模式,一些相关的视觉片段可能会被初步激活,此为 “线索依赖性回忆”。

在系统中,使用检索模型进行粗粒度检索。对于上一步解析的查询对象,检索模型选择合适的数据库和查询方法,识别所有相关片段,减轻 “线索依赖性回忆” 的影响,并激活所有相关视觉片段。

3、细粒度细节提取:深度 “阅读” 与 “编辑”

当初始线索激活相关区域后,大脑进入更精细的处理阶段,记忆的重构特性开始显现:

细节补全:大脑填补记忆的细节,这些细节可能基于对世界的理解、逻辑推理和过往经验推断补充。

关联整合:大脑将不同信息片段(如视觉图像、听觉片段和情绪波动)关联整合,形成更完整的记忆图景。

过滤选择:大脑根据当前目标和问题,从所有激活信息中过滤出最相关和最重要的片段,具有高度目的性。

在系统中,使用全模态字幕模型和选择模型进行细粒度细节提取。对于所有视觉片段,全模态字幕代理结合记忆线索为关键核心内容添加字幕。选择代理基于所有已字幕内容进行推理,筛选出若干最相关的视觉片段,缩小记忆搜索范围,基本完成视觉记忆检索过程。

4、记忆监控:记忆的 “自我校正”

回忆过程中,大脑会监控和验证检索到的信息,评估其准确性和真实性,包括将其与现有的知识、信念和其他相关记忆进行比较。若回忆信息与已知事实相矛盾,可能会尝试进一步回忆或修正。

在系统中,使用反思模型进行记忆检测和验证。当检索到的记忆内容与事实冲突或不一致时,会重新进入细粒度细节提取阶段。

5、记忆重构:从碎片到 “精修版”

回忆复杂事件时,大脑倾向于提取事件的核心要点、主要参与者和关键结果,过滤掉较不重要或冗余的信息,将其概括为更易存储和检索的形式。重构过程还涉及将分散的记忆碎片整合成有意义的模式,组织成连贯的叙述或概念。

在系统中,使用重建模型进行记忆重构。基于记忆线索和所有当前检索到的信息,识别信息模式,利用世界知识和逻辑推理补全缺失细节,过滤和精炼无关或冗余信息,将分散的感知、概念和情感片段整合成连贯、有意义的叙述或概念结构。

结语:或将成为AGI发展的重要节点

沈俊潇在博客中称“这是在通用人工智能(AGI)发展中的一步。”

Memories.ai此次推出的大型视觉记忆模型,在技术路径上以人类大脑的记忆机制为参照构建了初始架构,其具备的视觉记忆检索、整合及推理能力,在视频分类、检索、问答等基准测试中展现出一定性能优势。

而800万美元种子轮(约合人民币5730万元)融资的完成,也体现了投资机构对该技术方向的关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

健康科普365
2026-05-25 22:15:03
女子多次告知自己花生严重过敏 餐厅仍在菜中加入花生油 致女子出现严重过敏反应进抢救室 女子要求赔偿1000元被质疑“敲诈勒索”

女子多次告知自己花生严重过敏 餐厅仍在菜中加入花生油 致女子出现严重过敏反应进抢救室 女子要求赔偿1000元被质疑“敲诈勒索”

闪电新闻
2026-05-26 18:43:15
黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

爆角追踪
2026-05-26 09:37:26
王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

封面新闻
2026-05-26 19:12:38
小学生大巴车在高速上出问题,老师让男生留在车上,让女生搭车离开

小学生大巴车在高速上出问题,老师让男生留在车上,让女生搭车离开

可达鸭面面观
2026-05-26 18:25:56
官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年终于有依靠了

官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年终于有依靠了

皮蛋儿电影
2026-05-26 12:55:05
从世界第4到117位,郑钦文只用了10个月,詹俊:根源在这两点

从世界第4到117位,郑钦文只用了10个月,詹俊:根源在这两点

酷侃体坛
2026-05-26 18:11:48
大陆宣布,台当局结局已定,瑙鲁政府通告国企,全球开始“剿独”

大陆宣布,台当局结局已定,瑙鲁政府通告国企,全球开始“剿独”

共工之锚
2026-05-27 00:13:29
奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奇思妙想草叶君
2026-05-25 23:22:54
台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

念洲
2026-05-26 18:15:02
第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

新京报
2026-05-26 10:14:20
武契奇前脚离开,后面塞尔维亚就乱了

武契奇前脚离开,后面塞尔维亚就乱了

凤眼论
2026-05-26 14:16:31
双汇子公司猪肉抗生素超标37.5倍 长期摄入或致心血管副作用

双汇子公司猪肉抗生素超标37.5倍 长期摄入或致心血管副作用

闪电新闻
2026-05-25 21:26:10
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-05-26 14:40:46
夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

阿龙美食记
2026-05-26 14:15:09
不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

丁丁鲤史纪
2026-05-26 17:44:43
比预制菜更恐怖的,是被科技狠活承包的现制餐

比预制菜更恐怖的,是被科技狠活承包的现制餐

蓝鲸新闻
2026-05-25 19:47:39
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

中吴网
2026-05-25 22:42:39
医生警告:这样过性生活,男人废前列腺女人毁子宫

医生警告:这样过性生活,男人废前列腺女人毁子宫

资说
2026-05-26 12:55:06
央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

奇妙的本草
2026-05-26 12:01:37
2026-05-27 01:43:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11900文章数 117085关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

时尚
手机
游戏
旅游
军事航空

蓝色系穿搭太适合夏天了!快来看看这些穿搭示范,美得不重样

手机要闻

荣耀600系列线下上手:体验之后,说说真实感受

猎魂世界:千仞雪/王秋儿售后盘点!售后是越多越好还是越少越好

旅游要闻

第二艘国产大型邮轮即将启航:解锁中国人的海上旅居新范式!

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版