网易首页 > 网易号 > 正文 申请入驻

99年华人科学家创业,掏出全球首个视觉记忆大模型,无限上下文,已获三星投资

0
分享至

智东西7月25日消息,今天,前Meta员工沈俊潇(Shawn Shen)在海外社交媒体X上宣布,其和Enmin Zhou联合创立的Memories.ai,正式推出其首款大型视觉记忆模型(Large Visual Memory Model)

沈俊潇还宣布Memories.ai已完成由Susa Ventures领投,Crane Venture Partners、三星Next、Fusion Fund等机构跟投的800万美元(约合人民币5730万元)种子轮融资

感兴趣的用户立即享受首月免费体验,无需任何附加条件。

体验地址:https://memories.ai/app

▲沈俊潇官宣推文(来源:X)

这一技术旨在为多模态大语言模型(multi-modal LLMs)赋予视觉记忆回溯能力。该模型实现了视觉记忆检索功能,能够解析用户意图,检索相关视觉记忆片段,整合关联的视觉记忆信息,并基于这些记忆和用户查询进行推理。

其创新点在于智能决策机制,能自主判断何时、如何及调取哪些视觉记忆。完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,这使得多模态大模型具备无限长视觉记忆上下文处理能力。

Memories.ai的两位联合创始人均是华人,沈俊潇在博客中透露自己14岁就远赴英国读高中。

一、两位华人联合创立,曾14岁就远赴英国求学

1999年出生的沈俊潇,初中在苏州上学,14岁就获得奖学金到远赴英国读高中。领英主页显示,其本硕博均在剑桥大学就读,2019年取得了工程专业的文学学士学位( 剑桥大学等部分高校保留传统BA授予制度,其工程专业毕业生仍获BA学位),2020年取得都柏林圣三一学院的工程学硕士学位,2023年获得工程学哲学博士学位。

在本科就读期间,沈俊潇还曾回到上海摩根士丹利短期实习,在博士就读期间,2022年,他到了Meta现实实验室工作,担任研究科学家职位。2024年沈俊潇离职创业,联合创立了Memories.ai。

▲左:沈俊潇,右:Enmin Zhou(图源:Memories.ai)

Memories.ai联合创始人兼CTO Enmin Zhou,2020年从美国加州大学洛杉矶分校毕业,获得数学与计算科学学士学位,后在美国布朗大学就读数据科学专业,于2022年毕业。

本科就读期间他也曾回到上海,在上海深察信息科技短暂实习,硕士毕业后在Meta就职,担任机器学习工程师一职。2024年Enmin Zhou离职创业,联合创立了Memories.ai。

在博客中,沈俊潇写道,他们正是因为意识到解决视觉记忆问题刻不容缓,才离开Meta共同创立Memories.ai。

二、视频问答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1

从性能上看,在视频零样本分类基准测试中,Memories.ai的分数都较历史第一的模型PE-G都一定上涨,其中在HMD8数据库中,分数上涨了7.6分,在K400数据库中,分数上涨了6.6分

视频检索基准测试中,Memories.ai在所有数据集中的分数都超越了历史第一Perception Encoder,各项测试均夺得桂冠,其中在AVN数据集的文字转视频测试中,其分数较Perception Encoder提升了11分

视频问答基准测试中,Memories.ai在MVBench、NextQA以及Temp Compass数据集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能记录。

▲包括OpenAI和谷歌模型系统在内的比较数据,均源自OpenAI和谷歌各自的官方发布博客。

三、受人类记忆机制启发,建立初始记忆架构

在另一篇技术博客中,沈俊潇介绍到,Memories.ai的创造是受了人类记忆机制启发,而创立的整个大视觉记忆模型的初始记忆架构,包括:

将记忆线索转化为可搜索请求的查询模型、用于粗粒度检索的检索模型、全模态索引模型、用于细粒度细节提取的选择模型、用于记忆监控的反思模型,以及用于记忆重构的重建模型。

记忆检索过程可分解为以下关键步骤:

1、记忆线索:激发回忆过程

回忆通常始于线索。线索可以是外部的,如问题、旧照片、旋律、气味、地名;也可以是内部的,如念头、情绪。当大脑接收线索时,会激活与目标记忆相关的特定神经网络。

在系统中,采用查询模型将线索(主要为基于文本的线索)转化为具体的、可搜索的内容,涉及文本解析和转录等步骤,将线索转化为适合后续处理的格式。

2、粗粒度检索:初步 “筛选”

激活过程并非总是精确的,初始检索往往粗略且泛化。大脑快速搜索海量信息,寻找与当前线索最匹配的模式,一些相关的视觉片段可能会被初步激活,此为 “线索依赖性回忆”。

在系统中,使用检索模型进行粗粒度检索。对于上一步解析的查询对象,检索模型选择合适的数据库和查询方法,识别所有相关片段,减轻 “线索依赖性回忆” 的影响,并激活所有相关视觉片段。

3、细粒度细节提取:深度 “阅读” 与 “编辑”

当初始线索激活相关区域后,大脑进入更精细的处理阶段,记忆的重构特性开始显现:

细节补全:大脑填补记忆的细节,这些细节可能基于对世界的理解、逻辑推理和过往经验推断补充。

关联整合:大脑将不同信息片段(如视觉图像、听觉片段和情绪波动)关联整合,形成更完整的记忆图景。

过滤选择:大脑根据当前目标和问题,从所有激活信息中过滤出最相关和最重要的片段,具有高度目的性。

在系统中,使用全模态字幕模型和选择模型进行细粒度细节提取。对于所有视觉片段,全模态字幕代理结合记忆线索为关键核心内容添加字幕。选择代理基于所有已字幕内容进行推理,筛选出若干最相关的视觉片段,缩小记忆搜索范围,基本完成视觉记忆检索过程。

4、记忆监控:记忆的 “自我校正”

回忆过程中,大脑会监控和验证检索到的信息,评估其准确性和真实性,包括将其与现有的知识、信念和其他相关记忆进行比较。若回忆信息与已知事实相矛盾,可能会尝试进一步回忆或修正。

在系统中,使用反思模型进行记忆检测和验证。当检索到的记忆内容与事实冲突或不一致时,会重新进入细粒度细节提取阶段。

5、记忆重构:从碎片到 “精修版”

回忆复杂事件时,大脑倾向于提取事件的核心要点、主要参与者和关键结果,过滤掉较不重要或冗余的信息,将其概括为更易存储和检索的形式。重构过程还涉及将分散的记忆碎片整合成有意义的模式,组织成连贯的叙述或概念。

在系统中,使用重建模型进行记忆重构。基于记忆线索和所有当前检索到的信息,识别信息模式,利用世界知识和逻辑推理补全缺失细节,过滤和精炼无关或冗余信息,将分散的感知、概念和情感片段整合成连贯、有意义的叙述或概念结构。

结语:或将成为AGI发展的重要节点

沈俊潇在博客中称“这是在通用人工智能(AGI)发展中的一步。”

Memories.ai此次推出的大型视觉记忆模型,在技术路径上以人类大脑的记忆机制为参照构建了初始架构,其具备的视觉记忆检索、整合及推理能力,在视频分类、检索、问答等基准测试中展现出一定性能优势。

而800万美元种子轮(约合人民币5730万元)融资的完成,也体现了投资机构对该技术方向的关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11436文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
旅游
艺术
公开课
军事航空

教育要闻

2026人工智能时代下的教育课堂变革

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版