网易首页 > 网易号 > 正文 申请入驻

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源

0
分享至

IT之家 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建。

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

  • NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。
  • 多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
  • 通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。


在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。

复杂图表推理样例:





STEM 解题样例:






长尾识别解题样例:






视觉推理样例:





IT之家附 dots.vlm1 开源地址:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一条裙子穿三次能说明什么啊?她那么自信坦荡,活该她火啊!

一条裙子穿三次能说明什么啊?她那么自信坦荡,活该她火啊!

娱人细品
2025-11-13 19:16:48
最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

云鹏叙事
2025-11-14 10:26:55
一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

吭哧有力
2025-11-13 15:13:22
辽宁发现千吨级低品位超大型金矿床

辽宁发现千吨级低品位超大型金矿床

环球网资讯
2025-11-14 09:29:36
中国网球选手李文夫、张瑾、陆鹏宇遭禁赛罚款处罚

中国网球选手李文夫、张瑾、陆鹏宇遭禁赛罚款处罚

北青网-北京青年报
2025-11-14 18:35:02
外媒曝哈里在贝索斯豪宅枯坐角落,悔不当初,梅根毁了我的一切

外媒曝哈里在贝索斯豪宅枯坐角落,悔不当初,梅根毁了我的一切

译言
2025-11-14 11:01:48
美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

混沌录
2025-11-14 19:33:47
张柏芝现身河北无修图膀大腰圆,手背青筋暴露,果然路人手机真实

张柏芝现身河北无修图膀大腰圆,手背青筋暴露,果然路人手机真实

草莓解说体育
2025-11-14 15:10:42
中国移动员工退休金曝光,央企上班的还赶不上退休的?

中国移动员工退休金曝光,央企上班的还赶不上退休的?

通信爆料
2025-11-14 10:26:10
全运会女排-黑马呈冠军相,2大劲敌面临出局,天津反弹,河南连胜

全运会女排-黑马呈冠军相,2大劲敌面临出局,天津反弹,河南连胜

知轩体育
2025-11-14 16:36:00
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

探源历史
2025-11-13 18:22:20
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
巨大牺牲!外媒:王钰栋收欧洲多队邀请,年薪降80%,仅能赚60万

巨大牺牲!外媒:王钰栋收欧洲多队邀请,年薪降80%,仅能赚60万

国足风云
2025-11-14 14:52:15
张涛当选张家口市市长

张涛当选张家口市市长

极目新闻
2025-11-14 21:14:31
宋泰坤:廖元赫并没有多出色 韩国网友:能连赢申朴就是世界顶尖

宋泰坤:廖元赫并没有多出色 韩国网友:能连赢申朴就是世界顶尖

劲爆体坛
2025-11-14 19:50:11
悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

魔都姐姐杂谈
2025-11-14 15:40:05
1800亿灰飞烟灭,"中药茅"神话破灭,谁还在买760元一粒的片仔癀

1800亿灰飞烟灭,"中药茅"神话破灭,谁还在买760元一粒的片仔癀

法老不说教
2025-11-12 19:22:24
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
李盈莹状态回升,拿28分助天津击败北京!网友:快去米兰吧

李盈莹状态回升,拿28分助天津击败北京!网友:快去米兰吧

金毛爱女排
2025-11-14 20:05:56
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
2025-11-14 21:31:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
315178文章数 606748关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
游戏
亲子
时尚
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

逍遥情缘手游万妖劫世副本攻略 煌焰燎原适宜循序渐进

亲子要闻

儿子总盯着水坑发呆,知道真相后我立马买了这双鞋!

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版