网易首页 > 网易号 > 正文 申请入驻

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源

0
分享至

IT之家 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建。

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

  • NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。
  • 多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
  • 通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。


在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。

复杂图表推理样例:





STEM 解题样例:






长尾识别解题样例:






视觉推理样例:





IT之家附 dots.vlm1 开源地址:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多省射击队,购买走私枪支配件?

多省射击队,购买走私枪支配件?

中国新闻周刊
2026-01-08 14:24:06
摊牌了?中企陆续收到光刻机,外媒:ASML公司不“乖”了

摊牌了?中企陆续收到光刻机,外媒:ASML公司不“乖”了

丰谭笔录
2026-01-08 00:11:38
世界真是草台班子,小米官方表示新款 SU7 标错了价格!

世界真是草台班子,小米官方表示新款 SU7 标错了价格!

XCiOS俱乐部
2026-01-07 19:38:42
迟到的父爱也是爱!成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

迟到的父爱也是爱!成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

代军哥哥谈娱乐
2026-01-07 11:55:28
李在明访华,日本产业界重磅施压后,高市早苗突然向我国喊话

李在明访华,日本产业界重磅施压后,高市早苗突然向我国喊话

肖兹探秘说
2026-01-07 21:36:04
不到48小时,特朗普或下台,印度多500%关税,美国又抢千万石油

不到48小时,特朗普或下台,印度多500%关税,美国又抢千万石油

蓝色海边
2026-01-08 07:10:37
解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

解密加勒万河谷冲突全过程,我军是如何以80人击溃印军600人的?

阿胡
2024-12-02 14:33:09
细思恐极!老板曝司晓迪事件来龙去脉,她曾暗示鹿晗关晓彤有娃!

细思恐极!老板曝司晓迪事件来龙去脉,她曾暗示鹿晗关晓彤有娃!

古希腊掌管月桂的神
2026-01-08 10:51:38
马杜罗被抓细节曝光,4厘米的偏移,让他没躲进近在咫尺的安全屋

马杜罗被抓细节曝光,4厘米的偏移,让他没躲进近在咫尺的安全屋

贱议你读史
2026-01-08 04:25:03
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
已失业半年!35岁巴洛特利赴沙特养老:签2年半 经纪人骗了全世界

已失业半年!35岁巴洛特利赴沙特养老:签2年半 经纪人骗了全世界

风过乡
2026-01-08 08:24:02
樊振东夺冠第3天,德国俱乐部开出丰厚条件,给予了他极大的尊重

樊振东夺冠第3天,德国俱乐部开出丰厚条件,给予了他极大的尊重

十点街球体育
2026-01-08 00:05:03
亚足联官方介绍U23中国队:拥有强大的进攻火力 王钰栋拜合拉木突出

亚足联官方介绍U23中国队:拥有强大的进攻火力 王钰栋拜合拉木突出

新英体育
2026-01-08 10:41:52
韩国总统夫人金惠景:每晚都和丈夫一起敷面膜

韩国总统夫人金惠景:每晚都和丈夫一起敷面膜

看看新闻Knews
2026-01-08 00:17:03
特朗普,突袭!刚刚,集体大跳水!

特朗普,突袭!刚刚,集体大跳水!

券商中国
2026-01-08 07:19:48
震撼!上海一涨薪申请引热议,网友:这么点工资,还这么多人签字

震撼!上海一涨薪申请引热议,网友:这么点工资,还这么多人签字

火山詩话
2026-01-07 17:06:37
1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

忠于法纪
2026-01-07 17:46:09
特雷杨怒了!赛中惨遭交易直接爆发,苦笑返场握手,原来詹皇没错

特雷杨怒了!赛中惨遭交易直接爆发,苦笑返场握手,原来詹皇没错

嘴炮体坛
2026-01-08 11:17:26
安理会无视中方发言后,中国记者灵魂提问:联合国还有什么意义?

安理会无视中方发言后,中国记者灵魂提问:联合国还有什么意义?

通文知史
2026-01-07 14:00:03
刚到法甲就获盛赞!19岁新大罗逆袭,不当姆总替补2年内重返皇马

刚到法甲就获盛赞!19岁新大罗逆袭,不当姆总替补2年内重返皇马

阿泰希特
2026-01-08 10:00:21
2026-01-08 15:12:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
323530文章数 606870关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

国家级射击教练因走私武器罪获刑10年:多省射击队购买

头条要闻

国家级射击教练因走私武器罪获刑10年:多省射击队购买

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

旅游
艺术
时尚
健康
军事航空

旅游要闻

不止“故乡的云”!泰安九女峰片区用两项省级大奖定义文旅融合新美学

艺术要闻

颐和园金光穿洞

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

这些新疗法,让化疗不再那么痛苦

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版