11月24日消息,据悉,灵感实验室与LMMs-Lab近日联合发布了多模态大模型LLaVA-OneVision-1.5,并宣布将训练数据、代码和模型权重全链路开源。
据了解,LLaVA-OneVision-1.5提供了包括85M预训练数据集和22M指令数据集在内的完整训练数据、训练与打包工具链、配置脚本和详细构建日志与可复现评测命令及其构建与执行细节。据介绍,该模型采用“概念均衡”方法构建训练集,以提升数据质量。
在模型架构上,LLaVA-OneVision-1.5将视觉编码器升级为Glint-ViT v1.5,大语言模型基座升级为Qwen3。训练流程分为图文配准、知识学习和指令学习三个阶段,结合离线数据打包策略,据介绍,8B规模模型的预训练可在约4天内完成,预算约为1.6万美元。
实验结果显示,LLaVA-OneVision-1.5-8B在27个基准测试中的18个上表现优于Qwen2.5-VL-7B,LLaVA-OneVision-1.5-4B在全部27个测试中超过Qwen2.5-VL-3B。目前,相关技术报告、代码和模型已在GitHub和Hugging Face平台开源。(袁宁)
![]()
本文来自网易科技报道,更多资讯和深度内容,关注我们。
