11月11日,百度正式对外推出文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking,新模型全面开源。公开评测数据显示,该模型在多项多模态理解与推理任务中表现优异,仅需3B激活参数,性能表现接近业界领先的GPT-5-High与Gemini-2.5-Pro。
作为文心大模型开源家族的最新成员,ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B训练而来,专注于提升多模态理解和跨模态推理能力。与传统“越大越强”的范式不同,该模型通过高效的模型结构设计和强化学习策略,在较小参数规模下实现了高精度的视觉理解与复杂推理。
从评测数据来看,该模型在STEM学科计算、文档图表解析、视觉问答及视频理解等多个维度表现稳定,大部分指标达Gemini-2.5-Pro与GPT-5-High两款海外顶级模型95%百分位水平,部分指标表现如ChartQA和DocVQAval等文档/图表理解任务超过Gemini-2.5-Pro及GPT-5-High。
![]()
ERNIE-4.5-VL-28B-A3B-Thinking在多项多模态理解与推理任务中表现优异
值得关注的是,ERNIE-4.5-VL-28B-A3B-Thinking引入了“图像思考”(Thinking with Images)功能,使其具备更接近人类的认知方式——能够主动放大、缩小图像,聚焦细节,并结合上下文进行多步推理。同时,该模型进一步加强了模型定位能力,拥有更强的指令遵循能力,在用户需要时,能够便捷的触发视觉定位功能,适用于需要精确空间感知的应用场景。
当前ERNIE-4.5-VL-28B-A3B-Thinking模型以 Apache License 2.0 协议开源,允许商业使用。该模型的预训练权重、推理代码和项目均已在 Hugging Face、Modelscope、飞桨星河社区发布,FastDeploy、 vLLM、Transformers 等开源工具已经实现了对该模型的支持,可以直接加载模型并使用。
![]()
文心4.5系列开源模型
公开资料显示,百度在模型开源方面持续发力,自6月30日开源10款文心大模型4.5系列模型以来,不断丰富其开源模型矩阵。9月9日开源的ERNIE-4.5-21B-A3B-Thinking模型在发布三天后登上HuggingFace全球模型总趋势榜和文本模型趋势榜第一。
近期百度在大模型领域的进展也在加速。11月8日,LMArena最新排名显示,百度文心最新模型ERNIE-5.0-Preview-1022在文本能力榜单中位列全球并列第二、国内第一。此外有消息称,百度将于11月13日举行的2025百度世界大会上发布文心大模型全新版本。
Hugging Face:
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
GitHub:
https://github.com/PaddlePaddle/ERNIE
飞桨星河社区:
https://aistudio.baidu.com/overview
魔搭社区:
https://modelscope.cn/organization/PaddlePaddle
文心大模型技术Blog:
https://yiyan.baidu.com/blog/ernie4.5
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.