我看了下 Github 上发布详情,发现这次百度这次的开源模型反而不是重点,它的胃口主要在于生态。
简单来说,AI大模型必定会有一代更比一代强,但是生态基础不一样,它更像是挖金矿的铲子,用户忠诚度极高。
文心 4.5 的 Github 链接: https://github.com/PaddlePaddle/ERNIE
文心 Ernie4.5 ,这次一共发布了 10 款大模型,但实际上涵盖了三个品类:
LLM :传统的大语言模型,也就是纯文字的那种,主流的 MoE 混合专家模型,有两个 size ,一个大的 300B ,一个小的 21B ,跨度很大。
VLM :视觉语言模型,也就是现在主流的多模态模型,可以无缝的处理文字 / 图片 / 视频,但是目前只能输出文字,比如让它描述个图片视频什么的。
Dense Model :这个是跟 MoE 相对的稠密模型,也就是这种模型每推理一次,就会用到所有的参数,代价就是消耗的计算量大,所以这个类目只有 0.3B 的模型,非常适合跑在端侧。
异构MoE
单纯从发布的 10 个大模型来看,可以很清晰地看到百度在尽可能的探索 AI 大模型的所有主流方向, Reasoning 推理, MoE , Dense ,端侧等等。
但是它这个 MoE 有亮点,那就是 Multimodal Heterogeneous MoE Pre-Training , MoE 我们大家应该都不陌生,像 DeepSeek R1 就是一个 MoE 的混合专家模型,也就是大模型,但是推理的时候只执行一部分,所以兼备了质量和速度。
而 Ernie 的这个 MoE ,首先它是多模态的,可以处理除了文本之外的图片和视频,这就要求在训练的时候适配多模态,其次更重要的是 Heterogeneous 异构这个词,一般来说,之前的多模态大模型,训练的时候就像是一口 “ 大熔炉 ” ,所有的内容进行都先 encoding ,换句话说,各种模型的数据最终都会转换成数学里面的向量。
再简单一点儿,那就是不管你是普通话还是什么方言,最终都要转换成英文表达。
这里面就有问题了,因为图像和文字本来就是两种不同的表达方式,那么用这种 “ 一锅烩 ” 的方式,为了学好图像,可能会牺牲一些语言的精细度;为了更好地理解语法,可能会忽略图像的细节。最终得到的可能是一个 “ 折中 ” 的模型,而不是一个 “ 双料冠军 ” 。
文心 4.5 做的事其实直觉上很简单,它不再是简单地将图像和文本数据 “ 搅拌 ” 在一起喂给模型,而是设计了一个 分工明确、调度智能、训练有方 的 “ 专家委员会 ” 系统。通过 异构结构 实现物理隔离,通过 隔离路由 实现任务的精准分配,再通过 两种特殊的损失函数 从数学上保证了专家团队的专业性和学习过程的公平性。
最终达到的效果是 “ 相互促进 (mutual reinforcement)” ,即文本知识的学习可以帮助模型更好地理解图像,反过来也一样。
性能
性能大家可以自己去对比,毕竟都是些打榜的 benchmark 结果,不能当成使用效果来看,具体怎么样,得看自己的需求,没有什么模型十全十美。
生态
我甚至觉得这部分才是大头,因为百度其实一直做的深度学习框架 飞桨( PaddlePaddle ) ,在国内还是挺有基础的,因为模型可能会过时,但是生态可是一个长期主义的典型代表。
这次随模型一同发布的,还有文心大模型开发套件 ERNIEKit 和高效部署套件 FastDeploy 。 ERNIEKit 覆盖了从微调( SFT )、对齐( DPO )到量化的全流程开发,而 FastDeploy 则解决了多硬件平台(如各种芯片)的高效推理部署问题。
这一整套 “ 全家桶 ” 式的解决方案,极大地降低了开发者使用文心大模型的门槛。
对于百度来说,我一直是跟 Google 对标的,毕竟大家都是做搜索引擎出身,再加上本身有的大量语料资源,计算资源,是可以下盘大棋的,如果一旦习惯了这套从开发到部署的流畅体验,就会自然而然地被留在飞桨的生态系统中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.