百度这张“底牌”，终于打出来了|翻译|模态|新模型|知名企业

分享至

大家好呀，我是甲木。

昨天，我人差点“淹”在百度的世界大会，

不仅人挤人，而且真的，内容多到爆炸。

慧播星的老罗表现抢眼，秒哒应用也刷足了存在感。很热闹。

大家都知道，每年的百度世界大会，基本就是个风向标。它明明白白告诉你，接下来一年，他们的劲儿要往哪儿使。

今年的风是啥？ AI Agent、多模态。这两个词几乎塞满了所有议程，扑面而来。

但你懂的，

相比那些台面上光鲜亮丽的应用和花活儿，我更关心那个撑起所有这些的“底座”。

所以，我还是更关心这次正式对外发布的文心新一代模型：文心5.0。

原谅我到的太晚，离得太远

其实在开会前，LMArena 那个榜单，其实就已经“剧透”了。

文心ERNIE-5.0-Preview-1022，冲到国内第一、全球并列第二。

特别是在创意写作、复杂长问题理解、指令遵循这几块，表现很扎眼。

11月8日

但，榜单是榜单，跑分是跑分。

实际应用还是要体感的。

所以，在大会开始前，我化缘拿到了内测资格。

第一时间，就对它进行了一轮深度的“压测”。

这次他们主打的Slogan，是“原生全模态”。

现在原生多模态的模型还是不少的，

那么文心5.0的水平怎么样？

我准备了几个场景，来看看效果。

上手实测：五大核心场景的能力跃升

我这次测试了五大场景，从“脏活儿”代码到“共情”理解，全方位压测它的能力边界。

场景1：复杂指令与代码生成

AI好不好，先拉去写代码。这是“理科”大考。

我先给它上“脏活儿”和“硬活儿”，看看它底盘稳不稳。

3D地球与卫星网页

先来一个简单但专业领域的，一个地球自转的场景，Prompt很简单：

“使用Three.js或A-Frame，生成一个3D网页的代码。要求：场景中有一个自转的地球模型，并且有一个卫星模型围绕地球公转。”

生成效果：

给出了一个完整的HTML（包含Three.js的CDN引入），还真的实现了这个效果。

地球在自转，卫星在公转，甚至还贴心地加了鼠标拖动旋转视角、缩放、重置视角的功能。

考验一下文心5.0 preview 的前端代码能力，效果还不错.

抖音应用原型

这部分，我用好友@袋鼠帝之前的一个prompt，让文心来复刻一下简版抖音，

这个Prompt长达几十行，包含了6大点、几十项具体要求，看它表现。

创建一个功能精简、核心体验完整的短视频应用原型。重点是复刻抖音标志性的全屏沉浸式视频流、上下滑动切换和核心的社交互动功能。

 ## 核心体验：全屏沉浸式视频流 (For You Page)
布局： 移动端优先，强制竖屏。视频内容应占满整个屏幕，没有任何白边或黑边。
交互： 这是最重要的功能。用户通过向上或向下滑动屏幕来切换到下一个或上一个视频。切换必须流畅，有自然的过渡动画。
播放： 视频进入视野后应自动开始播放，并且默认开启声音。当一个视频播放完毕后，应自动循环播放。

 ## 视频播放器界面 (UI Overlay)
在播放的视频上方，应有一个半透明的用户界面层，包含以下可交互元素：
右侧垂直排列：
发布者头像： 点击可进入该用户的个人主页。
点赞按钮： 一个心形图标，可点击点赞。点赞后图标变为红色。
评论按钮： 一个对话气泡图标，点击可打开评论区。
分享按钮： 一个箭头图标，用于分享（在原型中，点击后可只显示一个“已分享”的提示）。

 ## 核心用户交互 (User Interactions)
点赞： 用户可以通过两种方式点赞：① 单击右侧的心形图标；② 快速双击屏幕任意位置。双击点赞时，屏幕上应出现一个短暂的、放大的心形动画。
评论： 点击评论图标后，一个评论区面板应从屏幕底部平滑地向上滑出，占据半个屏幕。该面板顶部显示评论列表，底部有一个输入框，允许用户发表新评论。用户可以向下滑动或点击外部区域关闭该面板。

 ## 基础用户系统与个人主页 (User Profile)
用户认证： 实现一个简单的用户注册和登录系统。
个人主页：
顶部： 显示用户头像、用户名、关注/粉丝/获赞总数，以及一段个人简。
视频列表： 顶部下方是一个网格布局，以缩略图的形式展示该用户发布的所有视频。点击任意缩略图，即可进入一个只播放该用户视频的视频流页面。

 ## 视频上传流程 (Upload Process)
入口： 在主导航栏上有一个醒目的“+”号按钮。
流程：
点击“+”号后，打开手机的相册，允许用户选择一个已经录制好的短视频文件。
选择视频后，进入一个发布页面，用户可以在此页面填写视频的描述/标题。
点击“发布”按钮，视频上传至服务器，并出现在所有用户的信息流中。

 ## 整体导航 (App Navigation)
底部标签栏 (Tab Bar): 应用底部应有一个固定的导航栏，包含至少三个核心标签：
“首页 (Home)”： 即核心的视频信息流页面。
“发布 (+)”： 中间的上传按钮。
“我 (Me)”： 进入当前登录用户的个人主页。

生成效果:

登录页和首页

它直接生成一个UI界面，包含了登录页、全屏沉浸式视频流、右侧垂直排列的点赞/评论/分享按钮、底部的Tab导航栏。其中一些简单的交互也都实现了，比如登录、点赞、评论。

考验了AI对复杂交互和产品逻辑的理解，

对于生成式AI来说，代码能力永远是其逻辑推理能力的最佳体现。

场景2：综合推理与判断力

如果说代码是“理科”，那多模态理解就是“文理通识”。

这才是“原生全模态”的真正试金石。

埃菲尔铁塔 Fact-Check

我给它挖了个坑，

给了一张水印P着“拍摄于·柏林”的埃菲尔铁塔图片。问它：“照片在哪拍的？给个理由。”

生成结果：

它马上就“抓包”了。

直接指出“文字标注存在错误”。

这体现了模型“不被单一模态误导”。它不是简单地“看图”+“OCR读字”，而是对两个信息源进行了“交叉验证和仲裁”。

这点，很多“后期融合”的模型很难做到的，它们往往会“迁就”单一模态的指令，或者直接无视水印。

Cybertruck 与机器狗

我同时丢给它一张特斯拉Cybertruck的照片、一段宇树机器狗跳舞的视频，然后让它：“分析这两样东西的共同点。”

生成结果：

它提炼的不是“车”和“狗”。

它提炼的是“科技符号”、“未来主义”、“非传统设计”。

它在同一个语义空间里，找到了这两种不相干事物背后的深层关联。

场景3：视频、情感与细节捕捉

真正的多模态，不仅要“看懂”，还要“看懂”言外之意。

《大话西游》经典片段

我上传了一段《大话西游》里至尊宝对紫霞告白的经典片段。然后让它：“分析视频中两位主要角色的情绪变化。在视频的哪个时间点发生了关键的情节转折？”

生成结果：

它不仅总结了剧情，还精准分析了两位主角基于微表情的情绪转折。

这才是真的“视频理解”，理解了视频背后的情感与叙事意图。

西红柿炒蛋菜谱

换个实用的。我丢给它一个西红柿炒蛋的制作视频，让它“按时间顺序，详细总结这个视频。”。

生成结果：

它给我的步骤，非常详细。

包含时间戳、关键步骤、核心技巧。

这证明它的“信息整合”和“时序理解”能力，稳。

场景4：多模态融合与“化学反应”

最能体现“原生”二字的，是当不同模态混合时，它能否产生1+1>2的化学反应。

雨中撑伞的背影

我同时上传了图片、音频、文本三种模态：

图片：下雨天在城市街道中撑黑伞的人的背影。
音频：忧伤的钢琴曲。
文本：“结合图片和音频的情绪,写一个短篇故事的开头(约150字),主角刚刚经历了一件什么事?”

生成结果：

可以看出模型精准捕捉到“黑色雨伞”的压抑、“忧伤音乐”的低落，并将其合理化为一个极富故事感的场景。

它在统一的语义空间里理解了视觉、听觉和文字，并融合成一个逻辑自洽且感染力极强的故事。

这是真正的“共情”能力。

场景5：创意写作

基座能力依然是根本。LMArena榜单验证的“创意写作”和“指令遵循”能力，我也测了。

三张照片的旅行日记

我丢给它三张风格迥异的照片，让它串联成一篇旅行日记：“将这三张照片串联起来，写一篇旅行日记，创造一个连贯的故事情节，解释你是如何从一个地方到另一个地方的。”。

生成结果：

展现出模型在“看图”的基础上，叠加了强大的“规划能力”和“叙事能力”。

为啥“原生全模态”这么强？

几个场景测下来，感觉它在多模态理解层面上做的确实不错。

为什么“原生全模态”会带来这些优势？这就得从文心5.0的架构说起。

很多小伙伴知道，业内不少模型采用的是后期融合方案。

“ 打个比方，这就像一个团队，你有一个很强的“翻译”（文本模型）+一个很强的“画家”（图像模型），他们通过“开会”来协作。当你看图说话时，“画家”先看图，写一份“图文报告”，然后“翻译”再根据这份报告（和你的问题）用文字回答你。在这个传递和转译的过程中，信息就可能会损耗和误解。

而“原生式”的优势在于：文心5.0更像一个“既会说又会画”的“全才”。

优势一：理解与生成一体化

文心5.0 从训练伊始便融合语言、图像、视频、音频等多模态数据，它在“看懂”一张图的同时，就在训练“画出”这张图。

“理解”能力和“生成”能力是“左手打右手”，相互增强，共同进化。

所以在处理「雨中背影」case（图+音+文）时，才能产生“化学反应”。

优势二：自回归统一结构

文心5.0 干了件更彻底的事——它通过“离散化建模”，把图像、音频、视频全都“翻译”成了一种统一的“Token语言”。让多模态特征在同一个架构下充分融合并协同优化。

优势三：超大规模混合专家（MoE）

文心5.0依托了“超大规模混合专家（MoE）结构”，总参数规模达到2.4万亿级，采用多模态统一专家架构，具备超稀疏激活参数，保持模型强大能力的同时降低计算与推理成本。

客观的B面

当然在测试中，我也发现了它存在的一些问题。

比如我要求它生成一个经典的“黄金矿工”游戏代码，并在Prompt中详细描述了“钩爪摆动”、“抓取回收”、“道具系统”等逻辑，但也提到了“2D卡通风格”、“漫画书UI”等视觉词汇。

结果它没有给我代码，而是给了我一张“黄金矿工”的游戏海报。

该图片疑似AI生成
注意力被稀释...

当指令中同时包含“逻辑功能”和大量“视觉风格”描述时，可能会出现摇摆问题。

不过，在我看来更多是“工程调优”和“功能迭代”的范畴。

结语

整场世界大会参观结束，感觉百度在AI生态上的野心是非常大的，

来感受一下百度AI版图，

百度AI版图

而文心5.0整体测下来，感觉在LMArena上的高分也是应得的。

文本基座能力（创意写作、指令遵循、代码生成）依然是其坚实的基本盘。

但，这都不是重点。

重点是“原生全模态”。

这种范式搞出来的“融合推理”和“情感共情”能力，是那些“后期融合”模型很难复现的。

这，可能就是“百度回来了”的底气。

我很期待“满血版”5.0的能力，希望在视频/音频输出上带来更多惊喜。

路走对了，就不怕远。

以上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.