大家好呀,我是甲木。
昨天,我人差点“淹”在百度的世界大会,
![]()
不仅人挤人,而且真的,内容多到爆炸。
慧播星的老罗表现抢眼,秒哒应用也刷足了存在感。很热闹。
大家都知道,每年的百度世界大会,基本就是个风向标。 它明明白白告诉你,接下来一年,他们的劲儿要往哪儿使。
今年的风是啥? AI Agent、多模态。 这两个词几乎塞满了所有议程,扑面而来。
但你懂的,
相比那些台面上光鲜亮丽的应用和花活儿,我更关心那个撑起所有这些的“底座”。
所以,我还是更关心这次正式对外发布的文心新一代模型:文心5.0。
![]()
原谅我到的太晚,离得太远
其实在开会前,LMArena 那个榜单,其实就已经“剧透”了。
文心ERNIE-5.0-Preview-1022,冲到国内第一、全球并列第二。
特别是在创意写作、复杂长问题理解、指令遵循这几块,表现很扎眼。
![]()
11月8日
但,榜单是榜单,跑分是跑分。
实际应用还是要体感的。
所以,在大会开始前,我化缘拿到了内测资格。
第一时间,就对它进行了一轮深度的“压测”。
这次他们主打的Slogan,是“原生全模态”。
![]()
现在原生多模态的模型还是不少的,
那么文心5.0的水平怎么样?
我准备了几个场景,来看看效果。
上手实测:五大核心场景的能力跃升
我这次测试了五大场景,从“脏活儿”代码到“共情”理解,全方位压测它的能力边界。
场景1:复杂指令与代码生成
AI好不好,先拉去写代码。这是“理科”大考。
我先给它上“脏活儿”和“硬活儿”,看看它底盘稳不稳。
3D地球与卫星网页
先来一个简单但专业领域的,一个地球自转的场景,Prompt很简单:
“使用Three.js或A-Frame,生成一个3D网页的代码。要求:场景中有一个自转的地球模型,并且有一个卫星模型围绕地球公转。”
生成效果:
![]()
给出了一个完整的HTML(包含Three.js的CDN引入),还真的实现了这个效果。
地球在自转,卫星在公转,甚至还贴心地加了鼠标拖动旋转视角、缩放、重置视角的功能。
考验一下文心5.0 preview 的前端代码能力,效果还不错.
抖音应用原型
这部分,我用好友@袋鼠帝之前的一个prompt,让文心来复刻一下简版抖音,
这个Prompt长达几十行,包含了6大点、几十项具体要求,看它表现。
创建一个功能精简、核心体验完整的短视频应用原型。重点是复刻抖音标志性的全屏沉浸式视频流、上下滑动切换和核心的社交互动功能。
## 核心体验:全屏沉浸式视频流 (For You Page)
布局: 移动端优先,强制竖屏。视频内容应占满整个屏幕,没有任何白边或黑边。
交互: 这是最重要的功能。用户通过向上或向下滑动屏幕来切换到下一个或上一个视频。切换必须流畅,有自然的过渡动画。
播放: 视频进入视野后应自动开始播放,并且默认开启声音。当一个视频播放完毕后,应自动循环播放。
## 视频播放器界面 (UI Overlay)
在播放的视频上方,应有一个半透明的用户界面层,包含以下可交互元素:
右侧垂直排列:
发布者头像: 点击可进入该用户的个人主页。
点赞按钮: 一个心形图标,可点击点赞。点赞后图标变为红色。
评论按钮: 一个对话气泡图标,点击可打开评论区。
分享按钮: 一个箭头图标,用于分享(在原型中,点击后可只显示一个“已分享”的提示)。
## 核心用户交互 (User Interactions)
点赞: 用户可以通过两种方式点赞:① 单击右侧的心形图标;② 快速双击屏幕任意位置。双击点赞时,屏幕上应出现一个短暂的、放大的心形动画。
评论: 点击评论图标后,一个评论区面板应从屏幕底部平滑地向上滑出,占据半个屏幕。该面板顶部显示评论列表,底部有一个输入框,允许用户发表新评论。用户可以向下滑动或点击外部区域关闭该面板。
## 基础用户系统与个人主页 (User Profile)
用户认证: 实现一个简单的用户注册和登录系统。
个人主页:
顶部: 显示用户头像、用户名、关注/粉丝/获赞总数,以及一段个人简。
视频列表: 顶部下方是一个网格布局,以缩略图的形式展示该用户发布的所有视频。点击任意缩略图,即可进入一个只播放该用户视频的视频流页面。
## 视频上传流程 (Upload Process)
入口: 在主导航栏上有一个醒目的“+”号按钮。
流程:
点击“+”号后,打开手机的相册,允许用户选择一个已经录制好的短视频文件。
选择视频后,进入一个发布页面,用户可以在此页面填写视频的描述/标题。
点击“发布”按钮,视频上传至服务器,并出现在所有用户的信息流中。## 整体导航 (App Navigation)
底部标签栏 (Tab Bar): 应用底部应有一个固定的导航栏,包含至少三个核心标签:
“首页 (Home)”: 即核心的视频信息流页面。
“发布 (+)”: 中间的上传按钮。
“我 (Me)”: 进入当前登录用户的个人主页。
生成效果:
![]()
登录页和首页
它直接生成一个UI界面,包含了登录页、全屏沉浸式视频流、右侧垂直排列的点赞/评论/分享按钮、底部的Tab导航栏。其中一些简单的交互也都实现了,比如登录、点赞、评论。
![]()
考验了AI对复杂交互和产品逻辑的理解,
对于生成式AI来说,代码能力永远是其逻辑推理能力的最佳体现。
场景2:综合推理与判断力
如果说代码是“理科”,那多模态理解就是“文理通识”。
这才是“原生全模态”的真正试金石。
埃菲尔铁塔 Fact-Check
我给它挖了个坑,
给了一张水印P着“拍摄于·柏林”的埃菲尔铁塔图片。问它:“照片在哪拍的?给个理由。”
![]()
生成结果:
![]()
它马上就“抓包”了。
直接指出“文字标注存在错误”。
这体现了模型“不被单一模态误导”。它不是简单地“看图”+“OCR读字”,而是对两个信息源进行了“交叉验证和仲裁”。
这点,很多“后期融合”的模型很难做到的,它们往往会“迁就”单一模态的指令,或者直接无视水印。
Cybertruck 与 机器狗
我同时丢给它一张特斯拉Cybertruck的照片、一段宇树机器狗跳舞的视频,然后让它:“分析这两样东西的共同点。”
![]()
生成结果:
![]()
它提炼的不是“车”和“狗”。
它提炼的是“科技符号”、“未来主义”、“非传统设计”。
它在同一个语义空间里,找到了这两种不相干事物背后的深层关联。
场景3:视频、情感与细节捕捉
真正的多模态,不仅要“看懂”,还要“看懂”言外之意。
《大话西游》经典片段
我上传了一段《大话西游》里至尊宝对紫霞告白的经典片段。然后让它:“分析视频中两位主要角色的情绪变化。在视频的哪个时间点发生了关键的情节转折?”
![]()
生成结果:
![]()
![]()
![]()
它不仅总结了剧情,还精准分析了两位主角基于微表情的情绪转折。
这才是真的“视频理解”,理解了视频背后的情感与叙事意图。
西红柿炒蛋菜谱
换个实用的。我丢给它一个西红柿炒蛋的制作视频,让它“按时间顺序,详细总结这个视频。”。
生成结果:
![]()
它给我的步骤,非常详细。
包含时间戳、关键步骤、核心技巧。
这证明它的“信息整合”和“时序理解”能力,稳。
场景4:多模态融合与“化学反应”
最能体现“原生”二字的,是当不同模态混合时,它能否产生1+1>2的化学反应。
雨中撑伞的背影
我同时上传了图片、音频、文本三种模态:
- 图片:下雨天在城市街道中撑黑伞的人的背影。
- 音频:忧伤的钢琴曲。
- 文本:“结合图片和音频的情绪,写一个短篇故事的开头(约150字),主角刚刚经历了一件什么事?”
生成结果:
![]()
可以看出模型精准捕捉到“黑色雨伞”的压抑、“忧伤音乐”的低落,并将其合理化为一个极富故事感的场景。
它在统一的语义空间里理解了视觉、听觉和文字,并融合成一个逻辑自洽且感染力极强的故事。
这是真正的“共情”能力。
场景5:创意写作
基座能力依然是根本。LMArena榜单验证的“创意写作”和“指令遵循”能力,我也测了。
三张照片的旅行日记
我丢给它三张风格迥异的照片,让它串联成一篇旅行日记:“将这三张照片串联起来,写一篇旅行日记,创造一个连贯的故事情节,解释你是如何从一个地方到另一个地方的。”。
![]()
生成结果:
![]()
展现出模型在“看图”的基础上,叠加了强大的“规划能力”和“叙事能力”。
为啥“原生全模态”这么强?
几个场景测下来,感觉它在多模态理解层面上做的确实不错。
为什么“原生全模态”会带来这些优势?这就得从文心5.0的架构说起。
很多小伙伴知道,业内不少模型采用的是后期融合方案。
“ 打个比方,这就像一个团队,你有一个很强的“翻译”(文本模型)+一个很强的“画家”(图像模型),他们通过“开会”来协作。 当你看图说话时,“画家”先看图,写一份“图文报告”,然后“翻译”再根据这份报告(和你的问题)用文字回答你。在这个传递和转译的过程中,信息就可能会损耗和误解。
而“原生式”的优势在于:文心5.0更像一个“既会说又会画”的“全才”。
优势一:理解与生成一体化
文心5.0 从训练伊始便融合语言、图像、视频、音频等多模态数据,它在“看懂”一张图的同时,就在训练“画出”这张图。
“理解”能力和“生成”能力是“左手打右手”,相互增强,共同进化。
所以在处理「雨中背影」case(图+音+文)时,才能产生“化学反应”。
![]()
优势二:自回归统一结构
文心5.0 干了件更彻底的事——它通过“离散化建模”,把图像、音频、视频全都“翻译”成了一种统一的“Token语言”。让多模态特征在同一个架构下充分融合并协同优化。
优势三:超大规模混合专家(MoE)
文心5.0依托了“超大规模混合专家(MoE)结构”,总参数规模达到2.4万亿级,采用多模态统一专家架构,具备超稀疏激活参数,保持模型强大能力的同时降低计算与推理成本。
![]()
![]()
客观的B面
当然在测试中,我也发现了它存在的一些问题。
比如我要求它生成一个经典的“黄金矿工”游戏代码,并在Prompt中详细描述了“钩爪摆动”、“抓取回收”、“道具系统”等逻辑,但也提到了“2D卡通风格”、“漫画书UI”等视觉词汇。
结果它没有给我代码,而是给了我一张“黄金矿工”的游戏海报。
该图片疑似AI生成 ![]()
注意力被稀释...
当指令中同时包含“逻辑功能”和大量“视觉风格”描述时,可能会出现摇摆问题。
不过,在我看来更多是“工程调优”和“功能迭代”的范畴。
结语
整场世界大会参观结束,感觉百度在AI生态上的野心是非常大的,
来感受一下百度AI版图,
![]()
百度AI版图
而文心5.0整体测下来,感觉在LMArena上的高分也是应得的。
文本基座能力(创意写作、指令遵循、代码生成)依然是其坚实的基本盘。
但,这都不是重点。
重点是“原生全模态”。
这种范式搞出来的“融合推理”和“情感共情”能力,是那些“后期融合”模型很难复现的。
这,可能就是“百度回来了”的底气。
我很期待“满血版”5.0的能力,希望在视频/音频输出上带来更多惊喜。
路走对了,就不怕远。
以上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.