网易首页 > 网易号 > 正文 申请入驻

百度这张“底牌”,终于打出来了

0
分享至

大家好呀,我是甲木。

昨天,我人差点“淹”在百度的世界大会,


不仅人挤人,而且真的,内容多到爆炸。

慧播星的老罗表现抢眼,秒哒应用也刷足了存在感。很热闹。

大家都知道,每年的百度世界大会,基本就是个风向标。 它明明白白告诉你,接下来一年,他们的劲儿要往哪儿使。

今年的风是啥? AI Agent、多模态。 这两个词几乎塞满了所有议程,扑面而来。

但你懂的,

相比那些台面上光鲜亮丽的应用和花活儿,我更关心那个撑起所有这些的“底座”。

所以,我还是更关心这次正式对外发布的文心新一代模型:文心5.0


原谅我到的太晚,离得太远

其实在开会前,LMArena 那个榜单,其实就已经“剧透”了。

文心ERNIE-5.0-Preview-1022,冲到国内第一、全球并列第二。

特别是在创意写作、复杂长问题理解、指令遵循这几块,表现很扎眼。


11月8日

但,榜单是榜单,跑分是跑分。

实际应用还是要体感的。

所以,在大会开始前,我化缘拿到了内测资格。

第一时间,就对它进行了一轮深度的“压测”。

这次他们主打的Slogan,是“原生全模态”


现在原生多模态的模型还是不少的,

那么文心5.0的水平怎么样?

我准备了几个场景,来看看效果。

上手实测:五大核心场景的能力跃升

我这次测试了五大场景,从“脏活儿”代码到“共情”理解,全方位压测它的能力边界。

场景1:复杂指令与代码生成

AI好不好,先拉去写代码。这是“理科”大考。

我先给它上“脏活儿”和“硬活儿”,看看它底盘稳不稳。

3D地球与卫星网页

先来一个简单但专业领域的,一个地球自转的场景,Prompt很简单:

“使用Three.js或A-Frame,生成一个3D网页的代码。要求:场景中有一个自转的地球模型,并且有一个卫星模型围绕地球公转。”

生成效果:


给出了一个完整的HTML(包含Three.js的CDN引入),还真的实现了这个效果。

地球在自转,卫星在公转,甚至还贴心地加了鼠标拖动旋转视角、缩放、重置视角的功能。

考验一下文心5.0 preview 的前端代码能力,效果还不错.

抖音应用原型

这部分,我用好友@袋鼠帝之前的一个prompt,让文心来复刻一下简版抖音,

这个Prompt长达几十行,包含了6大点、几十项具体要求,看它表现。

创建一个功能精简、核心体验完整的短视频应用原型。重点是复刻抖音标志性的全屏沉浸式视频流、上下滑动切换和核心的社交互动功能。

## 核心体验:全屏沉浸式视频流 (For You Page)
布局: 移动端优先,强制竖屏。视频内容应占满整个屏幕,没有任何白边或黑边。
交互: 这是最重要的功能。用户通过向上或向下滑动屏幕来切换到下一个或上一个视频。切换必须流畅,有自然的过渡动画。
播放: 视频进入视野后应自动开始播放,并且默认开启声音。当一个视频播放完毕后,应自动循环播放。

## 视频播放器界面 (UI Overlay)
在播放的视频上方,应有一个半透明的用户界面层,包含以下可交互元素:
右侧垂直排列:
发布者头像: 点击可进入该用户的个人主页。
点赞按钮: 一个心形图标,可点击点赞。点赞后图标变为红色。
评论按钮: 一个对话气泡图标,点击可打开评论区。
分享按钮: 一个箭头图标,用于分享(在原型中,点击后可只显示一个“已分享”的提示)。

## 核心用户交互 (User Interactions)
点赞: 用户可以通过两种方式点赞:① 单击右侧的心形图标;② 快速双击屏幕任意位置。双击点赞时,屏幕上应出现一个短暂的、放大的心形动画。
评论: 点击评论图标后,一个评论区面板应从屏幕底部平滑地向上滑出,占据半个屏幕。该面板顶部显示评论列表,底部有一个输入框,允许用户发表新评论。用户可以向下滑动或点击外部区域关闭该面板。

## 基础用户系统与个人主页 (User Profile)
用户认证: 实现一个简单的用户注册和登录系统。
个人主页:
顶部: 显示用户头像、用户名、关注/粉丝/获赞总数,以及一段个人简。
视频列表: 顶部下方是一个网格布局,以缩略图的形式展示该用户发布的所有视频。点击任意缩略图,即可进入一个只播放该用户视频的视频流页面。

## 视频上传流程 (Upload Process)
入口: 在主导航栏上有一个醒目的“+”号按钮。
流程:
点击“+”号后,打开手机的相册,允许用户选择一个已经录制好的短视频文件。
选择视频后,进入一个发布页面,用户可以在此页面填写视频的描述/标题。
点击“发布”按钮,视频上传至服务器,并出现在所有用户的信息流中。

## 整体导航 (App Navigation)
底部标签栏 (Tab Bar): 应用底部应有一个固定的导航栏,包含至少三个核心标签:
“首页 (Home)”: 即核心的视频信息流页面。
“发布 (+)”: 中间的上传按钮。
“我 (Me)”: 进入当前登录用户的个人主页。

生成效果:


登录页和首页

它直接生成一个UI界面,包含了登录页、全屏沉浸式视频流、右侧垂直排列的点赞/评论/分享按钮、底部的Tab导航栏。其中一些简单的交互也都实现了,比如登录、点赞、评论。


考验了AI对复杂交互和产品逻辑的理解,

对于生成式AI来说,代码能力永远是其逻辑推理能力的最佳体现。

场景2:综合推理与判断力

如果说代码是“理科”,那多模态理解就是“文理通识”。

这才是“原生全模态”的真正试金石。

埃菲尔铁塔 Fact-Check

我给它挖了个坑,

给了一张水印P着“拍摄于·柏林”的埃菲尔铁塔图片。问它:“照片在哪拍的?给个理由。”


生成结果:


它马上就“抓包”了。

直接指出“文字标注存在错误”。

这体现了模型“不被单一模态误导”。它不是简单地“看图”+“OCR读字”,而是对两个信息源进行了“交叉验证和仲裁”。

这点,很多“后期融合”的模型很难做到的,它们往往会“迁就”单一模态的指令,或者直接无视水印。

Cybertruck 与 机器狗

我同时丢给它一张特斯拉Cybertruck的照片、一段宇树机器狗跳舞的视频,然后让它:“分析这两样东西的共同点。”


生成结果:


它提炼的不是“车”和“狗”。

它提炼的是“科技符号”、“未来主义”、“非传统设计”。

它在同一个语义空间里,找到了这两种不相干事物背后的深层关联。

场景3:视频、情感与细节捕捉

真正的多模态,不仅要“看懂”,还要“看懂”言外之意。

《大话西游》经典片段

我上传了一段《大话西游》里至尊宝对紫霞告白的经典片段。然后让它:“分析视频中两位主要角色的情绪变化。在视频的哪个时间点发生了关键的情节转折?”


生成结果:




它不仅总结了剧情,还精准分析了两位主角基于微表情的情绪转折。

这才是真的“视频理解”,理解了视频背后的情感与叙事意图。

西红柿炒蛋菜谱

换个实用的。我丢给它一个西红柿炒蛋的制作视频,让它“按时间顺序,详细总结这个视频。”

生成结果:


它给我的步骤,非常详细。

包含时间戳、关键步骤、核心技巧。

这证明它的“信息整合”和“时序理解”能力,稳。

场景4:多模态融合与“化学反应”

最能体现“原生”二字的,是当不同模态混合时,它能否产生1+1>2的化学反应。

雨中撑伞的背影

我同时上传了图片、音频、文本三种模态:

  • 图片:下雨天在城市街道中撑黑伞的人的背影。
  • 音频:忧伤的钢琴曲。
  • 文本:“结合图片和音频的情绪,写一个短篇故事的开头(约150字),主角刚刚经历了一件什么事?”

生成结果:


可以看出模型精准捕捉到“黑色雨伞”的压抑、“忧伤音乐”的低落,并将其合理化为一个极富故事感的场景。

它在统一的语义空间里理解了视觉、听觉和文字,并融合成一个逻辑自洽且感染力极强的故事。

这是真正的“共情”能力。

场景5:创意写作

基座能力依然是根本。LMArena榜单验证的“创意写作”和“指令遵循”能力,我也测了。

三张照片的旅行日记

我丢给它三张风格迥异的照片,让它串联成一篇旅行日记:“将这三张照片串联起来,写一篇旅行日记,创造一个连贯的故事情节,解释你是如何从一个地方到另一个地方的。”


生成结果:


展现出模型在“看图”的基础上,叠加了强大的“规划能力”和“叙事能力”。

为啥“原生全模态”这么强?

几个场景测下来,感觉它在多模态理解层面上做的确实不错。

为什么“原生全模态”会带来这些优势?这就得从文心5.0的架构说起。

很多小伙伴知道,业内不少模型采用的是后期融合方案。

“ 打个比方,这就像一个团队,你有一个很强的“翻译”(文本模型)+一个很强的“画家”(图像模型),他们通过“开会”来协作。 当你看图说话时,“画家”先看图,写一份“图文报告”,然后“翻译”再根据这份报告(和你的问题)用文字回答你。在这个传递和转译的过程中,信息就可能会损耗和误解。

而“原生式”的优势在于:文心5.0更像一个“既会说又会画”的“全才”

优势一:理解与生成一体化

文心5.0 从训练伊始便融合语言、图像、视频、音频等多模态数据,它在“看懂”一张图的同时,就在训练“画出”这张图。

“理解”能力和“生成”能力是“左手打右手”,相互增强,共同进化。

所以在处理「雨中背影」case(图+音+文)时,才能产生“化学反应”。


优势二:自回归统一结构

文心5.0 干了件更彻底的事——它通过“离散化建模”,把图像、音频、视频全都“翻译”成了一种统一的“Token语言”。让多模态特征在同一个架构下充分融合并协同优化。

优势三:超大规模混合专家(MoE)

文心5.0依托了“超大规模混合专家(MoE)结构”,总参数规模达到2.4万亿级,采用多模态统一专家架构,具备超稀疏激活参数,保持模型强大能力的同时降低计算与推理成本。




客观的B面

当然在测试中,我也发现了它存在的一些问题。

比如我要求它生成一个经典的“黄金矿工”游戏代码,并在Prompt中详细描述了“钩爪摆动”、“抓取回收”、“道具系统”等逻辑,但也提到了“2D卡通风格”、“漫画书UI”等视觉词汇。

结果它没有给我代码,而是给了我一张“黄金矿工”的游戏海报。

该图片疑似AI生成
注意力被稀释...

当指令中同时包含“逻辑功能”和大量“视觉风格”描述时,可能会出现摇摆问题。

不过,在我看来更多是“工程调优”和“功能迭代”的范畴。

结语

整场世界大会参观结束,感觉百度在AI生态上的野心是非常大的,

来感受一下百度AI版图,


百度AI版图

而文心5.0整体测下来,感觉在LMArena上的高分也是应得的。

文本基座能力(创意写作、指令遵循、代码生成)依然是其坚实的基本盘。

但,这都不是重点。

重点是“原生全模态”。

这种范式搞出来的“融合推理”和“情感共情”能力,是那些“后期融合”模型很难复现的。

这,可能就是“百度回来了”的底气。

我很期待“满血版”5.0的能力,希望在视频/音频输出上带来更多惊喜。

路走对了,就不怕远。

以上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文接受日媒专访倡导“一中保台”,反对大幅增加军费

郑丽文接受日媒专访倡导“一中保台”,反对大幅增加军费

海峡导报社
2025-11-15 08:03:07
狂妄至极!日本大使:从未接受过“一个中国”政策,不需要撤回

狂妄至极!日本大使:从未接受过“一个中国”政策,不需要撤回

梁讯
2025-11-15 14:35:07
河南一商人称遭民警逼迫签下千万元调解协议后又被抓,最新进展:获国赔近18万元,法院再判返其1200万元

河南一商人称遭民警逼迫签下千万元调解协议后又被抓,最新进展:获国赔近18万元,法院再判返其1200万元

大风新闻
2025-11-15 17:55:03
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
杭州母亲偷看00后女儿手机大吃一惊:月薪九千元的女儿每月花五千元购买秒回师服务

杭州母亲偷看00后女儿手机大吃一惊:月薪九千元的女儿每月花五千元购买秒回师服务

观威海
2025-11-15 15:06:06
上海的通报来了,但荒诞并非只发生在上海

上海的通报来了,但荒诞并非只发生在上海

清书先生
2025-11-14 17:07:14
严查非机动车非法改装违法行为!

严查非机动车非法改装违法行为!

上海交警
2025-11-13 16:19:09
防止规模性返乡滞乡,寒意传到每个人了

防止规模性返乡滞乡,寒意传到每个人了

家传编辑部
2025-11-16 00:19:44
全运会乒乓球:首个11:0诞生!王曼昱拒绝让球,樊振东3:1大逆转

全运会乒乓球:首个11:0诞生!王曼昱拒绝让球,樊振东3:1大逆转

国乒二三事
2025-11-15 07:51:35
日本媒体慌了:中国发布避免前往日本的提醒,旅游业可能受影响

日本媒体慌了:中国发布避免前往日本的提醒,旅游业可能受影响

沧海旅行家
2025-11-15 14:27:37
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
金鸡奖六大不公平:易烊千玺没资格拿影帝,祖峰颁奖前被除名

金鸡奖六大不公平:易烊千玺没资格拿影帝,祖峰颁奖前被除名

光影新天地
2025-11-15 22:28:37
不准踏入中国市场一步?我国下达“逐客令”,三星彻底炸锅:恳请放过

不准踏入中国市场一步?我国下达“逐客令”,三星彻底炸锅:恳请放过

白梦日记
2025-11-15 20:11:28
又是4-0!王曼昱连续两届全运会横扫陈梦 卫冕冠军还差1胜连冠

又是4-0!王曼昱连续两届全运会横扫陈梦 卫冕冠军还差1胜连冠

颜小白的篮球梦
2025-11-15 21:18:00
日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

垛垛糖
2025-11-15 22:16:27
人口数据崩塌,东北老铁遥遥领先

人口数据崩塌,东北老铁遥遥领先

望岳
2025-11-12 22:26:49
韩媒:输给中国U22是前所未有的耻辱,这是一场令人震惊的比赛

韩媒:输给中国U22是前所未有的耻辱,这是一场令人震惊的比赛

懂球帝
2025-11-15 22:12:06
男保姆照顾瘫痪女子,3个月竟被他侵犯数十次,男保姆:是她自愿的

男保姆照顾瘫痪女子,3个月竟被他侵犯数十次,男保姆:是她自愿的

罪案洞察者
2025-11-13 14:30:05
楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

楼继伟称房地产将持续低迷,需提高财政赤字支持房地产转型

风向观察
2025-11-15 14:32:21
正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

新京报政事儿
2025-11-15 20:41:56
2025-11-16 05:07:00
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
190文章数 20037关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

大量日本民众围堵首相官邸 大喊:高市早苗下台

头条要闻

大量日本民众围堵首相官邸 大喊:高市早苗下台

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
家居
健康
教育
本地

艺术要闻

她的笔下女子如此动人,晚年却名声扫地!

家居要闻

现代简逸 寻找生活的光

血液科专家揭秘白血病七大误区

教育要闻

天塌了啊:英国大学又开始搞大裁员了!

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

无障碍浏览 进入关怀版