网易首页 > 网易号 > 正文 申请入驻

深度融合DeepSeek和多模态,百度文小言找到了自己的开放之道

0
分享至

作者丨青风

编辑丨六子

DeepSeek爆火之后如何与之相处?这是摆在每个大模型厂商面前无法回避的问题。

腾讯、百度等选择了快速拥抱,在其旗舰AI产品中相继接入满血版DeepSeek-R1,借势收获了不少新用户;字节豆包、阿里通义、月之暗面Kimi、智谱清言等选择正面对抗,在自研大模型中增加“深度思考”模式;零一万物更为果断,在大模型“六小龙”中首家宣布放弃超大参数预训练,未来全面转向ToB业务。

3月31日,百度给出了一个新的答案。在昨日举行的新一期百度AI DAY上,文小言宣布完成品牌焕新与功能升级。升级的核心点是,在此前接入DeepSeek-R1的基础上,新版文小言进一步开放,将百度自研的文心X1、文心4.5等最新模型与DeepSeek-R1、可灵等第三方模型进行深度融合,并支持自动识别用户需求、自动选择最适合的模型完成任务,还升级了语音大模型、图片问答、AI生图生视频等多模态能力。


这意味着什么呢?之前,为了写一段小红书的种草文案,新媒体运营人员要用DeepSeek-R1;创作一张海报,要用国外的Midjourney或者国内的百度文心;制作一段宫崎骏风格的动画,要用快手旗下的可灵AI或者OpenAI旗下的Sora;声音克隆可能要用海螺AI;求解一道高等数学题,幼儿园小朋友十万个为什么的语音聊天,可能还是“鸽了好久”的GPT-4o更可用……

大模型技术越来越先进,但也越来越细分。人们处理日常问题,可能就需要下载和使用不同的大模型产品及众多的细分版本,需要分别花钱充值,更麻烦的是国外产品使用起来极其不便,中文适配也差。

新版文小言的策略是,一个应用就可以完成众多不同类型的任务。它既可以做深度思考,完整展示思维链,也可以进行连续任务执行,还因为升级了多模态能力,能与用户进行更自然、更高效的交互。而且,它还从“手动档”升级为“自动档”,将任务扔进来即可,不需要用户操心具体该使用哪个专精模型。

使用简单,交互方式自然,性能强大,功能丰富,这不就是人们所期待的AI助手的发展方向吗?对百度这个AI老兵来说,至少意味着找到了一条与新生力量的开放相处之道:优势互补,相互协作。

01
「补齐DeepSeek的多模态短板」

人们到底需要什么样的AI大模型?还是史蒂夫·乔布斯的话最有道理,“用户根本不知道想要什么,直到你展示给他看。”

在2023年大模型出现的早期阶段,众厂商比拼的是长文本处理能力,月之暗面、百川智能、零一万物等厂商轮番竞技,最长上下文输入长度从20万攀升至30万、40万字;2024年初,Sora横空出世,5月份GPT-4o正式发布,让人们惊呼科幻走进现实,AI生图、AI视频等多模态能力的发展贯穿全年始终;2025年初,DeepSeek-R1凭借强大的推理能力和极致性价比,搅动整个科技行业,将人们的关注重新拉回文字形态的通用大模型。

但在DeepSeek全面普及之后,人们发现,在图片与拍照、视频与摄像、语音输入与输出等与AI更自然的交互方面,仍然没有得到很好地满足。最近,GPT-4o升级,上线了“用嘴P图”功能,“吉卜力风”图片刷爆AI圈,让千千万万设计师们人人自危。再次证明,多模态能力一直留存在人们潜意识的需求菜单里,且需求巨大。

DeepSeek固然强大,但在多模态方面存在明显的短板,仅限于在图片和拍照中识别里面的文字。可以说,DeepSeek的输入输出全部都是文字的。腾讯元宝接入了DeepSeek-R1,但只是解决了DeepSeek官方应用“服务器繁忙”的问题,也没有带来多模态的增益价值。


而新版文小言将百度两大新模型文心大模型X1和4.5与DeepSeek-R1满血版,进行了多模型融合调度。用户可以随意切换使用,或者更省事地选择“自动模式”。百度这两个新模型在推理和多模态方面各有侧重。

文心X1与DeepSeek-R1类似,都是深度思考模型,但文心X1是宣称“首个”能自主调用比如绘图等各种工具的,可以完成⼀些连续任务。它利用递进式强化学习训练方法、基于思维链和行动链的端到端训练、多元统一的奖励系统等技术,推理输出直接可以图文混合呈现。

文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,在多模态交互、理解方面更强,原生模型联合预训练能实现更深层次的模态融合。拍图解题,文生图,让图片动起来,AI语音聊天,都可以很好地实现。

其语音大模型此次也进行了全新升级,使用起来颇有亮点,比如它支持方言对话、复杂知识问答及随时打断等场景,用户可进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型。在语音场景满足一定交互指标下,大模型调用成本比行业平均降低50%-90%,推理响应速度极快,将语音交互等待时间压缩至1秒左右,极大提升了交互流畅性。

02
「更多场景更多玩法」

借助多模型融合和多模态理解,新版文小言带来更多的用户真实存在的AI使用场景和更大的想象空间。

像上面提到的,动画爱好者如果想制作一段视频,往往要先用DeepSeek生成提示词,再用Midjourney文生图,再拿到可灵AI中做图生视频。现在文小言可以一条龙解决了。比如让爱因斯坦弹吉他,边弹边跳。


还有个非常常见的场景,家里客厅装修,有一整扇落地窗,想参考几个不同的风格设计。用白话给文小言输入提示词后,文心X1会进行深度思考,然后调用搜索、画图等多种工具,最后生成多张效果图,每张都附有该风格的设计说明,图文混排输出,清晰明了。


再比如辅导孩子功课,让很多家长头疼,因为很多题目可能自己也不会做。新版文小言中新增了一个“解题老师”,直接对题目拍照,它就可以生成解答。神奇的是,它还有老师讲解的视频,不只给出答案,还给出详细的做题思路和步骤,用语音和视频展示娓娓道来。就像个一对一的家教,而且是免费的。这种多模态解题功能的难得之处在于,它不是简单地给孩子提供答案,而是指导了做题方法,传统大模型仅通过文字很难达到这种效果。


文小言新的端到端语音模型能够识别儿童的含糊发音,理解能力更符合儿童的习惯包括快速打断与响应。比如要求它给孩子讲个故事,如果不爱听,孩子直接打断要求换一个,文小言能丝滑衔接,不会再出现之前智能语音那种“你说你的,我讲我的”的尴尬局面。它还能切换蜡笔小新、孙悟空、熊大熊二等百变音色,更学会了重庆话、河南话、广西话等多种方言。

03
「写在最后」

⼤模型马拉松竞赛进⼊“深⽔区”,因为用户真实需求的多样性,导致未来的竞争不可能再是单⼀模型的能⼒,⽽是如何让AI能⼒更⾼效、更便捷地触达⽤户。

百度在AI大模型领域深耕多年,在AI搜索、检索增强的文生图技术(iRAG)、无代码工具、智能体生态构建等方面积累了很多经验,尤其是拥有海量的中文语料库,这比一众国外产品具备明显的本地化优势。

在增强自身能力之外,百度近期也愈发体现出开放升级的姿态。将DeepSeek两款大模型上架至千帆ModelBuilder平台;宣布搜索引擎和智能体平台接入DeepSeek;文心一言全面免费;宣布文心大模型系列开源;如今,文小言新版App又将最新模型与DeepSeek深度融合,多模态能力大幅提高。

文小言采用“模型矩阵+自动调度+生态开放”的策略,试图构建一条具有持续竞争力的产品护城河。这一趋势或许将成为未来AI演进的主线。而在这个过程中,用户体验得以不断提升,将是最大的受益者。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“一辈子都写不出来的人生金句,句句入心,值得收藏”

“一辈子都写不出来的人生金句,句句入心,值得收藏”

心灵悦读
2026-03-19 06:55:32
30天断油!印度急红眼,下血本强抢7艘赴华巨轮,反成最大冤大头

30天断油!印度急红眼,下血本强抢7艘赴华巨轮,反成最大冤大头

阿讯说天下
2026-03-20 14:29:33
他是恶贯满盈的特务,41岁逃到台湾,84岁在大街上说共产党的好话

他是恶贯满盈的特务,41岁逃到台湾,84岁在大街上说共产党的好话

元哥说历史
2026-03-20 18:35:03
美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

安安说
2026-03-21 10:56:42
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
美国使馆设施连续遭6次袭击,现场燃起大火!伊朗称同时打击5处美军基地;特朗普:可以对话,但我不想停火

美国使馆设施连续遭6次袭击,现场燃起大火!伊朗称同时打击5处美军基地;特朗普:可以对话,但我不想停火

每日经济新闻
2026-03-21 11:13:18
医生:糖尿病最危险信号,不是浑身无力,而是频繁出现这4种异常

医生:糖尿病最危险信号,不是浑身无力,而是频繁出现这4种异常

王二哥老搞笑
2026-03-21 09:03:47
陈道明忘词时,郭麒麟接的那句“爹”,比所有“前辈照顾”都管用

陈道明忘词时,郭麒麟接的那句“爹”,比所有“前辈照顾”都管用

手工制作阿歼
2026-03-20 14:24:38
大院里那座神秘小楼:高墙之内,开国中将们的真实生活图景

大院里那座神秘小楼:高墙之内,开国中将们的真实生活图景

冰语历史
2026-03-21 01:17:34
被绿?东契奇前妻有新欢,住孩子奶奶的豪宅,赢了球场输了家啊

被绿?东契奇前妻有新欢,住孩子奶奶的豪宅,赢了球场输了家啊

球童无忌
2026-03-21 01:51:07
俄外长:所有肯尼亚公民,都是自愿参与军事行动,符合俄罗斯法律

俄外长:所有肯尼亚公民,都是自愿参与军事行动,符合俄罗斯法律

Ck的蜜糖
2026-03-18 13:21:21
“萨德”被调走后,韩国感到自己白挨中国9年反制

“萨德”被调走后,韩国感到自己白挨中国9年反制

陈菲副教授
2026-03-21 10:37:16
阿尔特塔下达死命令:决赛面对曼城,必须主动“掠夺”奖杯

阿尔特塔下达死命令:决赛面对曼城,必须主动“掠夺”奖杯

乐道足球
2026-03-21 09:29:55
萨德失败,爱国者失败,宙斯盾没拦住,印媒:中国已看穿美军弱点

萨德失败,爱国者失败,宙斯盾没拦住,印媒:中国已看穿美军弱点

嘴角上翘
2026-03-12 05:38:11
超微电脑 股价暴跌

超微电脑 股价暴跌

每日经济新闻
2026-03-20 22:22:45
1-0!意甲争冠又有悬念:那不勒斯4连胜+差榜首6分,国米有对手了

1-0!意甲争冠又有悬念:那不勒斯4连胜+差榜首6分,国米有对手了

体育知多少
2026-03-21 07:23:49
女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

潮鹿逐梦
2026-03-18 10:26:41
“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

39健康网
2026-03-20 20:20:37
文班亚马后仰绝杀锁季后赛!联盟第一中锋实锤,MVP战局白热化!

文班亚马后仰绝杀锁季后赛!联盟第一中锋实锤,MVP战局白热化!

田先生篮球
2026-03-20 11:49:48
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
2026-03-21 11:40:49
青橙财经 incentive-icons
青橙财经
了解有价值的财经ESG
384文章数 28关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

体育要闻

谁在决定字母哥未来?

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

时尚
手机
健康
本地
公开课

推广中奖名单-更新至2026年3月4日推广

手机要闻

OPPO K15 Pro真机亮相,4月即将登场!

转头就晕的耳石症,能开车上班吗?

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版