网易首页 > 网易号 > 正文 申请入驻

坚持不做Sora,百度为何又开始重视多模态大模型?

0
分享至

界面新闻记者 | 肖芳
界面新闻编辑 | 文姝琪

百度正在强化文心大模型的多模态理解能力。

在百度AI Day上,百度集团副总裁吴甜详细解释了其最新发布的两款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo的技术创新之处。

她表示,文心大模型4.5和4.5 Turbo实现了文本、图像和视频的混合训练。针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术,大幅提升跨模态学习效率和多模态融合效果,学习效率提高近2倍,多模态理解效果提升超过30%。

文心大模型4.5于今年3月16日正式发布,是百度首个原生多模态大模型。文心大模型4.5 Turbo在上个月举办的Create 2025百度AI开发者大会上对外发布,相比文心大模型4.5,其速度更快,价格下降80%,每百万token的输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的40%。

去年,百度CEO李彦宏多次公开表示,Sora这种视频生成模型无论多火爆,百度都不去做。他给出的理由是,多模态模型尤其是视频生成领域,幻觉问题尚未解决,这限制了大规模应用。

但字节跳动和阿里巴巴却没有因为幻觉问题停止布局多模态大模型的脚步:去年12月,字节跳动正式对外发布豆包视觉理解模型、豆包3D生成模型;今年9月和12月,阿里通义千问团队分别对外发布视觉理解模型Qwen2-VL和多模态推理模型QVQ-72B-Previe。

从市场反馈来看,这几款模型在处理自然语言与图像信息的结合上灵活性强,能精准识别图像中的内容,受到了教育、自动驾驶等领域企业的关注,在视觉-语言融合场景中展示出较大的潜力。

这意味着,此前百度多模态大模型上存在一些误判,其在多模态模型上的布局也比竞争对手晚了数月。

百度正在积极补齐大模型布局短板

今年年初,DeepSeek走红让外界再次讨论百度在大模型领域是否再次陷入了“起个大早,赶个晚集”的尴尬境地。

早在2021年,百度就对外发布了文心大模型,在行业中属于最早一批布局大模型的公司。但经过几年的发展,百度在大模型领域不仅并没能保持先发优势,还在开源、降价、多模态等问题上出现了误判。

界面新闻从多位百度内部人士处了解到,在今年第一季度总监会上,李彦宏称去年内部没有人提到模型开源,导致百度走了一些弯路。

DeepSeek走红之后,百度已对此前关于开闭源的问题进行了纠偏。今年新发布的文心大模型4.5系列将于6月30日正式开源。

而在降价问题上,去年豆包、通义等大模型相继大幅降低调用价格之后,文心大模型的主力模型并未进行跟进。直到今年的Create 2025百度AI开发者大会,百度才正式宣布文心大模型4.5 Turbo和文心大模型X1 Turbo的价格将大幅降低。

然而,今年基础大模型竞争的焦点已不在价格。在一位大模型从业者看来,基础信息处理能力的提升以及成本的下降让豆包、通义等几款大模型在去年获得了快速增长。深度推理能力、视觉推理能力以及Agent相关技术将成为今年到未来几年基础大模型竞争的关键。

在当下的竞争态势下,百度放弃此前的纠结,积极布局多模态大模型就不难理解了。从文心大模型4.5到4.5 Turbo,从文心大模型X1到X1 Turbo,模型性能提升的同时,多模态能力也进一步增强。

根据百度方面的介绍,文心大模型4.5 Turbo多模态能力与GPT 4.1持平,不仅具有图片理解能力,还能听懂、看懂音视频内容;文心大模型X1 Turbo具备跨工具调用能力,能整合搜索引擎、数据库等外部资源完成复杂任务。在多模态交互场景中,这种工具调用能力与多模态能力相融合,使其能够更灵活地应对各种实际问题。

李彦宏在Create 2025百度AI开发者大会上也谈及了布局多模态大模型的价值:DeepSeek也不是万能的,它只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容,很多客户都需要这种多模理解和生成能力。

对于李彦宏此前一直纠结的幻觉问题,吴甜在此次百度AI Day上也进行了重点阐释:百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环,让大模型拥有了自我迭代能力,显著降低了模型幻觉,模型理解和处理复杂任务的能力大幅提升。

虽然对过去的诸多判断进行了纠偏,但不可否认的是,百度在大模型上已经脱离了第一梯队。很多业内人士判断,未来的基础大模型领域将只剩下DeepSeek、豆包和通义三强争霸。在这种竞争格局下,百度想要翻盘面临的挑战也不言而喻。

数字人能否助力百度翻盘?

百度积极布局多模态大模型,除了当下市场竞争的需要之外,另一个重要原因是,多模态大模型承载了百度对AI应用的期待。

去年以来,李彦宏多次在公开场合强调技术的商业价值。在他看来,一个没有明确用途的AI模型,不过是一个吸引人的计算机科学展示。没有应用,芯片、模型都没有价值。模型会有很多,但未来真正统治这个世界的是应用。

今年以来,AI应用领域创业如火如荼,AI办公、AI搜索、Agent等都是热门的AI应用落地方向。但李彦宏有不一样的判断,他在Create 2025百度AI开发者大会上表示,AI数字人是今年最令人激动的突破性应用。声形超拟真、内容更专业、互动更灵活的数字人,实现超越真人的体验,在电商直播、游戏、消费等领域,有着巨大的想象空间。

在百度AI Day上,吴甜透露了百度在数字人方面的布局:百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前这套技术已经支持超过10万数字人主播,直播转化率达31%,降低80%直播开播成本。

但也有一些从业者对数字人有不同的声音。尤其是一些电商商家,尝试数字人直播之后,发现真实的直播带货效果不尽如人意。一家美妆类的商家此前告诉界面新闻,其从去年开始尝试数字人直播带货,但数字人回复用户留言时不仅生硬,还会出现答非所问的情况,不仅没有带来更高的转化率,还引发了更多消费者投诉。

在数字人服务商世优科技CEO纪智辉看来,目前数字人直播带货并不好做,抖音快手等平台的出发点依然是更好的内容和体验。“如果用户在平台上刷到10个短视频有9个都是数字人,这会破坏平台的内容生态,各个平台都对数字人直播进行严格管控也是意料之中的事。”

不过,这些不同的声音并没有阻止百度积极布局数字人的脚步。根据百度此前公布的信息,百度已与罗永浩达成合作,联手打造罗永浩的数字人形象用于直播带货,并将于5月23日晚8点在百度电商开启首场直播。

罗永浩数字人首场直播带货的成绩有待观望。如果数据不错,或许能改变一些商家对数字人直播带货的态度,但其能给百度带来多大商业价值,仍然需要时间验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
百亿龙头,直线涨停!封单超12万手

百亿龙头,直线涨停!封单超12万手

新浪财经
2026-03-26 16:32:05
商业航天巨头冲刺资本市场 A股概念股曝光

商业航天巨头冲刺资本市场 A股概念股曝光

证券时报
2026-03-26 13:02:12
出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

巢客HOME
2026-03-24 06:30:03
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
大学生的天塌了,月薪800起搞个毛线啊?

大学生的天塌了,月薪800起搞个毛线啊?

涛哥锐评
2026-03-26 17:54:00
高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

大风新闻
2026-03-26 18:19:03
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

芳芳历史烩
2026-03-23 03:53:23
张雪峰去世,日媒用了这样一句话评价他...

张雪峰去世,日媒用了这样一句话评价他...

今日日本
2026-03-25 11:10:15
贵州37岁男子离奇失踪近一年,车停在半山腰车门没锁,家属:活要见人死要见尸

贵州37岁男子离奇失踪近一年,车停在半山腰车门没锁,家属:活要见人死要见尸

极目新闻
2026-03-26 12:18:57
刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

鹤羽说个事
2026-03-25 22:25:17
轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

流苏晚晴
2026-03-01 16:48:55
2026-03-26 20:27:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1044443文章数 1332030关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
旅游
家居
本地
公开课

艺术要闻

哪一座桥不是风景?

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版