网易首页 > 网易号 > 正文 申请入驻

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,成本降了6成

0
分享至

“周周有发布,天天有更新。”

这是百度创始人李彦宏最新对大模型竞速的感慨,但……卷王实际就是百度自己,因为就这一个多月以来,百度已经连发4款模型了。

就在刚刚,在Create 2025百度AI开发者大会上,李彦宏又一口气官宣了两款新模型:分别是主打深度思考和多模态的X1 Turbo/4.5 Turbo

而且发布即上线,普通用户现在都能免费体验。

据介绍,它们是百度在3月发布的旗舰模型X1、4.5的升级版推理和多模态能力双双更跃Level。

比如在挑战“史上最难高考数学题之一”时,新模型是为数不多能给出正确答案的选手(正确答案为145)

一个冷知识,2003年数学全国卷被誉为“史上最难高考卷”,而这道题还是里面的压轴大题,难度可想而知。

甚至,至今还能看到一众自称03级的网友集体“诉苦”:

再比如面对一段让人眼花缭乱的视频,新模型竟成功猜对了小球的位置。

正确答案是3号杯子,话说大家最终猜出来了吗?(doge)

根据官方测评结果,深度思考模型文心X1 Turbo(深蓝),整体效果领先DeepSeek R1、V3最新版。

文心4.5 Turbo(红色),多模态能力优于GPT 4o,文本能力与DeepSeek V3最新版持平,优于GPT 4.5。

目前,两款新模型均在文心一言官网开放,开发者在百度智能云千帆大模型平台,也可直接调用API

另外,最关键的还是成本的下降!

文心4.5 Turbo输入0.8元/百万tokens,输出3.2元/百万tokens;文心X1 Turbo输入1元/百万tokens,输出4元/百万tokens。

以上价格,前者仅为DeepSeek V3的40%,后者仅为DeepSeek R1的1/4;同时相比一个月前的X1/4.5,价格均下降一半及以上。

大模型能力在进化,成本在下降,应用创新的大爆发将势不可挡。

只不过,咱还是先从一些具体能力上,看看百度最新最强大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展现的那么强?

老规矩,上一手实测~~

实测之后,还是太全面了!

首先来看主打深度思考的文心X1 Turbo模型。

据介绍,它基于文心4.5 Turbo,在性能提升的同时,具备更先进的思维链,尤其擅长推理工具调用

文心大模型X1 Turbo

一上来,我们先拿一道经典逻辑陷阱题热热身:

  • 一根5.5米的竹竿可以通过高4米宽3米的门吗?

对于这样一个看似简单的问题,目前市面上绝大多数的模型反应be like:

而文心X1 Turbo经过一番严谨论证,第一次就得出了正确答案(通过调整竹竿的倾斜角度,可以通过)

看来这种问题已经难不倒它了,接下来难度升级。

直接一步到位,扔给它一道某地高中物理模考卷压轴题,还是只上传图片的那种:

可以看到,对于这种涉及专业领域的高难度推理题,X1 Turbo依旧思路清晰。

先是自主调用“图片理解”工具识别出题目与火箭发射有关,然后上手一步步解题,最终给出了正确答案。

值得注意的是,尽管考查的是X1 Turbo的逻辑推理能力,但我们已经提前发现它的一大特色——

与其他推理模型相比,文心X1 Turbo能够灵活调用各种工具

官网显示,文心X1 Turbo默认开启代码解释器、文档阅读、图片理解、图片生成等诸多工具,一旦意识到答案涉及代码、表格、图片等多模态内容,就会自动调用这些工具。

比如在日常生活中,我们随手将一张美食照分享给文心X1 Turbo,让它帮忙反向解析详细制作过程。

而且为了便于收藏,我们还要求它最终直接生成一份PDF文件

结果,X1 Turbo分别调用图片理解和代码解释器工具,生成了一份可直接下载、内容完整的PDF制作工序文件。

看来挑战还是太简单了,好好好,接下来我们干脆玩把大的。

让文心X1 Turbo帮我们规划一个五一去北京游玩的行程,而且提了一大堆要求,不能太“特种兵”,住宿、交通、门票等等都要考虑到,结果用表格呈现……主打一个全面考察工具调用

话不多说,来感受一下最终效果:

不仅贴心标注了“五一行程——8点自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意标出了需要提前预约的景点和预约渠道。

再仔细一看,同一天安排的景点的位置都比较靠近,属于合理范畴。

此外,我们还发现文心X1 Turbo支持继续对话生成,能在前面的行程规划上,接着为每个景点生成配图。

最后顺便一提,我们在测试文心X1 Turbo的推理和工具调用能力的过程中,还发现它在创意写作方面有点意思。

恰逢五一假期临近,我们让它根据一张“西湖人山人海图”,仿照《岳阳楼记》的文风写一篇游记。

对比一下《岳阳楼记》原文,是不是有内味儿了~

  • 庆历四年春,滕子京谪守巴陵郡。越明年,政通人和,百废具兴,乃重修岳阳楼,增其旧制,刻唐贤今人诗赋于其上,属予作文以记之……

其次来看主打多模态的文心4.5 Turbo模型。

据介绍,它源自文心4.5,是效果更好、成本更低的多模态大模型。

文心大模型4.5 Turbo

实测下来发现,相比单项推理能力突出的文心X1 Turbo,它更像是一个主打综合实力的“六边形战士”。

切换模型后,底部输入框的文档、图片、视频、音频等多模态功能全部“点亮”:

文本能力就不用多说了,我们直接上传一张经典梗图,考查其视觉理解能力,结果也是秒秒钟get~

再来个实用的,让4.5 Turbo设计一些包含故宫博物院元素的冰箱贴文创。

相同提示词下,通过对比文心4.5和4.5 Turbo,可以看到后者的生成效果确实更好、更精致了。

最后,文心4.5 Turbo也能理解音视频素材。

一方面可以直接和它语音对话,亲测用四川方言也能实现无障碍交流:

另一方面还能综合分析视频中的场景、声音、人物等等,目前单个视频最大支持20MB。

小结一下,百度此次推出的文心大模型X1/4.5 Turbo,实测下来在推理能力和多模态能力上确实有一定程度升级。

那么接下来的问题是:背后依靠了哪些核心技术?

挖一挖背后的技术

在思考路径中融合工具调用

首先,作为能够自主运用工具的深度思考模型,文心X1 Turbo背后的关键技术包括:

其一,突破了仅基于思维链优化的范式,在思考路径中结合工具调用,构建了融合思考和行动的复合思维链,模型解决问题的能力得到显著提升。

其二,结合多元统一的奖励机制,实现了长距离思维和行动链的端到端优化,显著提升了跨领域解决问题的能力。

一般而言,传统的单一奖励机制往往只能从一个角度评估模型的性能,这可能导致模型“顾此失彼”,比如过于关注语法,可能就会忽略语义的连贯性。

而多元统一奖励机制是从多个维度全面评估模型的性能,这种综合性的反馈机制能够帮助模型在多个方面同时优化,从而提升整体实力。

采用不同模态混合训练

其次,为了提升文心4.5和4.5 Turbo的多模态能力,一大关键就是采用了不同模态(文本、图像和视频)的混合训练。

针对不同模态数据在结构、规模、知识密度上的差异,主要应用了如下技术:

  • 多模态异构专家建模
  • 自适应分辨率视觉编码
  • 时空重排列的三维旋转位置编码
  • 自适应模态感知损失计算

最终,模型的学习效率提高近2倍,多模态理解效果提升超过30%。

而且为了进一步提升模型的综合实力,他们在后训练阶段也进行了优化。

研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环

这不仅解决了大模型对齐过程中数据生产难度大、成本高、速度慢等问题,而且显著降低了模型幻觉,提升了模型理解和处理复杂任务的效果。

此外在训练阶段,他们还研制了融合偏好学习的强化学习技术,通过多元统一奖励机制,提升了对结果质量判别的准确率,通过离线偏好学习和在线强化学习统一优化,进一步提升了数据利用效率和训练稳定性,并增强了模型对高质量结果的感知。

正是因为受益于偏好信号与奖励信号的融合运用,模型的理解、生成、逻辑推理和记忆等能力才得以全面提升。

数据的合理挖掘及运用

当然,能够训练出高质量模型,还离不开对数据的合理挖掘及运用。

在这方面,他们打造了“数据挖掘与合成 - 数据分析与评估 - 模型能力反馈”的数据建设闭环

主要体现在两点:

一是针对专业深度知识及领域过程知识的数据稀缺问题,研制了原理驱动、过程评估与结果校验的数据合成技术、知识点驱动的大规模稀缺数据挖掘技术,提升数据的知识密度和覆盖面。

二是针对不同模态数据割裂、跨模态语义关联难度大等问题,提出了融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术,大幅提升不同模态数据的对齐精度和深度语义关联,增强多模态理解能力。

最终实现了——既能源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据,还能将数据建设流程轻松迁移到全新的数据类型。

训练推理中采用联合优化

除了上面这些,技术团队还进行了模型的算力优化。

训练方面,多模态统一的掩码注意力加速,利用飞桨已有的块状掩码注意力加速技术,显著降低不同模态混合计算注意力时的掩码构建和计算开销,大幅提升训练性能。

推理方面,多模态流式分块预填充机制,减少首token耗时,同时减少推理计算的显存峰值,提升推理批次大小,提升吞吐性能。

而且值得一提的是,开发者还能利用百度飞桨框架3.0,“像写单机代码一样写分布式代码”,借助其动静统一自动并行技术,开发者无需感知复杂的通信和调度逻辑,即可实现大模型的开发。

目前,文心飞桨的开发者数量已经超过了2185万,服务超过67万家企业,创建的模型达到110万。

未来,随着百度进一步走向开源,开发者也能通过该框架实现更多开源模型的高性能推理了。

把生产力成本打下来了

技术上所具备的核心优势,最终也让百度把模型价格狠狠打下来了。

还在一个月前,百度发布的文心大模型X1和4.5,就因为低于ChatGPT和DeepSeek的价格出圈。

而现在发布的文心X1 Turbo/4.5 Turbo,模型性能升级的同时,价格却进一步降低了。

文心大模型X1 Turbo API,输入价格1元/百万tokens,输出价格4元/百万tokens,仅为DeepSeek R1调用价格的1/4,而且相比文心大模型X1,价格直接腰斩。

文心大模型4.5 Turbo API,输入价格0.8元/百万tokens,输出价格3.2元/百万tokens,仅为DeepSeek V3调用价格的40%,而且相比文心大模型4.5,价格更是下降了80%。

而且不止卷价格,一旦梳理百度目前采取的一系列动作,我们就能看到一个核心关键词——生产力

一方面,百度作为国内最早入局大模型的头部玩家之一,始终坚决投入下一代基础模型。

模型升级的方向,目前主要包括推理、多模态、工具调用等等,这些功能均围绕“生产力”展开,主要是为了满足普通人的日常工作生活需要。

带来的结果是,越升级基础模型,我们普通用户越能免费薅到更强大的生产力工具

另一方面,他们还为开发者提供了全方位支持。以文心大模型为例,目前已经形成了从模型到工具平台的完整体系,包括文心4.5、X1等旗舰模型及其Turbo升级版、文图生成模型、场景模型和轻量模型、文心一言和智能体,以及赋能开发者的数据生产、后训练、推理部署和场景化工具等。

再加上模型价格一降再降,开发者搞应用的门槛也更低了,这将推动AI应用进一步爆发,进而有望提升整个社会的生产力。

这或许也是百度这届AI开发者大会,主题“模型的世界,应用的天下”的关键原因,模型已经遍地都是、触手可及,那么应用的爆发也就成为了必然趋势。百度创始人李彦宏还预判:“模型会有很多,但未来真正统治这个世界的是应用,应用才是王者。”

在发布最后,李彦宏的发言也引发了现场开发者的热烈掌声反馈,他说——

  • 所有这些发布,都是为了让开发者们可以不用担心模型能力、不用担心模型成本、更不用担心开发工具和平台,可以踏踏实实地做应用,做出最好的应用!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧尔班宣布反制措施:在我们耗尽石油之前,乌克兰人将先耗尽资金

欧尔班宣布反制措施:在我们耗尽石油之前,乌克兰人将先耗尽资金

陈恧侃故事
2026-03-07 11:31:12
现场直击:伊朗防空系统拦截美以目标

现场直击:伊朗防空系统拦截美以目标

新华社
2026-03-06 10:54:01
郑爽分享美国近况,穿搭不输当红明星,自曝做医美网友直呼认不出

郑爽分享美国近况,穿搭不输当红明星,自曝做医美网友直呼认不出

萌神木木
2026-03-06 17:33:33
河南女孩六年前为救父亲性命,称谁给40万就嫁给谁,如今过得如何

河南女孩六年前为救父亲性命,称谁给40万就嫁给谁,如今过得如何

牛锅巴小钒
2026-03-06 19:45:04
致敬西虹市首富?切尔西众人开球前将球围在中间,解说员哑然失笑

致敬西虹市首富?切尔西众人开球前将球围在中间,解说员哑然失笑

懂球帝
2026-03-07 13:08:08
广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

狸猫之一的动物圈
2026-03-06 09:38:48
小学生实名投诉极氪 建议取消让她写作业的小桌板!极氪回应

小学生实名投诉极氪 建议取消让她写作业的小桌板!极氪回应

快科技
2026-03-06 23:12:33
王震坚决反对中顾委副主任排名,薄一波:我是常务,就这么定了

王震坚决反对中顾委副主任排名,薄一波:我是常务,就这么定了

芊芊子吟
2026-03-06 09:45:07
莫雷加德全家抵达重庆:对这座城市印象深刻,会请樊振东推荐美食

莫雷加德全家抵达重庆:对这座城市印象深刻,会请樊振东推荐美食

乒谈
2026-03-07 00:19:01
中国女篮72-66再胜巴西,不是张子宇王思雨,她17+7成新核

中国女篮72-66再胜巴西,不是张子宇王思雨,她17+7成新核

林子说事
2026-03-07 08:15:14
速度滑冰世锦赛:宁忠岩收获短距离全能、男子1000米两项季军

速度滑冰世锦赛:宁忠岩收获短距离全能、男子1000米两项季军

懂球帝
2026-03-07 07:21:57
高市早苗被逼到绝路:派也死,不派也死

高市早苗被逼到绝路:派也死,不派也死

鲸探所长
2026-03-07 12:02:36
霍尔木兹海峡船只遭袭4死3重伤!两万海员被困,伊朗称不会关闭海峡,但与以美有关船只不得通行;普京与伊总统通话:通过多种渠道保持联系

霍尔木兹海峡船只遭袭4死3重伤!两万海员被困,伊朗称不会关闭海峡,但与以美有关船只不得通行;普京与伊总统通话:通过多种渠道保持联系

大风新闻
2026-03-07 10:05:06
霍震霆也没想到,46岁的霍启刚,会在两会上凭一个举动给霍家长脸

霍震霆也没想到,46岁的霍启刚,会在两会上凭一个举动给霍家长脸

揽星河的笔记
2026-03-06 23:55:22
结束了!整整27年生涯!曝冠军主帅最后一舞

结束了!整整27年生涯!曝冠军主帅最后一舞

篮球实战宝典
2026-03-06 18:57:43
晴好周末,出游安排起来 | 天气早知道

晴好周末,出游安排起来 | 天气早知道

上观新闻
2026-03-07 11:57:06
针对“不敢休、不让休”怪圈,国家出手了!

针对“不敢休、不让休”怪圈,国家出手了!

国是直通车
2026-03-07 09:12:15
村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

子芫伴你成长
2026-02-23 12:21:40
重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

重回国乒?尘埃落定,刘国梁发声,岗位曝光,布局国乒男队发展

卿子书
2026-03-06 09:25:27
比赛还没开打,上海申花先迎来两个坏消息,新赛季斩获开门红悬了

比赛还没开打,上海申花先迎来两个坏消息,新赛季斩获开门红悬了

零度眼看球
2026-03-07 08:58:12
2026-03-07 13:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12223文章数 176403关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

特朗普突然放话"先解决伊朗后解决古巴" 梅西听懵了

头条要闻

特朗普突然放话"先解决伊朗后解决古巴" 梅西听懵了

体育要闻

塔图姆归来:凯尔特人的春之绿

娱乐要闻

周杰伦田馥甄的“JH恋” 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
本地
教育
手机
公开课

家居要闻

暖棕撞色 轻法奶油风

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

教育要闻

两会速递|教育部部长:将实施新一轮学生心理健康促进行动

手机要闻

欧加骁龙8系小平板4月来袭,Find X9系列配件已备好!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版