网易首页 > 网易号 > 正文 申请入驻

免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考

0
分享至

昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。

此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。

体验地址:https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军事情报战车TITAN宣传视频做解读案例。

因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平

需要注意的是,上传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式

上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。

文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。

音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。

再体验一下X1,其特殊能力就是能自动调用多种其他工具。

例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”

X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片

在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。

我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。

这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。

最后输出的结果如下:

《肖申克的救赎》yyds!这部片子简直是"监狱版《越狱》"的鼻祖,蒂姆·罗宾斯演的安迪简直是个"神级挖坑王",用一把小鹤嘴锄挖出自由之路,看得人热血沸腾!

摩根·弗里曼的旁白更是"金句制造机","希望是好事,也许是人间至善"这句话,我直接原地emo转鸡血!影片节奏就像"德芙巧克力,纵享丝滑",看完感觉心灵都被"越狱"了!姐妹们,答应我,没看过的一定要冲,这片子保熟!

感觉写的还行,有小红书那味儿了吧。可以在这个基础之上改一改就能直接出文案了。

至于价格方面,个人用户是免费使用这两款大模型;企业开发者在百度智能云千帆大模型平台,现在能直接使用文心4.5 API,输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens;

X1也即将在千帆平台上线,输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。

文心4.5和X1架构简单介绍

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

传统的注意力掩码计算在处理长序列时往往面临效率瓶颈,而FlashMask通过动态调整注意力掩码的方式,能够加速计算过程。使得模型在处理长文本或长序列数据时表现更加出色。还能优化多轮交互场景下的性能,这对于需要连续对话或长文本生成的应用场景具有重要意义。

多模态异构专家扩展技术主要解决不同模态之间的梯度不均衡难题。在多模态模型中,图像、文本、音频等不同模态的数据特性差异很大,导致它们在训练过程中梯度更新速度不一致,进而影响模型的整体性能。

通过构建模态异构专家,为每种模态设计专门的处理模块,并结合自适应模态感知损失函数,该技术能够动态调整各模态的权重,从而平衡梯度更新,提升多模态融合的效果

时空维度表征压缩技术针对的是多模态数据中的图片和视频语义表征。在多模态训练中,图片和视频的语义信息往往需要大量的计算资源来处理,尤其是长视频数据。

通过在时空维度对这些语义表征进行高效压缩,大幅减少了计算量,提升了多模态数据的训练效率。同时,还增强了模型从长视频中提取世界知识的能力,这对于提升模型对复杂场景的理解和生成能力至关重要。

根据测试数据显示,文心4.5的原生多模态能力,在CCBench、OCRBench、MMMU、MathVista等主流基准测试中,大幅度超过了OpenAI发布的GPT-4o。

X1的深度思考能力则应用了基于思维链和行动链的端到端训练,将输入直接映射到输出的训练方式,避免了传统多阶段训练中可能出现的信息丢失和误差累积问题

在深度搜索场景中,模型不仅需要考虑搜索结果的相关性,还需要理解用户的搜索意图,通过思维链的构建,将用户的意图分解为一系列的逻辑步骤,然后通过行动链将这些步骤转化为具体的搜索行为。

例如,当用户输入一个复杂的查询请求时,模型首先通过思维链理解用户可能需要的信息类型、范围和优先级,然后通过行动链调用不同的搜索工具或算法,逐步细化搜索结果,最终提供最符合用户需求的答案。这种端到端的训练方式能够根据最终的结果反馈,直接调整模型的参数,从而显著提升训练效果。

百度表示,未来会开源文心4.5大模型。

本文素材来源百度、文心一言,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退休后,永远不要在熟人面前,说以下6句话,切记切记

退休后,永远不要在熟人面前,说以下6句话,切记切记

东林夕亭
2026-04-02 16:44:39
建议收藏!血压、血糖、血脂、尿酸标准对照表及忌口清单盘点

建议收藏!血压、血糖、血脂、尿酸标准对照表及忌口清单盘点

华医网
2026-04-06 05:42:56
如果当初采纳梁思成先生的方案,北京将是世界上最宏伟的千年古都

如果当初采纳梁思成先生的方案,北京将是世界上最宏伟的千年古都

兴趣知识
2026-03-31 14:37:40
罗媒:医院表示卢塞斯库对治疗无反应,他的儿子已经赶回看望

罗媒:医院表示卢塞斯库对治疗无反应,他的儿子已经赶回看望

手工制作阿歼
2026-04-06 20:50:58
不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

不说话,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛来了?

往史过眼云烟
2026-04-05 16:45:07
访华彻底没戏了?鲁比奥再次找中国麻烦,一句话让巴拿马沉默了

访华彻底没戏了?鲁比奥再次找中国麻烦,一句话让巴拿马沉默了

探索新高度
2026-04-07 09:47:09
苏联中将披露:中越战争中国调 56 万大军,越军防线崩溃

苏联中将披露:中越战争中国调 56 万大军,越军防线崩溃

磊子讲史
2025-12-23 19:48:33
陈青敏当选越南国会主席

陈青敏当选越南国会主席

国际在线
2026-04-06 12:28:57
周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

可达鸭面面观
2026-04-05 16:59:56
“嫁给自己”退70件婚纱后续,姐妹团翻脸,博主账号被网友冲烂

“嫁给自己”退70件婚纱后续,姐妹团翻脸,博主账号被网友冲烂

十九妹
2026-04-03 17:54:22
德米罗维奇:因个人信仰我本人不饮酒;会兑现请球迷喝酒的承诺

德米罗维奇:因个人信仰我本人不饮酒;会兑现请球迷喝酒的承诺

懂球帝
2026-04-06 12:37:39
上海滩餐厅偶遇陈妍希,好小只很瘦,40多岁的人打扮像少女

上海滩餐厅偶遇陈妍希,好小只很瘦,40多岁的人打扮像少女

阿废冷眼观察所
2026-04-07 07:07:47
未历饥荒,不敢说饥荒

未历饥荒,不敢说饥荒

无心镜
2026-04-06 08:05:05
勉强够到及格线的三线机车厂练兵产品,东方红2型内燃机车的故事

勉强够到及格线的三线机车厂练兵产品,东方红2型内燃机车的故事

顾氏造船厂厂长
2026-04-07 08:00:11
特斯拉即将发布一款重磅车型,太猛了!

特斯拉即将发布一款重磅车型,太猛了!

花果科技
2026-04-05 23:01:14
那个美军飞行员㞞得一批,居然没喊“向我开炮”

那个美军飞行员㞞得一批,居然没喊“向我开炮”

朝廷心腹
2026-04-06 20:32:57
伊朗媒体:一枚炮弹击中位于伊拉克的美国领事馆

伊朗媒体:一枚炮弹击中位于伊拉克的美国领事馆

新京报
2026-04-06 09:49:05
悲催!张雪妈妈发表讲述儿子成长文章,评论区充斥大量质疑和指责

悲催!张雪妈妈发表讲述儿子成长文章,评论区充斥大量质疑和指责

火山詩话
2026-04-07 08:51:11
消息一出,学界的群聊炸开了:北大数学学院通告

消息一出,学界的群聊炸开了:北大数学学院通告

岁月有情1314
2026-04-05 22:19:00
不对,这样的烂工作为啥还要花钱找

不对,这样的烂工作为啥还要花钱找

阿亮评论
2026-04-06 20:08:30
2026-04-07 10:35:00
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
542文章数 53关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

特朗普:伊朗人民甘愿承受苦难 他们"想听炸弹的声音"

头条要闻

特朗普:伊朗人民甘愿承受苦难 他们"想听炸弹的声音"

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

艺术
房产
旅游
游戏
公开课

艺术要闻

郑丽文来大陆,马英九题字瞬间爆红,书法爱好者该如何入门?

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

旅游要闻

仁怀苍龙:清明踏青焕活力 乡村颜值变产值

传闻《古墓丽影:亚特兰蒂斯遗产》延期至2027年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版