网易首页 > 网易号 > 正文 申请入驻

文心最新模型直接硬刚Gemini 2.5 pro & GPT5,真的这么神吗?

0
分享至

文心最近发布了两个模型ERNIE-4.5-21B-A3B-Thinking和X1.1

在海外开发者社群中讨论很火爆

甚至有老外称这是ta 认为的最强中国模型。


真的这么神吗?饼干哥哥做了一波实测案例,来看看这两个模型表现如何。

ERNIE-4.5-21B-A3B-Thinking

这是轻量版中强化思维与推理的版本,它目标是填补中间层模型在逻辑、科学、数学、编码这些学术基准,以及工具使用上的性能差距。上下文理解能力据称增强到 128K,说明也偏向处理长输入或大段落内容。


从图表可以看出,ERNIE-4.5-21B-A3B-Thinking 虽然定位为轻量级模型(仅 21B 参数量),但在主流 benchmark 测试中,依然能够和顶尖大模型正面 PK,部分任务甚至与 DeepSeek、Gemini 2.5 pro 等旗舰级模型持平。

尤其在编程相关(HumanEval+、MBPP)和数理推理(MUSR)等任务上,这款轻量模型的分数与 SOTA 选手的差距有限,甚至普遍优于Gemini、接近 DeepSeek,表现相当亮眼。

真实情况如何?还得是跑 case

卡通 3D 地球

该 case 检验模型的综合能力:用 Three.js 生成可旋转/缩放的卡通地球,含云层、装饰元素、灯光、相机与自适应渲染等。

Create a full 3D earth with mouse rotation and zoom features using Three.js
The implementation provides:
• Clean cartoon-style Earth with bright blue ocean and green continents
• 3D white cloud objects made of multiple spheres positioned close to Earth
surface (1.05-1.15x radius)
• Decorative elements: golden stars and cyan plus signs near Earth surface
• Smooth orbit controls for rotation and zoom with auto-rotation enabled
• Light blue background for clean appearance
• Proper lighting setup with ambient + directional lights
• Responsive design that handles window resizing
• Performance-optimized rendering

Key technical structure:
• Use THREE.Group to combine Earth, clouds, and decorative elements for unified
rotation
• Position clouds using vector normalization to Earth surface distance
• Use MeshLambertMaterial for Earth, MeshBasicMaterial for clouds and decorations
• Simplified elliptical continent shapes instead of realistic geography

You can interact with the Earth by:
• Left click + drag to rotate
• Right click + drag to pan
• Scroll to zoom in/out
• Auto-rotation when not interacting

Style: Clean, cartoon-like 3D icon appearance with bright colors and simple
shapes.
Other details can be freely implemented while maintaining the cute, minimalist
aesthetic.

结果表明:虽然这个地球有点抽象吧,但模型能产出结构清晰、可执行的实现,竟然还能分出来昼夜明暗,属实是没想到。


因为这个 case 我之前用海外御3 家测过,表现都不错,但都没发现昼夜明暗的特性,看来百度这个模型的逻辑推理是有点东西的。


Claude4


ChatGPT5


Gemini2.5 pro

(我不知道为什么 ChatGPT5跑不出来,注意不是 gpt-5-codex)

3D 小镇街景

这是 3D 地球的升级版本,因为可以看到里面还有多个元素(人、汽车等)的互动。

Create a 3D city scene using Three.js that features a bustling urban environment with skyscrapers, apartment buildings, and smaller shops lining the streets. Incorporate roads with moving cars, traffic lights, and pedestrian crossings to bring the city to life. Add pedestrians walking on sidewalks and crossing the streets to enhance realism. Include street elements such as lampposts, benches, and trees for a more immersive experience. Utilize dynamic lighting to simulate day and night cycles, and implement basic camera controls to allow users to explore the vibrant cityscape from different perspectives.

结果表明代码能跑通,生成道路、树木、车辆与基本控件,规划还算完整。

数据可视化面板

作为数据分析师,日常离不开做数据可视化,所以就让它来跑下这个复杂的需求:

请为我设计一个符合企业级标准的三维可视化数据大屏,参照现代科技感的紫色与橙色渐变风格,创建一个尖端科技风格的企业级数据可视化大屏HTML/CSS/JS完整应用,基于一家人工智能公司的销售数据,遵循以下规范:

## 设计风格

- 使用深色背景(深蓝/黑色)作为基底,创造沉浸式数据体验 - 采用紫色、粉色、蓝色渐变作为主色调,配以橙色/珊瑚色作为强调色 - 所有图表和界面元素应有发光边缘效果,增强科技感和立体感 - 设计布局应采用三维空间感,让数据图表悬浮于不同层级

## 核心功能需求

1. 多维度数据可视化 - 包含折线图、柱状图、面积图、散点图、热力图等多种图表类型 - 所有图表需支持3D效果和悬浮式设计 - 图表间需有联动效果,一个图表的数据变化会影响其他相关图表 2. 实时数据交互 - 所有图表支持鼠标悬停显示详细数据信息 - 图表支持缩放、旋转等交互操作 3. 动态效果 - 数据加载和更新时的流动动画效果 - 数据变化时的平滑过渡动效 - 背景元素(如粒子、光线)的微妙流动效果 - 3D空间中的数据元素漂浮动效

## 技术实现

- 纯前端实现:HTML5 + CSS3 + 现代JavaScript - 基于Three.js或Echarts-GL实现3D可视化效果 - 使用WebGL处理大量数据渲染 - 支持多种数据源接入(API、CSV、数据库等)

## 适配性要求

- 设计应具有灵活的数据模型,能适应不同行业的数据结构 - 提供模板配置系统,允许用户自定义布局和图表组合 - 支持多种分辨率(16:9、21:9、4:3等)屏幕比例

## 交付成果:完整的可视化大屏前端代码

老实说,我是没想到效果是这么好


整体比较酷炫;基本交互可用,说明对可视化库与前端工程的调度到位。

ERNIE-X1.1

从官方介绍看,ERNIE‑X1.1 作为深度思考模型,它强调在问答、指令遵循、工具调用、数学推理、代码任务等方面“显著提升”,特别是事实性(factuality)有所加强。


看官方数据,好家伙,闷不作声的,这么厉害了?

X1.1整体处于第一梯队:

  • 在数学推理、代码生成与多步逻辑上多项基准领先,且幻觉率更低。
  • 与 DeepSeek-R1-0528 相比,X1.1在复杂推理/编程上小幅占优,但在少量知识密集型问答上两者接近或被反超。
  • 对比 Gemini-2.5-Pro,X1.1在结构化推理与约束执行更稳,Gemini在自然语言覆盖与部分常识题上略好。
  • 与 GPT-5 相比,X1.1在准确率与幻觉控制上更优,但长文生成稳健性与保守性上 GPT-5略胜。

直接上 Case

跑个键盘 html 来看下:

用html生成一个电脑键盘

这个case涉及布局、对齐、尺寸与标签的准确性。

结果显示按键名称与行列关系基本正确,说明常识与代码模板调度良好,也就是整体上对于常识的理解能力是没问题的。


数学推理

手电过桥优化题,旨在检验模型在组合优化中的推理与搜索能力。


四人用一只手电过桥,速度分别 1、2、5、8 分钟;每次至多两人同行、须带手电,求最短总时间

牛逼,还真答对了。能找到经典最优解15分钟,并能解释“快者运灯、慢者结伴、减少往返”等关键策略,推理链清晰、计算可靠。


看深度思考过程发现,它其实是尝试了多达7、8 种策略才得到的结论:


这还挺有用,以后做逻辑推理题目不就稳了吗?!!

视觉推理

网上找了张「鬼探头」的图,饼干哥哥开车最讨厌这样的人了,所以看下 AI 能不能识别出来这个安全隐患?


这个case考察模型的视觉推理与交通语境理解:从静态街景中识别车辆、行人、道路结构及相对位置,并据此推断潜在风险。

识别当前行车有什么安全隐患?

其实,在上传图片的时候,我只看到鬼探头这个问题,还没想到这么多隐患,说明其多要素综合判断与因果推理还是比较稳的。


结论

从测评看,X1.1 在官方指标和实际案例中的表现确实比早期版本或中型模型强不少,尤其在逻辑复杂、场景综合的任务上有较大提升。

而ERNIE-4.5‑21B‑A3B‑Thinking 则是一款“够用而非极致”的模型:在很多任务中可以胜任,尤其是中等复杂度的逻辑、可视化与推理任务。

说实话,每次看到国内大模型登顶XX开源榜单的时候

常看到人吐槽中国模型还比不上海外御三家

但作为时刻关注 AI发展动向的博主,我越来越觉得,国产大模型今天在能力、生态和开源活力上,已经不是“陪跑”的角色了,像 X1.1 这种旗舰,很多场景已经能正面刚国际一线产品。

也许赶超需要时间,但至少现在,我们已经走在了正确的路上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女优冈田优爱运动员出道,长辈太大吓到合作男优!

女优冈田优爱运动员出道,长辈太大吓到合作男优!

葫芦哥爱吐槽
2025-09-19 12:58:08
赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

球哥评球
2025-09-19 12:37:18
哭晕!证监会降温股市!9月19日,周五面对的第一利空开始发酵!

哭晕!证监会降温股市!9月19日,周五面对的第一利空开始发酵!

搬砖知天下事
2025-09-19 08:39:59
年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

球场没跑道
2025-09-18 21:03:16
连续四战被横扫!李诗沣0-2不敌苦主止步八强,翁泓阳成男单独苗

连续四战被横扫!李诗沣0-2不敌苦主止步八强,翁泓阳成男单独苗

钉钉陌上花开
2025-09-19 21:03:43
小李子最新作《一战再战》海外口碑大爆 高能视听震撼大银幕

小李子最新作《一战再战》海外口碑大爆 高能视听震撼大银幕

北青网-北京青年报
2025-09-19 11:44:35
月薪5万却留不住人,三年流失近19万,香港人为何纷纷逃离?

月薪5万却留不住人,三年流失近19万,香港人为何纷纷逃离?

青眼财经
2025-09-13 18:50:09
苏翊鸣社媒为朱易送上生日祝福:Happy Bev Day!

苏翊鸣社媒为朱易送上生日祝福:Happy Bev Day!

懂球帝
2025-09-19 13:53:27
600376,尾盘跳水跌停,此前12天11板

600376,尾盘跳水跌停,此前12天11板

第一财经资讯
2025-09-19 14:58:56
小米新机突然上架:9月17日,正式开售

小米新机突然上架:9月17日,正式开售

科技堡垒
2025-09-18 12:23:17
美国就算一动不动,中国20年也追不上?九三阅兵后,局势已被改写

美国就算一动不动,中国20年也追不上?九三阅兵后,局势已被改写

书中自有颜如玉
2025-09-10 10:41:55
深圳核心区放开限购?官方辟谣

深圳核心区放开限购?官方辟谣

界面新闻
2025-09-19 20:10:27
美女穿着真是放得开,穿紧身瑜伽裤凸显“柯基臀”,无惧素颜出街

美女穿着真是放得开,穿紧身瑜伽裤凸显“柯基臀”,无惧素颜出街

小乔古装汉服
2025-09-19 15:38:59
孝庄死后,苏麻喇姑悲痛欲绝,康熙:快将她“儿子”十二阿哥送去

孝庄死后,苏麻喇姑悲痛欲绝,康熙:快将她“儿子”十二阿哥送去

史笔似尘钩
2025-08-23 23:58:27
民进党大佬柯建铭儿子在大陆投资产业,如今被制裁金脉即将断绝

民进党大佬柯建铭儿子在大陆投资产业,如今被制裁金脉即将断绝

观星赏月
2025-09-19 12:03:55
原来她就是王传福的妻子,怪不得做啥都能来财,娶一个贤妻旺三代

原来她就是王传福的妻子,怪不得做啥都能来财,娶一个贤妻旺三代

闻识
2025-09-17 16:40:31
年过五十,存款达到这个数,恭喜你已是“隐形富人”!

年过五十,存款达到这个数,恭喜你已是“隐形富人”!

慧眼看世界哈哈
2025-09-19 06:06:42
浙江一大学老师,全款买下一老破小,改造后,那叫一个高级,晒晒

浙江一大学老师,全款买下一老破小,改造后,那叫一个高级,晒晒

阿离家居
2025-09-19 13:46:25
江西反腐消息:徐勇庆被查、李云被“双开”、刘杨忠被查、吴雪平主动投案

江西反腐消息:徐勇庆被查、李云被“双开”、刘杨忠被查、吴雪平主动投案

鲁中晨报
2025-09-19 17:33:07
汪小菲公开表态,揭露S妈房贷与豪宅双重标准

汪小菲公开表态,揭露S妈房贷与豪宅双重标准

梅梅瞎八卦
2025-09-19 13:46:10
2025-09-19 21:51:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
283文章数 6004关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

男子25万盖一栋三层楼房 房子还没建好成全村人"笑话"

头条要闻

男子25万盖一栋三层楼房 房子还没建好成全村人"笑话"

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

旅游
数码
教育
房产
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

数码要闻

XIAOMI Pad 8 柔光版图赏:低饱和度淡雅配色,轻薄又护眼

教育要闻

2025上经贸主要生源来自哪些高中?

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版