文心最新模型直接硬刚Gemini 2.5 pro & GPT5，真的这么神吗？|推理|case|gemini

文心最新模型直接硬刚Gemini 2.5 pro & GPT5，真的这么神吗？

分享至

文心最近发布了两个模型ERNIE-4.5-21B-A3B-Thinking和X1.1

在海外开发者社群中讨论很火爆

甚至有老外称这是ta 认为的最强中国模型。

真的这么神吗？饼干哥哥做了一波实测案例，来看看这两个模型表现如何。

ERNIE-4.5-21B-A3B-Thinking

这是轻量版中强化思维与推理的版本，它目标是填补中间层模型在逻辑、科学、数学、编码这些学术基准，以及工具使用上的性能差距。上下文理解能力据称增强到 128K，说明也偏向处理长输入或大段落内容。

从图表可以看出，ERNIE-4.5-21B-A3B-Thinking 虽然定位为轻量级模型（仅 21B 参数量），但在主流 benchmark 测试中，依然能够和顶尖大模型正面 PK，部分任务甚至与 DeepSeek、Gemini 2.5 pro 等旗舰级模型持平。

尤其在编程相关（HumanEval+、MBPP）和数理推理（MUSR）等任务上，这款轻量模型的分数与 SOTA 选手的差距有限，甚至普遍优于Gemini、接近 DeepSeek，表现相当亮眼。

真实情况如何？还得是跑 case

卡通 3D 地球

该 case 检验模型的综合能力：用 Three.js 生成可旋转/缩放的卡通地球，含云层、装饰元素、灯光、相机与自适应渲染等。

Create a full 3D earth with mouse rotation and zoom features using Three.js
  The implementation provides:
  • Clean cartoon-style Earth with bright blue ocean and green continents
  • 3D white cloud objects made of multiple spheres positioned close to Earth
  surface (1.05-1.15x radius)
  • Decorative elements: golden stars and cyan plus signs near Earth surface
  • Smooth orbit controls for rotation and zoom with auto-rotation enabled
  • Light blue background for clean appearance
  • Proper lighting setup with ambient + directional lights
  • Responsive design that handles window resizing
  • Performance-optimized rendering

   Key technical structure:
  • Use THREE.Group to combine Earth, clouds, and decorative elements for unified
  rotation
  • Position clouds using vector normalization to Earth surface distance
  • Use MeshLambertMaterial for Earth, MeshBasicMaterial for clouds and decorations
  • Simplified elliptical continent shapes instead of realistic geography

   You can interact with the Earth by:
  • Left click + drag to rotate
  • Right click + drag to pan
  • Scroll to zoom in/out
  • Auto-rotation when not interacting

   Style: Clean, cartoon-like 3D icon appearance with bright colors and simple
  shapes.
  Other details can be freely implemented while maintaining the cute, minimalist
  aesthetic.

结果表明：虽然这个地球有点抽象吧，但模型能产出结构清晰、可执行的实现，竟然还能分出来昼夜明暗，属实是没想到。

因为这个 case 我之前用海外御3 家测过，表现都不错，但都没发现昼夜明暗的特性，看来百度这个模型的逻辑推理是有点东西的。

Claude4

ChatGPT5

Gemini2.5 pro

（我不知道为什么 ChatGPT5跑不出来，注意不是 gpt-5-codex）

3D 小镇街景

这是 3D 地球的升级版本，因为可以看到里面还有多个元素（人、汽车等）的互动。

Create a 3D city scene using Three.js that features a bustling urban environment with skyscrapers, apartment buildings, and smaller shops lining the streets. Incorporate roads with moving cars, traffic lights, and pedestrian crossings to bring the city to life. Add pedestrians walking on sidewalks and crossing the streets to enhance realism. Include street elements such as lampposts, benches, and trees for a more immersive experience. Utilize dynamic lighting to simulate day and night cycles, and implement basic camera controls to allow users to explore the vibrant cityscape from different perspectives.

结果表明代码能跑通，生成道路、树木、车辆与基本控件，规划还算完整。

数据可视化面板

作为数据分析师，日常离不开做数据可视化，所以就让它来跑下这个复杂的需求：

请为我设计一个符合企业级标准的三维可视化数据大屏，参照现代科技感的紫色与橙色渐变风格，创建一个尖端科技风格的企业级数据可视化大屏HTML/CSS/JS完整应用，基于一家人工智能公司的销售数据，遵循以下规范：

## 设计风格

- 使用深色背景（深蓝/黑色）作为基底，创造沉浸式数据体验 - 采用紫色、粉色、蓝色渐变作为主色调，配以橙色/珊瑚色作为强调色 - 所有图表和界面元素应有发光边缘效果，增强科技感和立体感 - 设计布局应采用三维空间感，让数据图表悬浮于不同层级

## 核心功能需求

1. 多维度数据可视化 - 包含折线图、柱状图、面积图、散点图、热力图等多种图表类型 - 所有图表需支持3D效果和悬浮式设计 - 图表间需有联动效果，一个图表的数据变化会影响其他相关图表 2. 实时数据交互 - 所有图表支持鼠标悬停显示详细数据信息 - 图表支持缩放、旋转等交互操作 3. 动态效果 - 数据加载和更新时的流动动画效果 - 数据变化时的平滑过渡动效 - 背景元素（如粒子、光线）的微妙流动效果 - 3D空间中的数据元素漂浮动效

## 技术实现

- 纯前端实现：HTML5 + CSS3 + 现代JavaScript - 基于Three.js或Echarts-GL实现3D可视化效果 - 使用WebGL处理大量数据渲染 - 支持多种数据源接入（API、CSV、数据库等）

## 适配性要求

- 设计应具有灵活的数据模型，能适应不同行业的数据结构 - 提供模板配置系统，允许用户自定义布局和图表组合 - 支持多种分辨率（16:9、21:9、4:3等）屏幕比例

## 交付成果：完整的可视化大屏前端代码

老实说，我是没想到效果是这么好

整体比较酷炫；基本交互可用，说明对可视化库与前端工程的调度到位。

ERNIE-X1.1

从官方介绍看，ERNIE‑X1.1 作为深度思考模型，它强调在问答、指令遵循、工具调用、数学推理、代码任务等方面“显著提升”，特别是事实性（factuality）有所加强。

看官方数据，好家伙，闷不作声的，这么厉害了？

X1.1整体处于第一梯队：

在数学推理、代码生成与多步逻辑上多项基准领先，且幻觉率更低。
与 DeepSeek-R1-0528 相比，X1.1在复杂推理/编程上小幅占优，但在少量知识密集型问答上两者接近或被反超。
对比 Gemini-2.5-Pro，X1.1在结构化推理与约束执行更稳，Gemini在自然语言覆盖与部分常识题上略好。
与 GPT-5 相比，X1.1在准确率与幻觉控制上更优，但长文生成稳健性与保守性上 GPT-5略胜。

直接上 Case

跑个键盘 html 来看下：

用html生成一个电脑键盘

这个case涉及布局、对齐、尺寸与标签的准确性。

结果显示按键名称与行列关系基本正确，说明常识与代码模板调度良好，也就是整体上对于常识的理解能力是没问题的。

数学推理

手电过桥优化题，旨在检验模型在组合优化中的推理与搜索能力。

四人用一只手电过桥，速度分别 1、2、5、8 分钟；每次至多两人同行、须带手电，求最短总时间

牛逼，还真答对了。能找到经典最优解15分钟，并能解释“快者运灯、慢者结伴、减少往返”等关键策略，推理链清晰、计算可靠。

看深度思考过程发现，它其实是尝试了多达7、8 种策略才得到的结论：

这还挺有用，以后做逻辑推理题目不就稳了吗？！！

视觉推理

网上找了张「鬼探头」的图，饼干哥哥开车最讨厌这样的人了，所以看下 AI 能不能识别出来这个安全隐患？

这个case考察模型的视觉推理与交通语境理解：从静态街景中识别车辆、行人、道路结构及相对位置，并据此推断潜在风险。

识别当前行车有什么安全隐患？

其实，在上传图片的时候，我只看到鬼探头这个问题，还没想到这么多隐患，说明其多要素综合判断与因果推理还是比较稳的。

结论

从测评看，X1.1 在官方指标和实际案例中的表现确实比早期版本或中型模型强不少，尤其在逻辑复杂、场景综合的任务上有较大提升。

而ERNIE-4.5‑21B‑A3B‑Thinking 则是一款“够用而非极致”的模型：在很多任务中可以胜任，尤其是中等复杂度的逻辑、可视化与推理任务。

说实话，每次看到国内大模型登顶XX开源榜单的时候

常看到人吐槽中国模型还比不上海外御三家

但作为时刻关注 AI发展动向的博主，我越来越觉得，国产大模型今天在能力、生态和开源活力上，已经不是“陪跑”的角色了，像 X1.1 这种旗舰，很多场景已经能正面刚国际一线产品。

也许赶超需要时间，但至少现在，我们已经走在了正确的路上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.