谷歌 Gemini 3.0 Pro 即将发布,从刚刚曝光的模型卡与早期评测来看,这一代终于不是小修小补,而是能力上的整体跨越。以下几个核心升级值得关注:
【多模态不止于“看图”,真正理解视频内容】
Gemini 3.0 Pro在“Video-MMMU”视频理解基准上得分约87.6%,显著高于GPT-5.1的80.4%。这意味着它不仅能识别静态图像,还可能能分析视频中人物动作、推断前后因果关系、理解场景语境,向真正“看懂视频”迈出了一大步。
【推理、数学、知识库能力肉眼可见的进步】
在允许调用代码执行的情况下,该模型在AIME等高难度数学测试中接近顶尖水平(AIME得分约95.0%)。实际使用中,其推理链更完整稳定,图文混合输入的逻辑判断也更准确。
有评测指出,它在处理复杂问题时“更像在思考”,而不只是机械回应。
【长上下文能力更实用了,128k终于不是虚标】
泄露资料显示其支持长达1000000 token的上下文窗口,并且是“原生多模态”(文字、图像、视频、音频均支持)模型。
虽然上一代也支持长上下文,但3.0 Pro在以下方面有实质改进:长文档处理中信息丢失率降低、跨段落信息整合能力更强、幻觉率显著下降,输出更可靠。
这意味着长上下文不再只是“能读长文本”,而是真正能用于复杂知识推理。
【智能体与代码能力全面而均衡】
在LiveCodeBench、SWE-Bench等编程与工具调用测试中,3.0 Pro整体优于前代,执行更稳定、响应更可靠。
不过,在SWE-Bench Verified等专项中,Claude 4.5仍略有优势。这说明它属于“全能型选手”,但并非在所有单项上都碾压对手。
值得注意的是,这些成绩尚未获得官方全面验证,公测环境中的用户反馈也相对有限。因此,数据看起来很有说服力,但在“实装”还需更多验证。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.