网易首页 > 网易号 > 正文 申请入驻

御三家打起来了:OpenAI 开源、谷歌发布可交互的世界模型、Claude 4.1 成了编程新旗舰

0
分享至

同一天,硅谷模型三巨头连续发布了新的模型(到底也不知道谁截胡谁了)。

OpenAI 终于发布了新的开源模型,gpt-oss-120b 和 gpt-oss-20b,上次开源 GPT-2 已经是 6 年前的事情了。从目前的评测成绩来看,两款模型能力接近 o4-mini,虽然编程能力略弱,但这个 SOTA 级别的能力表现,很期待接下来的开源生态的发展。

DeepMind 也发了个大招,一个看起来基本进入可用阶段的世界模型 Genie 3,一句话直接生成可交互的 3D 世界、角色和道具,目前尚未对外开放,但演示片很震撼。

Claude 发布了旗舰模型 Opus 的小版本升级——Claude Opus 4.1,编程能力依旧没得说,这次强化了 Agent 能力。

接下来,该期待 DeepSeek R2 了。

文章内容编译自「机器之心」、部分官博文章。

超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01OpenAI 开源两个推理模型,o4-mini 水平

这是近几年来(自 GPT-2 以来),OpenAI 重新开源模型。

两款模型均采用 Transformer 架构,并利用专家混合(MoE)来减少处理输入所需的活跃参数数量。其中,gpt-oss-120b 每个 token 激活 5.1B 参数,而 gpt-oss-20b 则激活 3.6B 参数。两款模型的总参数分别为 117B 和 21B

此外,两款模型采用交替密集和局部带状稀疏注意力模式,类似于 GPT-3。为了提高推理和内存效率,模型还使用了分组多查询注意力,组大小为 8。同时利用旋转位置编码(RoPE)进行位置编码,并原生支持最长 128k 的上下文长度

两款开源模型与 o3、o4-mini 的跑分结果比较如下:

作为两个 SOTA 级别的开源语言模型,gpt-oss-120b 和 gpt-oss-20b 可以提供强大的实际应用性能,并具有低成本优势。

两款模型在推理任务上超越了同等规模的开源模型,展示了强大的工具使用能力,并且经过优化,能够高效部署在消费级硬件上。训练过程中结合了强化学习以及受 OpenAI 内部最先进模型启发的技术,包括 o3 和其他前沿模型。

其中,gpt-oss-120b 模型在核心推理基准测试上与 o4-mini 几乎持平,同时能够在单个 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中表现与 o3-mini 相似,且仅需 16GB 内存即可运行,适用于边缘设备,非常适合本地推理、设备端使用或在没有高昂基础设施的情况下快速迭代。

两款模型在工具使用、few-shot 函数调用、CoT 推理以及 HealthBench 测试中表现非常出色,甚至超越了 o1 和 GPT-4o 等专有模型。

总结一波,这两个开源模型的亮点包括:

  • 宽松的 Apache 2.0 许可证:自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。

  • 可调整的推理力度:根据具体用例和延迟需求轻松调整推理力度(低、中、高)。

  • 完整的思维链(CoT):完全可访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。不计划向终端用户展示。

  • 可微调:通过参数微调,完全可根据特定用例定制模型。

  • Agentic 功能:使用模型的功能进行函数调用、网页浏览、Python 代码执行和结构化输出。

  • 原生 MXFP4 量化:模型使用原生 MXFP4 精度针对 MoE 层进行训练,使得 gpt-oss-120b 可在单个 H100 GPU 上运行,gpt-oss-20b 模型可在 16GB 内存内运行。

除了本地部署外,目前可以在 OpenRouter、Amazon Bedrock、Amazon SageMaker AI 等平台在线体验。


GitHub 地址:
https://github.com/openai/gpt-oss

hugging face 地址:
https://huggingface.co/openai/gpt-oss-20b

hugging face 地址:
https://huggingface.co/openai/gpt-oss-120b

博客地址:
https://openai.com/index/introducing-gpt-oss/

02谷歌推出世界模型 Genie 3:玩家实时交互,支持提示词生成

谷歌 DeepMind 宣布其 Genie 世界模型系列最新版本 Genie 3。据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性。

相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时支持使用提示词生成世界事件。

怎么说,一句话生成一个可游玩体验的游戏,可能就成真了!

Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

具体功能包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。

  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。

  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。

  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。


博客地址:
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

03Anthropic 发布 Claude Opus 4.1:主打智能体任务、真实世界编程能力

Anthropic 发布了其最新编程模型 Claude Opus 4.1,基于此前发布的 Claude Opus 4 构建,在智能体任务、真实世界编程和推理能力上有了大幅提升,具备 200K 上下文窗口。

性能方面,Opus 4.1 在 SWE-bench Verified 基准上达到 74.5%,创造了该项评测的新纪录。此外,该模型还在深度研究和数据分析等方面有所提升,尤其是在细节追踪和智能体搜索方面。

据第三方 GitHub 评估,Claude Opus 4.1 在大多数能力上相较于 Opus 4 都有所提升,尤其在多文件代码重构方面表现出显著进步。

目前,Claude Opus 4.1 已集成至 Claude Code 中,面向 Claude Pro、Max、Team 和 Enterprise(企业)用户开放使用。

开发者可通过以下平台使用 Claude Opus 4.1:

  • Anthropic API

  • Amazon Bedrock

  • Google Cloud 的 Vertex AI

在 API 价格方面,Claude Opus 4.1 的定价为:

  • 每百万输入 token 15 美元

  • 每百万输出 token 75 美元


博客地址:
https://www.anthropic.com/news/claude-opus-4-1

System Card:
https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跑步进入伊斯兰世界?欧洲的“2035预言”,玩笑还是宿命?

跑步进入伊斯兰世界?欧洲的“2035预言”,玩笑还是宿命?

步论天下事
2026-05-01 10:00:21
陈晓旭的这张照片,真的是护手霜宣传图吗

陈晓旭的这张照片,真的是护手霜宣传图吗

我来我看见
2026-05-02 00:38:35
毁三观!体坛 4 大丑闻曝光:贪财好色、婚内出轨,比娱乐圈还乱

毁三观!体坛 4 大丑闻曝光:贪财好色、婚内出轨,比娱乐圈还乱

橙星文娱
2026-04-27 16:46:45
离队倒计时!利物浦锁定萨拉赫替身,埃基蒂克都服了

离队倒计时!利物浦锁定萨拉赫替身,埃基蒂克都服了

一隅非生
2026-05-02 06:48:00
曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

澜归序
2026-05-02 02:57:25
美国拟从德国撤出五千驻军

美国拟从德国撤出五千驻军

新华社
2026-05-02 07:03:03
61岁张曼玉素颜现身北京!独自拖行李、满耳耳洞,活得太通透

61岁张曼玉素颜现身北京!独自拖行李、满耳耳洞,活得太通透

贾妈的幸福生活
2026-05-01 11:53:39
睡遍好莱坞的种马影帝:性欲成瘾每天与情人交欢,私生子多达25人

睡遍好莱坞的种马影帝:性欲成瘾每天与情人交欢,私生子多达25人

钱小刀娱乐
2026-04-15 21:30:57
43年八路军侦察员借宿时惨遭出卖,面对166名敌军,他靠一招脱险

43年八路军侦察员借宿时惨遭出卖,面对166名敌军,他靠一招脱险

卡西莫多的故事
2026-03-14 21:35:36
成吉思汗大墓或被找到,专家准备挖掘时,蒙古总理却出面进行制止

成吉思汗大墓或被找到,专家准备挖掘时,蒙古总理却出面进行制止

浩渺青史
2026-05-01 00:56:48
不想访华了?特朗普联合27国,抱团要抢中国王牌!中方淡定亮家底

不想访华了?特朗普联合27国,抱团要抢中国王牌!中方淡定亮家底

阿校谈史
2026-05-02 03:48:29
我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

西楼知趣杂谈
2026-04-20 08:40:47
湖人给布朗尼到底开出了多少薪水?詹姆斯大儿子合同细节正式曝光

湖人给布朗尼到底开出了多少薪水?詹姆斯大儿子合同细节正式曝光

夜白侃球
2026-05-01 16:44:52
深夜重磅消息!情况有变,伊朗方面或作出重大调整

深夜重磅消息!情况有变,伊朗方面或作出重大调整

阿振观点
2026-05-02 05:24:21
千万企退人员多年合理诉求迟迟未落地!真实现状深度解析

千万企退人员多年合理诉求迟迟未落地!真实现状深度解析

匹夫来搞笑
2026-04-25 15:26:44
爆大瓜!马瑟林要离开?三队公开抢人,快船被拿捏得死死的

爆大瓜!马瑟林要离开?三队公开抢人,快船被拿捏得死死的

体育大朋说
2026-05-01 10:14:13
要拆队了!掘金两大核心或将离队,顶级3D也难留,垃圾合同送不走

要拆队了!掘金两大核心或将离队,顶级3D也难留,垃圾合同送不走

你的篮球频道
2026-05-02 07:27:53
建议所有夫妻收藏:让性生活重回热恋期的5个小技巧

建议所有夫妻收藏:让性生活重回热恋期的5个小技巧

精彩分享快乐
2026-05-02 07:20:07
广州丢G2!米切尔不满命中率与篮板,G3想取胜还是要解决广东双塔

广州丢G2!米切尔不满命中率与篮板,G3想取胜还是要解决广东双塔

篮球资讯达人
2026-05-01 23:30:13
上海市中心又有大规模动迁,两大小区总算轮到动迁

上海市中心又有大规模动迁,两大小区总算轮到动迁

爱看剧的阿峰
2026-05-02 00:15:59
2026-05-02 08:15:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1203文章数 160关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

特朗普点名批意西德三国 称可能考虑撤军

头条要闻

特朗普点名批意西德三国 称可能考虑撤军

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
艺术
手机
数码
公开课

这个夏天,彩色裤子又火了!

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

手机要闻

iPhone 17系列成为苹果最畅销机型!最新财报多项数据创纪录

数码要闻

Commodore推出C64C Ultimate:重启1986经典模具的复刻之作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版