网易首页 > 网易号 > 正文 申请入驻

三大AI巨头同时发布新模型

0
分享至

对于关注新模型发布的技术爱好者来说,今天简直就是八月的圣诞节。OpenAI、Anthropic和Google这三大巨头同时发布了全新的大语言模型版本,为我们带来了一份丰厚的技术大礼。

OpenAI开源模型

首先,技术社区迎来了OpenAI OSS 120b和OSS 20b,这是该公司自ChatGPT 2以来首批开放权重系统。需要注意的是,尽管这些模型采用Apache许可证,但并非传统意义上的完全开源——权重开源,但训练数据不开源。

据报告显示,较大的OSS模型在单个80GB GPU芯片驱动下,在推理能力方面与o4-mini模型"达到同等水平"。较小的模型则可以在智能手机和其他边缘设备上运行。这些模型采用MXFP4量化技术,这是一种用于加速矩阵乘法的低精度数据类型。

让模型自由思考

新OSS模型的另一个有趣方面与思维链相关,这项技术彻底改变了推理过程,同时也引发了关于比较方法论的问题。

基本上,我们希望大语言模型准确,但工程师发现,在许多情况下,限制或过度指导系统会导致它们"隐藏"思维链。因此,OpenAI选择不以这种方式优化模型。

根据OpenAI的模型卡报告:"在我们最近的研究中,我们发现监控推理模型的思维链有助于检测不当行为。我们进一步发现,如果直接对思维链施加压力以避免'不良想法',模型可能学会隐藏其思维过程,同时仍然存在不当行为...基于这些担忧,我们决定不对两个开放权重模型的思维链施加任何直接的优化压力。"

因此,为了透明度,模型被允许产生这些"不良想法"。OpenAI诚实地承认了更高的幻觉风险,让用户知道已经做出了这种权衡。

Claude Opus 4.1

8月5日,发言人这样宣布了这款新模型:"今天我们发布Claude Opus 4.1,这是Claude Opus 4在智能体任务、实际编程和推理方面的升级版本。我们计划在未来几周内发布更大幅度的模型改进。Opus 4.1现已向付费Claude用户开放,并在Claude Code中提供。它也可通过我们的API、Amazon Bedrock和Google Cloud的Vertex AI获得。定价与Opus 4相同。"

新的Opus 4.1模型提升了SWE-Bench Verified分数,并增强了智能体研究技能。能力分析显示,与Opus 4相比,基于SWE的智能体编程提升了2个百分点(72.5% - 74.5%),GPQA Diamond研究生级推理能力有所改进(79.6% - 80.9%),视觉推理和智能体工具使用也有轻微提升。

据行业数据显示,Anthropic实现了惊人的增长,年度经常性收入在短短七个月内从10亿美元跃升至50亿美元,增长了五倍。然而,该公司的快速崛起也带来了危险的依赖性:其31亿美元API收入中近一半来自仅两个客户——编程助手Cursor和微软的GitHub Copilot,合计产生14亿美元收入。

Genie 3

这是Google DeepMind实验室推出的最新Genie系列模型,专门创建受控环境。换句话说,这是一个游戏世界模型。

新模型的支持者称其具有比Genie 2约10秒限制更长的长期记忆,以及更好的视觉保真度和实时响应能力。

DeepMind声称,新系统可以生成完整的世界,用户可以在高达720p分辨率下持续交互数分钟。此外,该公司表示系统能够以实时延迟响应所谓的"可提示世界事件"。

DeepMind的Shlomi Fruchter在新闻声明中表示:"Genie 3是首个实时交互式通用世界模型。它超越了之前存在的狭义世界模型。它不特定于任何特定环境。它可以生成逼真的和想象的世界,以及介于两者之间的一切。"实验室认为Genie 3是"通向AGI的垫脚石",这在这个有趣的时代是一个重大声明。

所有这些新模型今天都迎来了第一批公众用户!这足以让人头晕目眩,特别是如果你负责任何形式的实施工作。你会选择什么?公平地说,确实涉及一定程度的专业化。但大多数最接近行业的专业人士会告诉你,创新的速度是具有挑战性的:根据大多数公司的记录,当你将某些东西融入业务运营时,它很可能已经过时了!

Q&A

Q1:OpenAI OSS模型与传统开源模型有什么区别?

A:OpenAI OSS模型虽然采用Apache许可证,但并非完全开源。它们是"部分开源"——模型权重开源,但训练数据不开源。这与传统的完全开源模型不同,后者通常包括完整的代码、数据和权重。

Q2:Claude Opus 4.1相比前一版本有哪些具体改进?

A:Claude Opus 4.1在多个方面都有提升:基于SWE的智能体编程能力从72.5%提升到74.5%,GPQA Diamond研究生级推理能力从79.6%提升到80.9%,视觉推理和智能体工具使用也有轻微改善。定价保持与Opus 4相同。

Q3:Google Genie 3模型主要用于什么场景?

A:Genie 3是一个游戏世界模型,专门用于创建受控的交互环境。它可以生成完整的世界供用户交互,支持高达720p分辨率,交互时间可达数分钟,并能实时响应"可提示世界事件"。DeepMind将其定位为通向AGI的垫脚石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“农业学大寨”为啥搞不下去了?

“农业学大寨”为啥搞不下去了?

霹雳炮
2026-05-15 14:08:15
在欢迎晚宴上,特朗普罕见破例了!

在欢迎晚宴上,特朗普罕见破例了!

仕道
2026-05-15 13:26:03
国家税务总局成都市税务局原二级巡视员李平接受审查调查

国家税务总局成都市税务局原二级巡视员李平接受审查调查

界面新闻
2026-05-15 15:40:24
广州暴雨,小孩连人带车被冲走,外卖小哥狂奔救人!最新消息

广州暴雨,小孩连人带车被冲走,外卖小哥狂奔救人!最新消息

南方都市报
2026-05-15 17:22:46
中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

麓谷隐士
2026-05-15 10:16:15
突发!亚太股市,全线跳水!

突发!亚太股市,全线跳水!

证券时报
2026-05-15 10:52:19
张雪机车再拿第一!WSBK捷克站自由赛:53号车手德比斯夺全场第一

张雪机车再拿第一!WSBK捷克站自由赛:53号车手德比斯夺全场第一

快科技
2026-05-15 18:00:34
央视拿下2026年美加墨世界杯版权!知名主持韩乔生喊话“妥了”,中国球迷可在家看世界杯了

央视拿下2026年美加墨世界杯版权!知名主持韩乔生喊话“妥了”,中国球迷可在家看世界杯了

新民晚报
2026-05-15 15:45:13
濮阳17岁小伙找到!遗体在河里漂8天,知情人发声,自杀恐是必然

濮阳17岁小伙找到!遗体在河里漂8天,知情人发声,自杀恐是必然

奇思妙想草叶君
2026-05-15 11:09:57
实力至上!马斯克只尊重有实力的朋友,看他怎么对待雷军和马云的

实力至上!马斯克只尊重有实力的朋友,看他怎么对待雷军和马云的

南方健哥
2026-05-15 12:23:17
马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

青橘罐头
2026-05-15 14:22:09
马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

火山詩话
2026-05-15 16:14:20
让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

必记本
2026-05-15 12:08:25
黄仁勋去吃炸酱面!大热天穿皮衣,站在门口大口吃面条

黄仁勋去吃炸酱面!大热天穿皮衣,站在门口大口吃面条

西楼知趣杂谈
2026-05-15 13:59:38
中方是否同意未来购买美国石油?外交部回应

中方是否同意未来购买美国石油?外交部回应

澎湃新闻
2026-05-15 15:30:31
特朗普二儿媳穿刺绣旗袍惊艳国宴!配迪奥包包太美了,这回好惊艳

特朗普二儿媳穿刺绣旗袍惊艳国宴!配迪奥包包太美了,这回好惊艳

好贤观史记
2026-05-15 15:10:23
何小鹏的私心,与小鹏的野心

何小鹏的私心,与小鹏的野心

陆玖商业评论
2026-05-14 17:46:13
特朗普43岁小儿媳穿旗袍赴宴,华裔设计师作品,前私教自认普通

特朗普43岁小儿媳穿旗袍赴宴,华裔设计师作品,前私教自认普通

译言
2026-05-15 12:26:05
戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

八卦南风
2026-05-15 15:58:56
吃完午宴,特朗普离开北京,临走前发出邀请,鲁比奥对华态度变了

吃完午宴,特朗普离开北京,临走前发出邀请,鲁比奥对华态度变了

生活魔术专家
2026-05-15 17:34:14
2026-05-15 19:59:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18477文章数 49705关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

游戏
旅游
艺术
教育
家居

LCK第二赛段:打出对位差距,HLE多点开花横扫DK

旅游要闻

首届中国新文创市集暨潮玩游园会打造文旅消费新场景

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

教育要闻

上海外国语大学2026综评,新增商务英语和外交学专业,同分拼校测

家居要闻

110㎡淡而有致的生活表达

无障碍浏览 进入关怀版