OpenAI开源两款大模型：性能超DeepSeek，但“幻觉”频发|openai|deepseek|人工智能

OpenAI开源两款大模型：性能超DeepSeek，但“幻觉”频发

2025-08-06 07:53:24　来源: 网易科技报道

北京举报

分享至

核心提示

01 OpenAI宣布了一项重大战略转变，将“开源”旗下两款人工智能模型gpt-oss-120b和gpt-oss-20b，并上线Hugging Face平台。
02 尽管共享的模型性能略逊于其最强闭源技术，且产生“幻觉”的频率更高，但OpenAI希望，用户在使用这些新模型后，未来会愿意付费购买其更强大的产品。
03 DeepSeek等竞争对手早已通过开源挑战OpenAI的市场地位，而美国《人工智能行动计划》也鼓励开发开源模型，促使OpenAI不得不探索新的开源策略以应对行业转变。

8月6日消息，OpenAI周二宣布了一项重大战略转变，将免费“开源”旗下两款人工智能模型——gpt-oss-120b和gpt-oss-20b。此举被视为对DeepSeek等竞争对手在开源领域积极布局的直接回应。

性能的答卷：一份喜忧参半的成绩单

OpenAI宣布，这两款模型将上线人工智能软件托管平台Hugging Face。它们可以根据用户提示生成文本，但不能生成图片或视频，其核心能力在于执行编程和在线查找信息等复杂任务。据公司透露，法国电信（Orange SA）和软件公司Snowflake等企业已经对这些模型进行了测试。

根据科技媒体TechCrunch披露的技术数据，在使用外部工具的情况下，gpt-oss-120b和gpt-oss-20b在Codeforces编程测试中的得分分别为2622和2516，表现优于DeepSeek R1，但逊于自家的o3和o4-mini模型；在“人类终极考试”（HLE）基准测试中，二者的得分率分别为19%和17.3%，同样逊于o3，但优于DeepSeek和Qwen的同类开源模型。

一个值得注意的关键点是，这两款新模型产生“幻觉”的频率远高于其闭源的o3和o4-mini模型。OpenAI发现，在PersonQA（一项衡量模型对人物知识准确性的内部基准测试）中，gpt-oss-120b和gpt-oss-20b回答问题时出现“幻觉”的比例分别高达49%和53%，是o1模型（16%）的三倍多，也高于o4-mini模型（36%）。

技术架构方面，OpenAI透露，gpt-oss-120b和gpt-oss-20b均采用混合专家（MoE）架构，其中gpt-oss-120b的总参数量为1170亿，每次推理的激活参数量为51亿。两款模型都通过高算力强化学习（RL）方法进行训练，拥有类似的“思维链”推理过程。

OpenAI表示，这次之所以发布开源系统，部分原因是有些企业和个人更喜欢通过自己的计算机硬件、而非通过互联网来运行这类技术。为此，新发布的gpt-oss-20b模型经过专门设计，可以在笔记本电脑上运行；而另一款gpt-oss-120b则需要更强大的硬件系统，即配备了用于构建顶级AI系统的专用芯片的服务器。

战场的转向：一次迟到但坚决的反击

彭博社指出，这两款模型均为“开放权重”（open-weight）系统，类似于Meta的Llama模型。这意味着OpenAI公开了模型训练后获得的大量数值参数（即权重），更便于开发者进行定制。然而，由于OpenAI并未透露用于训练这些模型的数据，因此，此举并未达到完全“开源”的标准。

自从三年前发布ChatGPT并引爆人工智能热潮以来，OpenAI的核心技术大多处于保密状态。但许多公司为了挑战OpenAI的市场地位，通过“开源”方式积极分享自家技术。如今，OpenAI此举被视为一次关键的反击，旨在确保企业和其他软件开发者能继续留在其技术生态内。

OpenAI的这一转变，无疑为由来已久的“开源”与“闭源”之争火上浇油。一方是认为开源符合所有公司利益的研究人员；另一方则是认为美国公司不应分享其技术的国家安全鹰派和AI安全悲观派。

目前看来，后者似乎正处于下风。一个标志性的变化是，特朗普政府最近允许英伟达向中国销售其“特供版”芯片。

Meta和中国初创公司DeepSeek等主要竞争对手早已拥抱开源，这使得OpenAI成为少数几家对其研发成果保持技术保密的AI公司之一。

尽管此次OpenAI共享的模型性能略逊于其最强大的闭源技术，但根据公司公布的基准测试结果，这两款模型仍位居世界前列。OpenAI希望，如果人们使用了这些新开源的模型，未来也会愿意付费使用其性能更强大的产品。

OpenAI总裁、联合创始人格雷格·布罗克曼（Greg Brockman）在接受《纽约时报》采访时表示：“只要我们提供模型，人们就会使用我们的产品。他们会依赖我们去实现下一个技术突破，同时也会向我们提供反馈、数据以及我们改进模型所需的一切，这有助于我们取得更大进展。”

路线的权衡：一场开放与安全的拉锯战

开源一直是软件行业几十年来的普遍做法。托管着全球众多开源AI项目的Hugging Face公司，其首席执行官克莱门特·德朗格（Clément Delangue）便认为，“谁在开源领域领先，谁就能在人工智能领域走在前列。开源能加速进步。”

但在2019年底共享GPT-2技术后，OpenAI便以安全为由停止了对其最强大系统的开源，许多竞争对手也纷纷效仿。到了OpenAI在2022年底发布ChatGPT时，越来越多的人工智能专家开始认为，开源技术可能会造成严重危害。

专家们认为，这类技术可能助长虚假信息、仇恨言论和其他有害内容的传播。许多研究人员还担心，有朝一日它们可能会被用来制造生物武器，或者在接入电网、股票市场和武器系统时引发巨大破坏。

然而，2023年Meta分享Llama系统后，公众的讨论风向开始转变。Meta的决定推动了全球开源生态系统的蓬勃发展。到2024年底，当DeepSeek发布V3模型时，中国已证明其开源系统足以挑战美国的许多领先系统。

这一转变的信号早有显露。今年1月，在DeepSeek发布其开源的R1系统后不久，OpenAI首席执行官萨姆·奥特曼（Sam Altman）便表示，公司正在讨论开放部分模型的权重，并承认需要“探索出一种不同的开源策略”。最近，美国总统特朗普的《人工智能行动计划》也鼓励开发开源模型，并指出其有潜力在商业和学术研究领域“成为全球标准”。

但开源软件的批评者长期以来一直认为其安全性较低。今年7月，奥特曼曾在社交网络X上发帖称，公司原计划在当月中旬推出一款开放权重模型，但后来推迟发布，以便“开展更多安全测试并审查高风险领域”。“权重一旦发布，就无法收回，”奥特曼当时表示。

布罗克曼承认，人工智能既能造福人类，也可能造成伤害。但他表示，任何强大技术都有两面性。他说，OpenAI花费了数月甚至数年时间来构建和测试其新的开源系统，力求减少潜在危害。

《纽约时报》认为，OpenAI的新做法让AI行业专家喜忧参半。这场关于“开放”与“安全”的辩论，远未结束，甚至在行业内部也充满了变数。一个最新的例证是，就连曾经的开源领军者Meta，在成立新的超级智能实验室后，其高管团队也正考虑再次调整战略，可能会放弃此前免费共享的、代号为“巨兽”（Behemoth）的大模型，转而采取更为保守的闭源策略。随着企业和监管机构在开源的强大威力与潜在危害之间继续权衡，这场路线之争仍将持续。（辰辰）