网易首页 > 网易科技 > IT业界 > 正文

OpenAI开源两款大模型:性能超DeepSeek,但“幻觉”频发

0
分享至
核心提示
  • 01 OpenAI宣布了一项重大战略转变,将“开源”旗下两款人工智能模型gpt-oss-120b和gpt-oss-20b,并上线Hugging Face平台。
  • 02 尽管共享的模型性能略逊于其最强闭源技术,且产生“幻觉”的频率更高,但OpenAI希望,用户在使用这些新模型后,未来会愿意付费购买其更强大的产品。
  • 03 DeepSeek等竞争对手早已通过开源挑战OpenAI的市场地位,而美国《人工智能行动计划》也鼓励开发开源模型,促使OpenAI不得不探索新的开源策略以应对行业转变。

8月6日消息,OpenAI周二宣布了一项重大战略转变,将免费“开源”旗下两款人工智能模型——gpt-oss-120b和gpt-oss-20b。此举被视为对DeepSeek等竞争对手在开源领域积极布局的直接回应。

性能的答卷:一份喜忧参半的成绩单

OpenAI宣布,这两款模型将上线人工智能软件托管平台Hugging Face。它们可以根据用户提示生成文本,但不能生成图片或视频,其核心能力在于执行编程和在线查找信息等复杂任务。据公司透露,法国电信(Orange SA)和软件公司Snowflake等企业已经对这些模型进行了测试。

根据科技媒体TechCrunch披露的技术数据,在使用外部工具的情况下,gpt-oss-120b和gpt-oss-20b在Codeforces编程测试中的得分分别为2622和2516,表现优于DeepSeek R1,但逊于自家的o3和o4-mini模型;在“人类终极考试”(HLE)基准测试中,二者的得分率分别为19%和17.3%,同样逊于o3,但优于DeepSeek和Qwen的同类开源模型。

一个值得注意的关键点是,这两款新模型产生“幻觉”的频率远高于其闭源的o3和o4-mini模型。OpenAI发现,在PersonQA(一项衡量模型对人物知识准确性的内部基准测试)中,gpt-oss-120b和gpt-oss-20b回答问题时出现“幻觉”的比例分别高达49%和53%,是o1模型(16%)的三倍多,也高于o4-mini模型(36%)。

技术架构方面,OpenAI透露,gpt-oss-120b和gpt-oss-20b均采用混合专家(MoE)架构,其中gpt-oss-120b的总参数量为1170亿,每次推理的激活参数量为51亿。两款模型都通过高算力强化学习(RL)方法进行训练,拥有类似的“思维链”推理过程。

OpenAI表示,这次之所以发布开源系统,部分原因是有些企业和个人更喜欢通过自己的计算机硬件、而非通过互联网来运行这类技术。为此,新发布的gpt-oss-20b模型经过专门设计,可以在笔记本电脑上运行;而另一款gpt-oss-120b则需要更强大的硬件系统,即配备了用于构建顶级AI系统的专用芯片的服务器。

战场的转向:一次迟到但坚决的反击

彭博社指出,这两款模型均为“开放权重”(open-weight)系统,类似于Meta的Llama模型。这意味着OpenAI公开了模型训练后获得的大量数值参数(即权重),更便于开发者进行定制。然而,由于OpenAI并未透露用于训练这些模型的数据,因此,此举并未达到完全“开源”的标准。

自从三年前发布ChatGPT并引爆人工智能热潮以来,OpenAI的核心技术大多处于保密状态。但许多公司为了挑战OpenAI的市场地位,通过“开源”方式积极分享自家技术。如今,OpenAI此举被视为一次关键的反击,旨在确保企业和其他软件开发者能继续留在其技术生态内。

OpenAI的这一转变,无疑为由来已久的“开源”与“闭源”之争火上浇油。一方是认为开源符合所有公司利益的研究人员;另一方则是认为美国公司不应分享其技术的国家安全鹰派和AI安全悲观派。

目前看来,后者似乎正处于下风。一个标志性的变化是,特朗普政府最近允许英伟达向中国销售其“特供版”芯片。

Meta和中国初创公司DeepSeek等主要竞争对手早已拥抱开源,这使得OpenAI成为少数几家对其研发成果保持技术保密的AI公司之一。

尽管此次OpenAI共享的模型性能略逊于其最强大的闭源技术,但根据公司公布的基准测试结果,这两款模型仍位居世界前列。OpenAI希望,如果人们使用了这些新开源的模型,未来也会愿意付费使用其性能更强大的产品。

OpenAI总裁、联合创始人格雷格·布罗克曼(Greg Brockman)在接受《纽约时报》采访时表示:“只要我们提供模型,人们就会使用我们的产品。他们会依赖我们去实现下一个技术突破,同时也会向我们提供反馈、数据以及我们改进模型所需的一切,这有助于我们取得更大进展。”

路线的权衡:一场开放与安全的拉锯战

开源一直是软件行业几十年来的普遍做法。托管着全球众多开源AI项目的Hugging Face公司,其首席执行官克莱门特·德朗格(Clément Delangue)便认为,“谁在开源领域领先,谁就能在人工智能领域走在前列。开源能加速进步。”

但在2019年底共享GPT-2技术后,OpenAI便以安全为由停止了对其最强大系统的开源,许多竞争对手也纷纷效仿。到了OpenAI在2022年底发布ChatGPT时,越来越多的人工智能专家开始认为,开源技术可能会造成严重危害。

专家们认为,这类技术可能助长虚假信息、仇恨言论和其他有害内容的传播。许多研究人员还担心,有朝一日它们可能会被用来制造生物武器,或者在接入电网、股票市场和武器系统时引发巨大破坏。

然而,2023年Meta分享Llama系统后,公众的讨论风向开始转变。Meta的决定推动了全球开源生态系统的蓬勃发展。到2024年底,当DeepSeek发布V3模型时,中国已证明其开源系统足以挑战美国的许多领先系统。

这一转变的信号早有显露。今年1月,在DeepSeek发布其开源的R1系统后不久,OpenAI首席执行官萨姆·奥特曼(Sam Altman)便表示,公司正在讨论开放部分模型的权重,并承认需要“探索出一种不同的开源策略”。最近,美国总统特朗普的《人工智能行动计划》也鼓励开发开源模型,并指出其有潜力在商业和学术研究领域“成为全球标准”。

但开源软件的批评者长期以来一直认为其安全性较低。今年7月,奥特曼曾在社交网络X上发帖称,公司原计划在当月中旬推出一款开放权重模型,但后来推迟发布,以便“开展更多安全测试并审查高风险领域”。“权重一旦发布,就无法收回,”奥特曼当时表示。

布罗克曼承认,人工智能既能造福人类,也可能造成伤害。但他表示,任何强大技术都有两面性。他说,OpenAI花费了数月甚至数年时间来构建和测试其新的开源系统,力求减少潜在危害。

《纽约时报》认为,OpenAI的新做法让AI行业专家喜忧参半。这场关于“开放”与“安全”的辩论,远未结束,甚至在行业内部也充满了变数。一个最新的例证是,就连曾经的开源领军者Meta,在成立新的超级智能实验室后,其高管团队也正考虑再次调整战略,可能会放弃此前免费共享的、代号为“巨兽”(Behemoth)的大模型,转而采取更为保守的闭源策略。随着企业和监管机构在开源的强大威力与潜在危害之间继续权衡,这场路线之争仍将持续。(辰辰)

延伸阅读
相关推荐
热点推荐
轻断食再封神!Nature子刊:饮食限制能「重启」免疫细胞,显著增强其抗癌能力

轻断食再封神!Nature子刊:饮食限制能「重启」免疫细胞,显著增强其抗癌能力

医诺维
2025-12-10 17:14:45
苦等5年,蒙古熟鸭子还是飞了,中俄谁也不让步,坐视大项目泡汤

苦等5年,蒙古熟鸭子还是飞了,中俄谁也不让步,坐视大项目泡汤

科普100克克
2025-12-07 18:20:34
日本破防!中国驻日大使发文称日本为“倭寇”,强盗基因改不掉

日本破防!中国驻日大使发文称日本为“倭寇”,强盗基因改不掉

我心纵横天地间
2025-12-10 13:06:56
随着曼城2-1皇马,阿森纳3-0,欧冠最新积分榜:第3到第9只差1分

随着曼城2-1皇马,阿森纳3-0,欧冠最新积分榜:第3到第9只差1分

侃球熊弟
2025-12-11 04:52:35
泰军敢死队血拼柬军,摧毁童子山高地!柬埔寨万人部队开赴前线

泰军敢死队血拼柬军,摧毁童子山高地!柬埔寨万人部队开赴前线

科普大世界
2025-12-08 23:48:19
面对中央考核巡查组现场询问,负责人:我毫不知情

面对中央考核巡查组现场询问,负责人:我毫不知情

新京报政事儿
2025-12-10 21:12:37
柬军副司令被杀,4名将军战死:柬埔寨10万大军,2天就要战败了?

柬军副司令被杀,4名将军战死:柬埔寨10万大军,2天就要战败了?

近史博览
2025-12-10 16:36:10
中国一级战备多可怕?千万预备役被召回,14亿人立即切换战争模式

中国一级战备多可怕?千万预备役被召回,14亿人立即切换战争模式

谛听骨语本尊
2025-11-20 16:06:12
韩总统办公室正面驳斥高市早苗:独岛不存在领土纠纷

韩总统办公室正面驳斥高市早苗:独岛不存在领土纠纷

新京报
2025-12-10 07:19:02
复盘皇马1-2曼城:16脚射门却只进一个,四场仅一胜阿隆索问题多

复盘皇马1-2曼城:16脚射门却只进一个,四场仅一胜阿隆索问题多

里芃芃体育
2025-12-11 07:53:26
中国拒绝接收英伟达H200芯片,并加强对其使用的限制

中国拒绝接收英伟达H200芯片,并加强对其使用的限制

环球热点快评
2025-12-10 11:57:14
小米紧急换帅,销量暴跌、门店关停,从全网推崇到人人吐槽,为啥

小米紧急换帅,销量暴跌、门店关停,从全网推崇到人人吐槽,为啥

眼光很亮
2025-12-10 15:26:57
国足新集训计划敲定,很多新人难堪大用,邵佳一重用4大归化悍将

国足新集训计划敲定,很多新人难堪大用,邵佳一重用4大归化悍将

零度眼看球
2025-12-11 07:27:55
暗 黑 界10年+老 将,多少人深夜的启蒙女 神!

暗 黑 界10年+老 将,多少人深夜的启蒙女 神!

素然追光
2025-12-11 00:25:04
后续!“仅退款”9万元的山东刘女士已归案,聪明反被聪明误

后续!“仅退款”9万元的山东刘女士已归案,聪明反被聪明误

社会日日鲜
2025-12-11 05:01:53
这才是普通人,普通家庭的真实存款。网友:引起了心酸。

这才是普通人,普通家庭的真实存款。网友:引起了心酸。

另子维爱读史
2025-12-10 20:35:39
新国标电动车无法解锁限速?九号等多家车企回应

新国标电动车无法解锁限速?九号等多家车企回应

新浪财经
2025-12-10 20:27:18
最新!金某被判死刑,吓得大小便失禁,当场哭着求原谅

最新!金某被判死刑,吓得大小便失禁,当场哭着求原谅

麦大人
2025-12-10 15:18:20
妈妈拍下小学女儿书桌,引来1.6w群嘲:健康的孩子也被你养废了

妈妈拍下小学女儿书桌,引来1.6w群嘲:健康的孩子也被你养废了

夜深爱杂谈
2025-12-10 20:39:51
绝了!CR7碰KK“双括号臀”,三天马德里绯闻炸出10万+热搜神话

绝了!CR7碰KK“双括号臀”,三天马德里绯闻炸出10万+热搜神话

罗氏八卦
2025-12-10 18:25:48
2025-12-11 08:48:49

科技要闻

暴跌超10%!甲骨文订单多到把股价砸崩了?

头条要闻

女网红名下公司涉嫌逃税逾千万被查处 仍在高频次直播

头条要闻

女网红名下公司涉嫌逃税逾千万被查处 仍在高频次直播

体育要闻

试训20支球队,落选,成为NBA新秀助攻王

娱乐要闻

为何网友不再相信张柏芝的“故事”?

财经要闻

美联储降息25基点 仍预计明年降息一次

汽车要闻

有动力操控 有智能座舱 6万多的第五代帝豪掀桌子了

态度原创

艺术
亲子
数码
手机
公开课

艺术要闻

识破毛主席唐诗,你能做到吗?挑战高手极限!

亲子要闻

冀连梅 | 哪些孩子需要吃药预防流感?美国儿科学会为什么建议首选奥司他韦作为预防药物?

数码要闻

2026款苹果iPad史诗级加强:iPhone 17同款A19芯片

手机要闻

中国信通院:今年10月国内市场手机出货量3226.7万部同比增长8.7%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×