大模型竞争的下半场将是从闭源过渡到基于开源,如今优秀的开源模型能力已达到全球领先闭源模型能力的80%甚至更高,但成本却是闭源模型的1/20甚至更低,未来场景里或多或少会选择基于开源的模型。
文|赵建琳
ID | BMR2004
在人工智能领域越发激烈的竞争中,围绕大模型开源还是闭源的讨论,已成为各家企业博弈的一个缩影。
曾出于商业竞争和安全考虑选择做闭源模型的OpenAI,在2025年2月初再次发生转向,其CEO萨姆·奥尔特曼(Sam Altman)表示,公司的闭源策略“站在了历史的错误一边”。OpenAI曾经是一家致力于开源人工智能技术的公司,但自2020年发布GPT-3模型以来,它开始转向了闭源。同样在2月,百度宣布文心一言于4月1日0时起全面免费,同时,3月16日推出的文心大模型4.5系列也将开源。而在2024年,百度CEO李彦宏一度坚持闭源模型在性能和成本上更具优势,如今他的想法也发生了改变。
近日,《商学院》杂志与中国信通院云计算与大数据研究所所长何宝宏进行了一场访谈,请他聊聊当前大模型开闭源之争的本质与规律。何宝宏的本硕博求学之路都在计算机相关专业学习中度过,但在专业研究之余,他爱读历史、哲学类书籍,这些人文社科书籍帮他丰富了看待问题的视角。何宝宏说:“研究技术不能只看技术本身,这样会被局限住,要适当跳出来,从更广的视野去看,一切就会豁然开朗。”
中国信通院云计算与大数据研究所所长何宝宏
01
“优先变现还是优先拓市场”?
提文:开源的商业模式与互联网早期“烧钱”铺市场的商业模式高度相似,历史总是变换着外衣在“重复”。
研究技术多年,何宝宏深深体会到,任何事物的相似性与差异性都取决于我们从怎样的视角去观察它。“当你把镜头拉近,再相似的两个事物都能从中发现差异;当你把镜头拉远,再不同的两个事物也能找出相似性,如果还有差异,那就再拉远些。”
在何宝宏看来,开源与闭源之争始终存在于科技发展史中,从操作系统到数据库,再到如今的大模型,都历经过开源还是闭源的讨论,也都诞生了不同策略下的巨头企业。拿操作系统来说,ios系统是闭源的,安卓系统是开源的;拿数据库来说,Oracle是闭源的,MariaDB是开源的。那么在大模型时代,也不会背离这一逻辑。
从科技史呈现出的规律来看,坐上某一技术领域“铁王座”的企业通常都会选择闭源。此时,排在“老大”后面的企业绝大多数的最佳抉择就是基于主流的开源产品做二次开发,进一步增加功能或易用性,形成以开源为主导的态势。伴随着这种竞争,开源与闭源将在市场上长期并存。
就大模型赛道来说,目前仍处在大量企业入局的探索成长阶段。因此,除了那些坚持开源或坚持闭源的企业外,还有相当一部分企业同时推出开源和闭源模型。在这种情况下,在某方面闭源的模型通常会比该企业推出的开源模型表现更好,它可能是性能、效果、成本等。
基于上述基本观察,我们便不难明白,今天业内围绕开源还是闭源的讨论,本质上是一场技术优势与生态扩张之间的博弈。何宝宏用更通俗易懂的语言作了解释:“本质就是你想优先挣钱,还是优先扩大市场。”选择闭源,更容易商业化,也能给用户或客户提供更稳定的服务,但相对地,获得反馈和拓展市场的速度会比开源慢;选择开源,能广泛吸收开发者的精华促进模型优化迭代,快速扩大市场占有率,但商业化变现比闭源慢。值得注意的是,“开源并非没有商业模式。”何宝宏强调,开源只是不以卖开源代码为生,但可以在其他方面赚钱,比如推出订阅服务,推出功能更强大或需要个性化定制的商业版。可以说,开源的商业模式与互联网早期“烧钱”铺市场的商业模式高度相似,历史总是“变换着外衣”在重复。
总的来说,大模型开源还是闭源,在发展初期都是一个优先级选择的问题,这种选择无关对错,“适合你的,就是好的。”何宝宏在访谈中多次强调,不能将开源与闭源对立起来,选择本身不能决定模型乃至企业的成功或失败,任何一种选择都有可能到达“罗马”,其根本还是取决于模型的能力是否足够领先和成本控制是否足够优秀;更不能将开闭源的选择进行“道德绑架”,本质上它只是一种理性权衡下的商业策略问题。
02
大模型竞争,终局会怎样
提文:随着竞争的深化,面向公众的通用大模型大概率最终只有一到两家能“雄霸市场”,但还有大量行业垂直场景等待大模型厂商们进入。
“先发”有时不一定“制人”,时间会筛选出真正的强者。2024年ICT行业趋势年会上,何宝宏提到,大模型竞争的下半场将是从闭源过渡到基于开源,如今优秀的开源模型能力已达到全球领先闭源模型能力的80%甚至更高,但成本却是闭源模型的1/20甚至更低,未来场景里或多或少会选择基于开源的模型。可以预见,大模型时代你追我赶式竞争将越来越激烈。
一款模型的诞生,需要代码、数据集、训练过程、模型权重共同发挥作用。何宝宏指出,当前大模型领域在数据、算法等方面的优化上还有很大空间,“任何一个瓶颈都可以去突破,它就像排列组合,单项都最优不一定结果最优,最终看的是综合最优。”
何宝宏指出,任何大规模的商业变现,一定会经历把成本“打下来”的阶段。“大家从过去买不到、买不起(高算力芯片)到现在买得到、买得起、用得起,这就是大模型大规模商业化的临界点,而开源是降低成本、降低技术门槛的重要方法。”可以想象,面对开源模型带来的竞争压力,闭源模型必须在模型能力和成本表现上继续突破才能“杀出重围”。
大模型的构成包含代码、数据集、训练过程、模型权重等组成部分,这就涉及开源模型究竟要开放哪些部分的话题了。何宝宏在访谈中指出,开源模型中的“开源”不等同于开源软件中的“开源”,开源软件指的是开放源代码。但大模型不同,其组成部分众多,传统的开源定义已不太适应今日的大模型发展情况。因此,2024年10月,OSI(Open Source Initiative,开放源代码促进会)发布了“开源AI定义”,其要求真正的开源AI大模型必须提供训练数据的相关细节,包括来源和处理方式,提供用于训练和运行的源代码以便能复现,提供训练时的设置和权重等,要求相当严格。“目前已知的开源模型仍以开放源代码为主,没有公司能做到开放训练数据集。一方面,因为数据集是模型的核心竞争力之一;另一方面,围绕数据集尚有很多数据归属等方面的法律界定不清晰、不统一,企业不会轻易公布。”何宝宏说。
何宝宏认为,随着竞争的深化,面向公众的通用大模型大概率最终只有一到两家能“雄霸市场”,但企业也不必为此焦虑,还有大量行业垂直场景等待大模型厂商们进入。“个性化定制需要开源,开源给的是底座,大模型厂商要在底层通用知识基础之上融合行业知识做二次开发,交付闭源垂直模型。如此,既降低了风险,又降低了行业模型的学习和使用成本,未来这部分市场潜力也会相当广大。”
而C端大模型也有望从现在服务所有人的通用型服务演化到提供个性化服务。何宝宏说:“用户的使用习惯也会被灌注到模型中,用户与模型的互动会影响模型的参数配置,这就是智能体。智能体也需要个性化,只是我们目前还没到那个阶段而已。”
来源 | 2025年4月刊
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.