网易首页 > 网易号 > 正文 申请入驻

被冤枉的李开复,被“错付”的中国开源

0
分享至

出品 | 虎嗅科技组

作者 | 王一鹏

头图 | 视觉中国

就像过往所有的开源“套壳”事件一样,漩涡中心的主人公们,往往在开源社区和舆论的声讨下成为众矢之的,又在发布回应或道歉信后,快速被遗忘,不论结果与对错。

李开复和他的零一万物就是如此。11月6日,零一万物首次公布Yi-34B大模型,自豪地宣布Yi-34B“勇夺全球开源评测‘双料冠军’”。然而仅过了不到一周,在大模型开源社区的主阵地HuggingFace,就有开发者指出,Yi-34B完全使用了Meta开源的LLaMA架构,只修改了两个张量名,且在发布中,全程未提及LLaMA的存在。

由于李开复本人的“明星效应”,事件快速发酵,引爆了舆论。11月15日,零一万物发布回应,道歉并承诺把张量名字改回去,同时复盘了零一万物在大模型训练和代码层面所做的工作。

其实李开复是有点委屈的,因为零一万物似乎没做错什么。

一位律师向虎嗅表示,他和来自英美的律师团队,都就此事有过交流。各位律师从各自法域的视角出发进行分析,认为零一万物并未违反LLaMA的开源协议。

甚至在国外开源社区,也有不少专家为零一万物鸣不平。事件的源头人物,在HuggingFace社区披露此事的EricHartford在社区不断强调,他只是建议零一万物将修改的张量名改回去,并不带有其他指责,使用LLaMA架构没什么问题,模型训练才是一切。

X(Twitter)上也有人回应对零一万物抄袭的指责:荒唐,现在许多大模型都是基于LLaMA训练的。况且,事件发生一个月的时间里,Meta或LLaMA社区,自始至终未以官方身份与零一万物,就所谓的“套壳”问题进行交涉,某种程度上也代表了官方的态度。

截止到12月8日,Yi-34B在HuggingFace上已收获11万次下载,显然非常受欢迎。

图片内容来自 Hugging Face

但这些事实,与主流舆论声音无关。在与国内多位媒体人、开发者交流后,我们发现,几乎无人“站队”零一万物。一股萦绕不去的失望、不满,飘荡在零一万物及中国开源的上空。

一场社区争论,成了捅向零一万物的“刀”

JoséphusCheung是在零一万物“套壳”事件中,受到关注较多的一名开发者。在HuggingFace的社区,他和前文提到的EricHartford爆发了一场带着火药味的争论。

EricHartford称零一万物修改张量名就好,其他的没毛病。而JoséphusCheung则认为零一万物此举违反了LLaMA的开源协议,是个大问题。

双方的激辩因为Transformer核心贡献者、HuggingFace工程师ArthurZucker及其他开发者的介入而终结,大家回复JoséphusCheung道,LLaMA的开源协议主要限制了模型权重,而不是模型架构,所以零一万物的Yi-34B并未违反开源协议。

有趣的是,这场公开的争论传回国内时就变了味——大量的媒体、UGC内容单方面引用了JoséphusCheung的言论,称零一万物被开发者警告存在合规风险,而对反对派的声音及最终结论避而不谈。恐怕JoséphusCheung自己也不知道,他的发言已经成为一部分人声讨此事的间接证据。

造成此种问题的原因之一,是大模型技术本身的特殊性。有专家与虎嗅聊到,大模型有三大件:算法、数据和权重。

其中,算法以模型架构为载体呈现,也是零一万物饱受非议的焦点;数据则是大家讨论AIGC通常会聊到的数据集,相当于给AI提供的学习教材;权重是神经网络的基本概念,代表了两个处理单元之间的连接强度。通俗地来理解,“权重”就像一个员工给另一个员工发消息——有的是普通消息,有的是特别提醒,有的是“Ding”一下。而对于接收消息的员工而言,消息权重越高,影响越大。

这与过往的软件产品截然不同。曾几何时,代码等于一切,对应着大模型概念里的“模型架构”。对于大模型来说,架构只是“三大件”的其中之一。在Mamba架构面世未久,Transformer架构一统江湖的当下,甚至架构的重要性还不如数据和权重。而数据和权重属于工程性问题,对应着模型的训练。有知情人透露,OpenAI训练GPT-4时,可能有20个团队同时参与,是相当庞大的工程。

所以,Yi-34B使用LLaMA架构,远远谈不上“套壳”,这是大模型技术本身的特殊性决定的。

有大模型技术专家,对虎嗅就大模型的早期研发问题也做了进一步补充:“LLaMA,GPT都是基础大模型,基于Transformer架构训练,使用了不同的方法,有encode-decode结构的,也有像GPT类decodeonly的。所以从零开始的话,就是要基于像transformer这样的架构重新开发,并自己训练,各大厂商自研大模型都是如此的。还有一类就是基于现有的基础大模型,有ContinuePretrain,finetune等方法,进行再训练或者微调,基于LLaMA这样的开源架构,有很多团队在上面做工作。”

也就是说,基于LLaMA训练大模型,是国内大模型创业的主流形态,至于从零开始自研,有专家表示:“国内没有几家创业公司能做到这事儿,成本很高,算法要求很高,数据集要求很高,工作量很大,也很容易出错。”

另有行业内人士对虎嗅说道:“国内真正从零到一研发大模型的可能也就三家——百度、阿里、智谱。“

当然,上述所有真实情况,并未让零一万物在国内舆论层面得到同情或豁免,甚至也没有使其在技术社区获得更多支持。

一方面,零一万物发布大模型,却对LLaMA采取避而不谈的宣传策略——LLaMA的唯一一次出现,是在Yi-34B的竞品性能对比里,且数据指标被超越——难免让人觉得零一万物在道义上对LLaMA有所亏欠,在宣传上玩了一个小小的“心机”。

图片内容来自零一万物官方公众号

另一方面,国内的开源历史,实在谈不上阳春白雪,甚至可以说是饱受争议。一桩桩“套壳”公案,屡见不鲜,公众的忍耐度,就像充气过度的气球,处在爆发的边缘。今天对零一万物的所有质疑,其实都是在质疑那个外表光鲜的中国开源。

中国开源,积怨已久

就在今年8月24日,一款宣称是完全国产、自主研发的IDE开发工具上架了,结果被网友扒出是“换皮微软VSCode”,引发群嘲,两天后出品方致歉并将软件下架。

2021年,StartRocks和ApacheDoris发生纠纷。ApacheDoris本是由百度捐献给Apache基金会的数据库项目,StartRocks则是ApacheDoris的项目分支,原名叫DorisDB,鼎石纵横团队围绕DorisDB成立商业公司,在品牌方面构成侵权。据思否报道,ApacheDoris的项目导师、孵化器PMC都曾联系StartRocks进行劝阻,但被无视。一系列纠纷被曝光后,StartRocks引发众怒,不得已私下与ApacheDoris达成和解,息事宁人。

2020年,中科院计算所下属团队号称完全自主设计、开发和实现的编程语言“木兰”,被人发现套壳Python。相关负责人道歉,说“木兰”编程语言原本要用于中小学教育,是他自己夸大宣传了。

3C领域更是开源违规的重灾区,小米、一加、文石(电子书厂商),都曾成为社区的集中吐槽对象。中国开源的“违规史”,简直可以写成一本年鉴。

而开源本身带有国际属性,连带使中国优秀的开源人,在国际上遭受不同程度的非议和歧视。

一位国外网友曾在Reddit上抱怨道:"这就是我不喜欢中国软件的原因,他们几乎总是不尊重许可证,并尽一切可能逃脱惩罚(Thisiswhyidon'tlikechinesesoftware.Almostawaystheydon'trespectlicensesanddowhatevertheycangetawaywith)"。

在很长一段时间里,中国的开源布道者们,都是带着少数优秀项目,与行业惯性和国际歧视“拔河”,时间一久,就会“苦中作乐”——某知名开源基金会布道师对虎嗅表示:“说心里话,现在挺好了,已经有很多进步了。如果是十年前,有人套壳开源软件,甚至不会引发任何讨论和报道,谁关心呢?现在至少大家会讨论这事儿。”

2021年,ApacheSkywalking创始人吴晟,当选Apache基金会第一位华人董事,成为圈子里普天同庆的喜事。

有利可图,无需付出代价,通常是违规行为的诱因。使用免费代码的利益,显而易见。而在开源问题上弄虚作假,确实也不会对国内的企业产生太多实质性影响。

一般套壳的惩罚也不过是道歉并将软件下架,但因为这类软件都是套壳抄袭的,所以也不存在太多研发上的”沉没成本”。

直到2021年,国内才出现第一起与开源协议(GPL)有关的侵权案件,被告作为侵权方最终被判罚50万元。而与GPL协议相关的第一起案件宣判,已经是2005年发生在德国的事了。从2005年到2021年,中国开源在法律层面存在16年的实践空白。

在实施力度上,中外也有所差别。在2005年的案子里,慕尼黑法院对侵权方Fortinet发出了临时禁令,禁止Fortinet销售产品,直到符合许可证条款。同时,Fortinet被迫根据GPL协议将他们的FortiOS(一款服务软件安全领域的操作系统)免费提供给外界。

开源相关侵权案的审理,更多是在参考传统的著作权纠纷案件。与刑事案件不一样,著作权纠纷案件,需要由被侵权方主动发起诉讼。在这起Fortinet侵权案中,发起诉讼的是一个非营利性组织gpl-violations.org,该组织发起于2004年,致力于对侵权者施加压力,对侵权行为发起行动。国外,这样的组织不止一个,在国内则难得一见。

那么,资本层面会对开源违规行为做出反应吗?虎嗅也试图就此类问题,与投资人进行沟通,但大家则对此讳莫如深,不愿多谈。目前还未有明确证据显示,国内企业发生开源违规,会导致融资困难。

不过,一名在开源领域创业的CEO对虎嗅说道:“如果是在美国,这样的公司(发生侵权、套壳行为的公司)后续就不会拿到融资了。”

真正的痼疾:开源等于免费

实际上,即便不考虑弄虚作假的情况,当下中国的大部分开源项目,也与理想模式相去甚远。大众层面对于开源所有的期待,其实可以用一句话来总结:打破技术垄断,振兴中国技术。但中国开源当下只是个瘦骨嶙峋的孩子,不足以背负这种宏图伟愿。

开源的概念很抽象,公众对其更直观的印象来自一些改变世界的伟大软件,比如:Linux、MySQL、Android,以及如今的Transformer。其中,Linux内核遍布全球服务器、IoT设备,MySQL撑起全球数据库的半壁江山,Android撑起手机操作系统半壁江山,Transformer几乎是所有大模型的架构基础。

将“印象”等化为“期望“,让现实变得有些难以接受。事实上,中国开源的发展目标,在产业侧是妥协过的,创业的CEO往往不会太感性,只求先在商业层面获得成功即可。

但”曲线救国“的策略有利有弊,在中国出现一家成功IPO的开源企业之前,妥协的恶果已经开始显现。

开源有一条重要的原则叫做“UpstreamFirst“,上游优先原则,意味着企业在免费试用开源代码的同时,也要反馈意见和代码到开源社区,确保社区维护的主干版本可以优先迭代,推动软件不断走向完善。这是开源能够创造价值、互惠互利的“飞轮”。

但一部分国内企业选择竭泽而渔。在他们看来,开源没有这么复杂——开源等于免费。向社区贡献代码?要么招聘几个社区开发者,要么以后再说吧。

这或许也解释了,为什么在AIGC快速发展的2023年,中国企业在大模型上的爆发,仅限于数量——抄来的终究是别人的,不参与开源贡献,通常也不会具备真正的技术优势。

大模型在架构上的源头是Transformer,据OSSInsight数据统计,在Transformer社区中,提Issue(答疑交流、反馈缺陷)的Top10榜单,只有两家中国单位,一个是北京大学,一个是清华大学,没有一家中国企业。前五分别是:微软、HuggingFace、谷歌、卡内基梅隆大学、英特尔。

在PullRequest(贡献代码)Top10榜单里,只有腾讯一家公司入榜,排在第十,前五分别为:微软、HuggingFace、谷歌、英伟达、Facebook(Meta)。

Transformer 各企业 Pull Request 占比,内容来自 OSS Insight 网站

细看两个榜单的前五名公司,微软和谷歌皆是当今AIGC领军人物,联手奠定了当今的AI格局。Meta发布了开源LLaMA大模型,成为最被中国企业青睐的“借鉴对象”。HuggingFace仅用一年时间就实现了估值翻倍,如今估值超过40亿美金,NBA球星杜兰特也参与了其天使轮融资。

卡内基梅隆大学,前段时间刚与斯坦福大学联手发布了Mamba架构,号称要颠覆Transformer。它实现了公众对于开源的期待——学习、参与,最终完成超越。

再看看LLaMA,Issue(答疑交流、反馈缺陷)Top10榜单,没有一家中国公司入选,只有哈尔滨工业大学排在第五;PullRequest(贡献代码)Top10榜单,有三家中国公司:星鲸科技、腾讯、水木分子生物科技,分别排在第四、第八、第十位。

近五年,以BAT、字节为代表的头部企业,也注意到这个问题,纷纷成立开源办公室,希望能塑造企业内的开源文化。但其中一部分项目,又被行业戏称为“KPI式开源”——指员工为了完成KPI而去更新开源项目,该项目的寿命因KPI完成或岗位变动而终结。甚至有开源社区专家表示,根本不相信所谓的“大厂开源”,认为其天然在社区贡献者多样性这个问题上存在劣势。

目前公认比较健康的开源项目,大部分集中在云原生、大数据领域,分别捐赠给了Linux基金会和Apache基金会。至于剩余的百余家国产大模型企业,99%不在这些榜单里。近期关于AIGC的一系列重磅进展,也忠实地反映了这个结果。

这个结局,企业能接受,投资人能接受,某种意义上,部分开源人也能接受。剩余不能接受的人,满怀愤怒。这让所有的明星开源创业团队,都像坐在“火药桶”上创业,一个火星,就能让人灰飞烟灭。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
102岁夫妻,一个爱吃糖,一个爱喝酒,儿女分享父母长寿秘诀

102岁夫妻,一个爱吃糖,一个爱喝酒,儿女分享父母长寿秘诀

华人星光
2026-01-22 11:31:13
震惊!网传有学校老师冬天坐在教学楼走廊,批改作业并为学生解答

震惊!网传有学校老师冬天坐在教学楼走廊,批改作业并为学生解答

火山诗话
2026-01-22 14:44:08
同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

不写散文诗
2026-01-22 19:44:04
远离“造神”陷阱!官媒揭单依纯真实现状,给所有女星提了个醒

远离“造神”陷阱!官媒揭单依纯真实现状,给所有女星提了个醒

笑饮孤鸿非
2026-01-21 07:49:51
朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

南宗历史
2026-01-13 17:26:28
这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

荣亭小吏
2026-01-22 10:06:08
林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

千秋文化
2026-01-20 20:39:41
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

不写散文诗
2026-01-22 19:38:59
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

鹤羽说个事
2026-01-20 11:48:10
你那么爱马杜罗,就问送你去马杜罗治下的委国你去不去?

你那么爱马杜罗,就问送你去马杜罗治下的委国你去不去?

廖保平
2026-01-11 09:38:31
就在今天!1月23号上午,CBA传来,郑永刚、贺希宁消息

就在今天!1月23号上午,CBA传来,郑永刚、贺希宁消息

老做体育解说
2026-01-23 13:19:44
撑杆跳没哨,锁喉不犯规!四大黑哨助力湖人还输球,难怪詹皇急眼

撑杆跳没哨,锁喉不犯规!四大黑哨助力湖人还输球,难怪詹皇急眼

嘴炮体坛
2026-01-23 14:29:18
乌军总司令西尔斯基,是否达到了战神水平?这5大战役证明一切

乌军总司令西尔斯基,是否达到了战神水平?这5大战役证明一切

黑洞观星
2025-07-30 17:59:53
哈登生涯抢断数来到1766,超越伊戈达拉排名历史第20

哈登生涯抢断数来到1766,超越伊戈达拉排名历史第20

懂球帝
2026-01-23 12:26:17
不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

明天见灌装冰块
2026-01-23 03:31:46
身价2000万!李昊已被欧洲俱乐部关注 国内3家争冠俱乐部有意

身价2000万!李昊已被欧洲俱乐部关注 国内3家争冠俱乐部有意

新英体育
2026-01-23 10:34:48
NBA无愧商业联盟,裁判强行制造悬念,快船险遭湖人26分大翻盘

NBA无愧商业联盟,裁判强行制造悬念,快船险遭湖人26分大翻盘

邹维体育
2026-01-23 13:40:02
陈光标出面后,央视也出手了,嫣然医院有救了!

陈光标出面后,央视也出手了,嫣然医院有救了!

娱乐故事
2026-01-23 11:46:52
胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

映射生活的身影
2026-01-23 13:11:27
2026-01-23 15:04:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25642文章数 687371关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

艺术
家居
时尚
教育
房产

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

家居要闻

在家度假 160平南洋混搭宅

告别臃肿!这种简约的高级穿法,别拒绝

教育要闻

△AOB和△BOC的面积分别是3和6,求红色四边形的面积

房产要闻

正式官宣!三亚又一所名校要来了!

无障碍浏览 进入关怀版