网易首页 > 网易号 > 正文 申请入驻

Llama-3不算真开源:今年10月,权威定义就要来了

0
分享至

机器之心报道

编辑:泽南、佳琪

你给翻译翻译,什么是开源?

开源大模型的标杆 Llama 3,居然都「被闭源」了。今天,开源再次成为了人们讨论的话题。

如今,开源的人工智能算法无处不在,从个人开发者到大型科技公司,大家都在享受最新技术带来的成果。

就连目前最热门的大模型领域,也区分了开源和闭源两个互相竞争的大方向。人们认为,随着开源技术的扩散与交流,开源的大模型最终将赶上 OpenAI 这样的业界顶尖水平。这或许就是扎克伯格等人理想中的繁盛景象。

不过,在层出不穷的新 AI 模型评论区里,我们也经常看到有人吐槽「连权重、数据都没有,这算什么开源?」

这个时候,一家有影响力的机构终于决定站出来,对开源这件事下一个定义了。

今年 10 月,「真开源」定义就要来了

开放源代码促进会(OSI)最近公布了其对「开源 AI」的最新定义草案。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

这个定义似乎来的正是时候。一个月前,大模型领域刚刚经历过一轮开源技术更新。Meta 发布了迄今为止最强的开源大模型 Llama 3.1 405B,宣布所有 Llama 版本的总下载量已超过 3 亿次,创业公司 Mistral 也紧接着宣布开源了 Large 2 大模型。

这些公司发布的预训练 AI 语言模型带有权重使用限制,同时继续使用了「开源」标签。这引发了开发者们对 AI 技术背景下什么才是真「开源」的激烈争论。

因为最近一段时间,开源变得越来越像是一个营销术语,将大模型描述为「开源」可以让人们对其变得更加信赖,即使研究人员和开发者时常会被这些许可证所限制。

Llama-3.1 发布的时候,Yann LeCun 曾宣传了开源的优势。

OSI 给出的定义下,很多事情需要我们来重新审视。例如,Meta 的 Llama 3 模型虽然可以自由获取,但 Meta 针对使用 Llama 系列模型的公司规模及通过该模型生成的内容类型,设定了特定的许可限制。因此,Llama 不符合 OSI 为软件定义的传统开源标准

文生图模型 Flux 实际上也不是真正的开源。由于这种模糊性,OSI 通常用「开放权重」或「代码可用」等术语来指代那些含有代码或权重限制或缺乏配套训练数据的 AI 模型。

为了正式解决「真假开源」的问题,一向倡导开源的 OSI 召集了一个专家团队来为「开源」下定义。这个约 70 人的团队由研究人员、律师、政策制定者组成,其中还有来自 Meta、Google 和亚马逊等大型科技公司的代表。他们起草的最新草案为判断 AI 模型是否符合开源标准提出了「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型

这「四项基本自由」也沿用了人们对开源软件的定义。OSI 希望通过对「开源 AI」树立明确的标准,方便开发者、研究人员和用户在创建、研究或使用 AI 工具做出更明智的决策。

OSI 执行董事 Stefano Maffulli 在 Linux 基金会 AI_dev 大会上发布了对开源定义的最新版草案

换句话说,开源对于 AI 更加稳定安全:如果 AI 模型做到了真正的「开源」,研究人员将能分析 AI 模型背后的工作方式,AI 系统的潜在软件漏洞也将更加明显。相较于 OpenAI 的「闭源」系统 ChatGPT,其确切的架构是一个严格保密的秘密。

据 OSI 的项目时间表显示,他们预计在 2024 年 10 月在 All Things Open 会议上正式宣布「开源 AI」定义的最终版。

那么在这个定义下,有哪些大模型是「开源」的呢?据说在第一批名单里包括 EleutherAI 的 Pythia、Ai2 的 OLMo 和开源集体 LLM360 等。

「创新不应该需要许可」

在五月份的新闻发布会上,OSI 强调了为真正的「开源」AI 厘清定义的重要性。「AI 与常规软件不同,需要迫使所有利益相关者重新审视开源原则对该领域的适用性」,OSI 的执行董事 Stefano Maffulli 说,「OSI 相信每个人都应保有对技术的主导权和控制权。我们还认识到,当定义明确后,它将推动 AI 系统更加透明、更紧密的协作和无需许可的创新,市场就会繁荣发展。」

OSI 的最新草案不止要求「开源」模型本身及其权重,还要求对整个系统更加广义的开放。 一个 AI 系统要想被认定为「开源」,必须提供 OSI 定义的「适合修改的形式」,其中包括训练数据的详细信息、用于训练和运行系统的全部源代码,以及模型权重和参数。这些都必须在 OSI 认可的许可证或条款下提供。

值得注意的是,这份草案并没有强制要求公开原始训练数据。相反,它要求提供关于训练数据和方法的详细元数据。比如数据的来源、选择标准、预处理技术以及其他相关细节,方便研究者重建类似的系统。

这种方法旨在不公开实际数据集的情况下提供透明度和可复制性,在坚持开源原则的同时,从表面上解决了潜在的隐私和版权问题。不过是否能达成预计的效果,可能还有待进一步讨论。

训练数据的来源缺乏透明度,已经导致了一系列针对大型 AI 公司的诉讼。从 OpenAI 这样的业内带头人到 Suno 这样的小应用,这些公司的生成式 AI 产品除了声称包含「可公开访问的信息」外,并未披露太多有关其训练集的信息。很多人呼吁开源模型应该披露所有训练集,不过由于版权和数据所有权等问题,这一标准很难执行。

「这个定义最有趣的是,他们允许不公开训练数据,」独立 AI 研究员 Simon Willison 在接受外媒 Ars Technica 采访时说道:「这是一个非常务实的方法 —— 如果不允许这样,那就几乎就没有模型算『开源』了。」

OSI 想明确「开源」的定义,这个想法可以追溯到 2022 年,当时它首次开始联系有关组织,邀请他们一起来定义这个术语。

「经过近两年,我们从世界各地征求意见,来确定适合 AI 系统的开源原则,OSI 现在正在全球巡讲,希望能够完善并验证草案中的定义,」Maffulli 表示,「定义『开源』的研讨会仍在进行,现在参与还不晚,可以通过 OSI 网站找到论坛,发表评论建言献策。」

当最终定义在 10 月揭晓时,新的「开源」AI 定义可能对行业产生深远影响。它将影响公司以何种形式发布 AI 模型,并塑造未来的法规,例如加州备受争议的 SB-1047 法案。

希望新的定义,能够进一步推动大模型领域的技术创新。

参考内容:

https://arstechnica.com/information-technology/2024/08/debate-over-open-source-ai-term-brings-new-push-to-formalize-definition/

https://opensource.org/deepdive/drafts/open-source-ai-definition-draft-v-0-0-9

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
地球将在2026年8月12日“失重7秒”死4000万人?谣言!!!

地球将在2026年8月12日“失重7秒”死4000万人?谣言!!!

大道微言
2026-04-03 12:22:13
美国国务卿马可·鲁比奥驱逐伊朗高官亲戚

美国国务卿马可·鲁比奥驱逐伊朗高官亲戚

Nee看
2026-04-04 23:35:32
曝俄罗斯大学校长被要求征召学生入伍!配额至少2%

曝俄罗斯大学校长被要求征召学生入伍!配额至少2%

项鹏飞
2026-04-02 20:41:02
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
上海队送大礼了?CBA第一大外援逼宫主帅,广东男篮成最大赢家!

上海队送大礼了?CBA第一大外援逼宫主帅,广东男篮成最大赢家!

绯雨儿
2026-04-04 12:17:49
所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

潇湘晨报
2026-04-04 18:37:12
夜店穿搭造成误会,被人叫“特别妈咪”

夜店穿搭造成误会,被人叫“特别妈咪”

飛娱日记
2026-03-16 08:13:56
造价7.5亿美元,贝克汉姆展示迈阿密国际新主场:我们的新家

造价7.5亿美元,贝克汉姆展示迈阿密国际新主场:我们的新家

懂球帝
2026-04-04 10:59:09
史诗级大反转!北上广楼市彻底炸锅,成交量狂飙破5年新高,一场财富大洗牌正在上演!

史诗级大反转!北上广楼市彻底炸锅,成交量狂飙破5年新高,一场财富大洗牌正在上演!

新浪财经
2026-04-02 12:43:03
广东3将终于出价值!张皓嘉+王洪泽锁4号位,奎因跑起来就能爆!

广东3将终于出价值!张皓嘉+王洪泽锁4号位,奎因跑起来就能爆!

篮球资讯达人
2026-04-05 01:09:53
随着越南1-4,U20女足亚洲杯最新积分榜出炉:中国队领跑

随着越南1-4,U20女足亚洲杯最新积分榜出炉:中国队领跑

俯身冲顶
2026-04-04 22:56:23
伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

每日经济新闻
2026-04-04 20:41:57
董宇辉道歉冲上热搜,被全网审判

董宇辉道歉冲上热搜,被全网审判

电商派Pro
2026-04-03 09:51:12
百度和高德地图对比怎样?网友的评论真是让我有了选择

百度和高德地图对比怎样?网友的评论真是让我有了选择

侃神评故事
2026-02-22 11:45:03
美国人通告全球,美不“护台”,话音刚落,国台办再将台当局一军

美国人通告全球,美不“护台”,话音刚落,国台办再将台当局一军

潋滟晴方DAY
2026-04-05 02:02:42
留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

留给美国时间不多了,伊朗战争打完后,世界就只剩一个超级大国了

触摸史迹
2026-04-02 14:39:03
张志新烈士忌日,回看那泯灭人性的年代,不寒而栗中更需警醒

张志新烈士忌日,回看那泯灭人性的年代,不寒而栗中更需警醒

薇微笑语
2026-04-04 21:14:49
沙利文退休之后再谈中国,说了不少以前不敢说的实话

沙利文退休之后再谈中国,说了不少以前不敢说的实话

南宗历史
2026-04-04 14:11:56
霸王茶姬快不行了?创始人套现6.7亿,加盟商跑路,到底怎么了?

霸王茶姬快不行了?创始人套现6.7亿,加盟商跑路,到底怎么了?

时评人李文君
2026-04-02 18:11:00
西部局势分析,湖人有望守住第三,快船难破困局,火箭容易成炮灰

西部局势分析,湖人有望守住第三,快船难破困局,火箭容易成炮灰

老梁体育漫谈
2026-04-05 01:20:24
2026-04-05 03:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142612关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

本地
数码
时尚
教育
公开课

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

今年新款AirPods Pro、Apple TV值得等吗?升级方向曝光

别再穿大一码了!遮肉根本不是靠宽松

教育要闻

这些英国大学开始崩盘!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版