重磅！斯坦福 AI 团队被曝抄袭中国大模型开源成果，推特舆论开始发酵|斯坦福ai|视频生成模型

分享至

美国也有投机分子。

作者 | 西西

编辑 | 陈彩娴

过去一年，中国大模型一直被贴上「追赶美国」的标签，但近日，推特上却有人曝出：美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果，模型架构与代码完全相同。

舆论已经开始发酵，引起了圈内人士的广泛讨论。

根据 AI 科技评论整理，事情的经过大致如下：

5月29日，斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型，号称只要500美元（约等于人民币3650元）就能训练出一个 SOTA 多模态模型，且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。

Github开源：https://github.com/mustafaaljadery/llama3v
HuggingFace开源：https://huggingface.co/mustafaaljadery/llama3v（已删库）
Medium发布文章：https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee
Twitter官宣模型：https://twitter.com/AkshGarg03/status/1795545445516931355

由于该团队的作者（Mustafa Aljaddery、Aksh Garg、Siddharth Sharma）来自斯坦福，又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历，很快该模型发布的推特帖子浏览量就已经超过30万，转发300+次，并迅速冲到了 Hugging Face 首页：

但很快，没过几天，推特与 Hugging Face 上就开始出现怀疑的声音，质疑 Llama3V 套壳面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5，且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5的声音。

对此，Llama3V 团队回复，他们「只是使用了 MiniCPM-Llama3-V 2.5的 tokenizer」，并宣称「在 MiniCPM-Llama3-V 2.5发布前就开始了这项工作」。

紧接着，6月2日，有网友在 Llama3V 的 Github 项目下抛出事实性质疑，但很快被 Llama3V 的团队删除。为此，提出质疑的网友被激怒暴走，跑到了 MiniCPM-V 的 Github 页面进行事件还原，提醒面壁智能团队关注此事。

随后，面壁团队通过测试，发现 Llama3V 与 MiniCPM-Llama3-V 2.5在「胎记」般案例上的表现100% 雷同，「不仅正确的地方一模一样，连错误的地方也一模一样」。

至此，推特舆论开始发酵，「斯坦福抄袭中国大模型」一事不胫而走。

「套壳」证据实锤

斯坦福团队百口莫辩

最开始，用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5开源模型时，Llama3V 作者团队并不承认，而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5的 tokenizer」，并宣称他们「在 MiniCPM-Llama3-V 2.5发布前就开始了这项工作」：

不过，好心网友对 Llama3V 作者团队的回应并不买单，而是在 Llama3V 的 Github Issue 上发布了一系列质疑，列举具体4点证据，但很快被 Llama3V 的团队删除。幸好作者事先截了图保留：

面对网友的质疑，Llama3V 作者只是避重就轻地回复，称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug，并称「MiniCPM 的架构是来自 Idéfics，SigLIP也来自 Idéfics，他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作，因为「MiniCPM 的视觉部分也是来自 Idéfics 的」——

并且将原来 readme 里引用致谢「MiniCPM-Llama3 」改为了「致谢 MiniCPM」：

但根据网友的复盘、梳理，Llama3V 并非只是简单的借鉴，而是有4点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。

证据1：

Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5项目完全相同的模型结构和代码实现。

Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5完全相同，只是变量名不同。

图左为 MiniCPM-Llama3-V 2.5，图右为 Llama3V

Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5的代码进行格式调整和变量重命名得到的，包括但不限于图像切片方式、tokenizer、重采样器和数据加载：

证据2：

Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」，但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5结构完全相同，但在空间模式等多方面却与 LLaVA-UHD 有较大差异。

Llama3-V 具有与 MiniCPM-Llama3V 2.5相同的标记器（tokenizer），包括 MiniCPM-Llama3-V 2.5新定义的特殊标记：

证据3：

Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码，后改名为 Llama3V。事件发酵后，AI 科技评论打开 Hugging Face 页面发现已经「404」：

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6

Llama3V 作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」，并称他们「尝试使用 MiniCPM-Llama3的配置，但并没有用」：

戏剧效果拉满的是，该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码，跑通 Llama3V 模型推理的详细步骤。

当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5发布之前就使用它的 tokenizer 时（因为其一开始称他们在 MinicPM-Llama3-V2.5发布前就已经开始了 Llama3V 的研究），Llama3V 的作者开始撒谎，称是从已经发布的上一代 MinicPM-V-2项目里拿的tokenizer：

但事实是，据 AI 科技评论向面壁团队了解，MiniCPM-V-2的 tokenizer 与 MinicPM-Llama3-V2.5完全不同，在Huggingface 里是两个文件，「既不是同一个 tokenizer 件，文件大小也完全不同」。

MinicPM-Llama3-v2.5的 tokenizer 是 Llama3的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成，MiniCPM-v2因为在 Llama3开源之前就发布，所以不会有 Llama3的 tokenizer ：

证据4：

Llama3V 的作者删除了 GitHub 上的相关 issue，并似乎不完全理解 MinicPM-Llama3-V2.5的架构或 Llama3V 自己的代码。

Perceiver重采样器是一个单层的交叉注意力机制，而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于训练多模态大型语言模型，而仅用于 SigLIP 的预训练。

但 Llama3V 在论文中的介绍却说其采用了两层自注意力机制：

而 MiniCPM-Llama3-V 2.5和 Llama3V 代码如下，体现的却是单层交叉注意力机制：

Llama3-V：

MiniCPM-Llama3-V 2.5：

且视觉特征提取不需要激活 sigmoid：

推特舆论发酵，面壁回应

6月2日下午，该事件开始在推特上发酵，MiniCPM-V 的作者亲自发帖，表示「震惊」，因为斯坦福的 Llama3V 模型居然也能识别「清华简」。

据 AI 科技评论向面壁团队了解，「清华简」是清华大学于2008年7月收藏的一批战国竹简的简称；识别清华简是 MiniCPM-V 的「胎记」特征。该训练数据的采集和标注均由面壁智能和清华大学自然语言处理实验室团队内部完成，相关数据尚未对外公开。

斯坦福的 Llama3V 模型表现与 MiniCPM-Llama3-V 2.5检查点的加噪版本高度相似：

以下是面壁团队成果与 Llama3V 对「清华简」的识别对比。结果显示，两个模型不仅正确的地方一模一样、错误的地方也雷同：

请识别图像中的竹简字？

MiniCPM-Llama3-V 2.5:

Llama3-V:

GT:

错误识别示例：

请识别图像中的竹简字？

MiniCPM-Llama3-V 2.5:

君子

Llama3-V:

君子

GT:甬

以下是在1000个清华简字体上的识别效果：

可以看到，Llama3V 与 MiniCPM-Llama3-V 2.5的重叠高达87%，且两个模型的错误分布律高度相似：Llama3V 的错误率为236，MiniCPM-Llama3-V 2.5的错误率是194，两个模型在182个错误识别上相同。

同时，两个模型在清华简上的高斯噪声也同样高度相似：

此外，Llama3V 的 OCR 识别能力在中文字上也与 MiniCPM-Llama3-V 2.5高度相似。对此，面壁团队表示，他们很好奇斯坦福团队是如何只用「500美元就能训练出这么高深的模型性能」。

Prompt：请输出图片中的文字——

MiniCPM-Llama3-V 2.5的表现：

### 标题

9倍像素更清晰

### 副标题

难图长图长文本精准识别

### 正文

OCR技术进一步打磨，复杂推理与多模态识别能力再进化，MiniCPM-Llama3-V2.5对于难图、长图、长文本的精准识别，再度带来出众表现！面壁自研高清图像高效编码技术，我们可以高效编码及无损识别180万高清像素图片，并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像，突破了传统技术仅能识别20万像素小图的瓶颈。此前，MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析，赢得了良好口碑。

### 图片描述

1. **180万像素**

- 任意长宽比

- 图像无损识别

- 可支持

- 1:9极限宽高比

Llama3V 的表现：

### 标题

9倍像素更清晰

### 副标题

难图长图文本精准识别

### 正文

OCR技术进一步打磨，复杂推理与多模态识别能力再进化，MiniCPM-Llama3-V2.5对于难图、长文本的精准识别，再度带来出众表现。面壁自研高清图像高效编码技术，我们可以高效编码及无损识别180万高清像素图片，并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像，突破了传统技术仅能识别20万像素小图的瓶颈。此前，MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析，赢得了良好口碑。

### 图片描述

- **180万像素**：任意长宽比，图像无损识别，可支持。

- **1:9极限宽高比**：可支持。

根据公开信息显示，Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生，曾发表过多篇机器学习领域的论文。

其中，Siddharth Sharma 曾在牛津大学访问、在亚马逊实习；Aksh Garg 也曾在 SpaceX 实习。

这件事反映出，AI 研究的投机分子不分国度。

同时，也反映出，中国科研团队的开源大模型实力已经冲出国门，逐渐被越来越多国际知名的机构与开发者所关注、学习。

中国大模型不仅在追赶世界顶尖机构，也正在成为被世界顶尖机构学习的对象。由此可见，今后看客们审视国内外的大模型技术实力对比，应该多一份民族自信、少一点崇洋媚外，将关注度多聚焦在国内的原创技术上。

最后，一句话总结：

投机不可取，永争创新一。

更多内容，点击下方关注：

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

责任编辑：郜雪丹_NT5097

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.