网易首页 > 网易号 > 正文 申请入驻

重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵

0
分享至

美国也有投机分子。

作者 | 西西

编辑 | 陈彩娴

过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出:美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。

舆论已经开始发酵,引起了圈内人士的广泛讨论。

根据 AI 科技评论整理,事情的经过大致如下:

5月29日,斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型,号称只要500美元(约等于人民币3650元)就能训练出一个 SOTA 多模态模型,且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。

  • Github开源:https://github.com/mustafaaljadery/llama3v

  • HuggingFace开源:https://huggingface.co/mustafaaljadery/llama3v(已删库)

  • Medium发布文章:https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

  • Twitter官宣模型 :https://twitter.com/AkshGarg03/status/1795545445516931355

由于该团队的作者(Mustafa Aljaddery、Aksh Garg、Siddharth Sharma)来自斯坦福,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历,很快该模型发布的推特帖子浏览量就已经超过30万,转发300+次,并迅速冲到了 Hugging Face 首页:

但很快,没过几天,推特与 Hugging Face 上就开始出现怀疑的声音,质疑 Llama3V 套壳面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5的声音。

对此,Llama3V 团队回复,他们「只是使用了 MiniCPM-Llama3-V 2.5的 tokenizer」,并宣称「在 MiniCPM-Llama3-V 2.5发布前就开始了这项工作」。

紧接着,6月2日,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。

随后,面壁团队通过测试 ,发现 Llama3V 与 MiniCPM-Llama3-V 2.5在「胎记」般案例上的表现100% 雷同,「不仅正确的地方一模一样,连错误的地方也一模一样」。

至此,推特舆论开始发酵,「斯坦福抄袭中国大模型」一事不胫而走。

1

「套壳」证据实锤

斯坦福团队百口莫辩

最开始,用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5开源模型时,Llama3V 作者团队并不承认,而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5的 tokenizer」,并宣称他们「在 MiniCPM-Llama3-V 2.5发布前就开始了这项工作」:

不过,好心网友对 Llama3V 作者团队的回应并不买单,而是在 Llama3V 的 Github Issue 上发布了一系列质疑,列举具体4点证据,但很快被 Llama3V 的团队删除。幸好作者事先截了图保留:

面对网友的质疑,Llama3V 作者只是避重就轻地回复,称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug,并称「MiniCPM 的架构是来自 Idéfics,SigLIP也来自 Idéfics,他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作,因为「MiniCPM 的视觉部分也是来自 Idéfics 的」——

并且将原来 readme 里引用致谢 「MiniCPM-Llama3 」改为了「致谢 MiniCPM」:

但根据网友的复盘、梳理,Llama3V 并非只是简单的借鉴,而是有4点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。

证据1:

Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5项目完全相同的模型结构和代码实现。

Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5完全相同,只是变量名不同。

图左为 MiniCPM-Llama3-V 2.5,图右为 Llama3V

Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5的代码进行格式调整和变量重命名得到的,包括但不限于图像切片方式、tokenizer、重采样器和数据加载:

证据2:

Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」,但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5结构完全相同,但在空间模式等多方面却与 LLaVA-UHD 有较大差异。

Llama3-V 具有与 MiniCPM-Llama3V 2.5相同的标记器(tokenizer),包括 MiniCPM-Llama3-V 2.5新定义的特殊标记:

证据3:

Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码,后改名为 Llama3V。事件发酵后,AI 科技评论打开 Hugging Face 页面发现已经「404」:

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6

Llama3V 作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」,并称他们「尝试使用 MiniCPM-Llama3的配置,但并没有用」:

戏剧效果拉满的是,该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码,跑通 Llama3V 模型推理的详细步骤。

当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5发布之前就使用它的 tokenizer 时(因为其一开始称他们在 MinicPM-Llama3-V2.5发布前就已经开始了 Llama3V 的研究),Llama3V 的作者开始撒谎,称是从已经发布的上一代 MinicPM-V-2项目里拿的tokenizer:

但事实是,据 AI 科技评论向面壁团队了解,MiniCPM-V-2的 tokenizer 与 MinicPM-Llama3-V2.5完全不同,在Huggingface 里是两个文件,「既不是同一个 tokenizer 件,文件大小也完全不同」。

MinicPM-Llama3-v2.5的 tokenizer 是 Llama3的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2因为在 Llama3开源之前就发布,所以不会有 Llama3的 tokenizer :

证据4:

Llama3V 的作者删除了 GitHub 上的相关 issue,并似乎不完全理解 MinicPM-Llama3-V2.5的架构或 Llama3V 自己的代码。

Perceiver重采样器是一个单层的交叉注意力机制,而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于训练多模态大型语言模型,而仅用于 SigLIP 的预训练。

但 Llama3V 在论文中的介绍却说其采用了两层自注意力机制:

而 MiniCPM-Llama3-V 2.5和 Llama3V 代码如下,体现的却是单层交叉注意力机制:

Llama3-V:

MiniCPM-Llama3-V 2.5:

且视觉特征提取不需要激活 sigmoid:

2

推特舆论发酵,面壁回应

6月2日下午,该事件开始在推特上发酵,MiniCPM-V 的作者亲自发帖,表示「震惊」,因为斯坦福的 Llama3V 模型居然也能识别「清华简」。

据 AI 科技评论向面壁团队了解,「清华简」是清华大学于2008年7月收藏的一批战国竹简的简称;识别清华简是 MiniCPM-V 的「胎记」特征。该训练数据的采集和标注均由面壁智能和清华大学自然语言处理实验室团队内部完成,相关数据尚未对外公开。

斯坦福的 Llama3V 模型表现与 MiniCPM-Llama3-V 2.5检查点的加噪版本高度相似:

以下是面壁团队成果与 Llama3V 对「清华简」的识别对比。结果显示,两个模型不仅正确的地方一模一样、错误的地方也雷同:

Q:

请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:

Llama3-V:

GT:

错误识别示例:

Q:

请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:

君子

Llama3-V:

君子

GT:甬

以下是在1000个清华简字体上的识别效果:

可以看到,Llama3V 与 MiniCPM-Llama3-V 2.5的重叠高达87%,且两个模型的错误分布律高度相似:Llama3V 的错误率为236,MiniCPM-Llama3-V 2.5的错误率是194,两个模型在182个错误识别上相同。

同时,两个模型在清华简上的高斯噪声也同样高度相似:

此外,Llama3V 的 OCR 识别能力在中文字上也与 MiniCPM-Llama3-V 2.5高度相似。对此,面壁团队表示,他们很好奇斯坦福团队是如何只用「500美元就能训练出这么高深的模型性能」。

Prompt:请输出图片中的文字——

MiniCPM-Llama3-V 2.5的表现:

### 标题

9倍像素更清晰

### 副标题

难图长图长文本精准识别

### 正文

OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5对于难图、长图、长文本的精准识别,再度带来出众表现!面壁自研高清图像高效编码技术,我们可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

### 图片描述

1. **180万像素**

- 任意长宽比

- 图像无损识别

- 可支持

- 1:9极限宽高比

Llama3V 的表现:

### 标题

9倍像素更清晰

### 副标题

难图长图文本精准识别

### 正文

OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5对于难图、长文本的精准识别,再度带来出众表现。面壁自研高清图像高效编码技术,我们可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

### 图片描述

- **180万像素**:任意长宽比,图像无损识别,可支持。

- **1:9极限宽高比**:可支持。

根据公开信息显示,Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾发表过多篇机器学习领域的论文。

其中,Siddharth Sharma 曾在牛津大学访问、在亚马逊实习;Aksh Garg 也曾在 SpaceX 实习。

这件事反映出,AI 研究的投机分子不分国度。

同时,也反映出,中国科研团队的开源大模型实力已经冲出国门,逐渐被越来越多国际知名的机构与开发者所关注、学习。

中国大模型不仅在追赶世界顶尖机构,也正在成为被世界顶尖机构学习的对象。由此可见,今后看客们审视国内外的大模型技术实力对比,应该多一份民族自信、少一点崇洋媚外,将关注度多聚焦在国内的原创技术上。

最后,一句话总结:

投机不可取,永争创新一。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7年首次!阿森纳掉链子,夺冠却更稳,曼联全胜还有机会夺冠?

7年首次!阿森纳掉链子,夺冠却更稳,曼联全胜还有机会夺冠?

嗨皮看球
2026-01-19 11:31:57
利雅得胜利主帅委婉说出球队问题就是C罗 状态不佳+强踢任意球

利雅得胜利主帅委婉说出球队问题就是C罗 状态不佳+强踢任意球

智道足球
2026-01-19 10:36:44
狂轰75分!勇士20分大胜,库里创NBA纪录,巴特勒突然退赛引热议

狂轰75分!勇士20分大胜,库里创NBA纪录,巴特勒突然退赛引热议

毒舌NBA
2026-01-18 12:11:18
柯文哲原形毕露,萧旭岑发声敲打,卢秀燕改弦更张,郑丽文成赢家

柯文哲原形毕露,萧旭岑发声敲打,卢秀燕改弦更张,郑丽文成赢家

一簌月光
2026-01-19 11:38:51
美国上将问:怎么做才能击败中国?马斯克的回答,令全场一片寂静

美国上将问:怎么做才能击败中国?马斯克的回答,令全场一片寂静

阿校谈史
2026-01-19 00:04:19
包钢板材厂爆炸,两天前刚强调安全隐患排查

包钢板材厂爆炸,两天前刚强调安全隐患排查

中国新闻周刊
2026-01-18 21:49:05
西贝贾国龙可能真的不想干了

西贝贾国龙可能真的不想干了

老萧杂说
2026-01-18 15:22:47
李在明位置保不住了?尹锡悦一审结果曝光,韩国内部决定不忍了

李在明位置保不住了?尹锡悦一审结果曝光,韩国内部决定不忍了

青途历史
2026-01-19 01:20:43
纪录片里的冰屋骗了你?因纽特人:那是零下50℃的临时“恒温避难舱”

纪录片里的冰屋骗了你?因纽特人:那是零下50℃的临时“恒温避难舱”

TVB的四小花
2026-01-18 12:07:17
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
美国逼我国偿还百年前的债务,如若不还,欠我国的8600亿美元就赖账

美国逼我国偿还百年前的债务,如若不还,欠我国的8600亿美元就赖账

富强巨靠谱
2025-03-24 16:33:48
王鹤棣演唱会意外揭露与虞书欣CP解体,赵露思出现就是最好证明?

王鹤棣演唱会意外揭露与虞书欣CP解体,赵露思出现就是最好证明?

东方不败然多多
2026-01-19 09:42:17
装傻36年骗过全天下,登基当晚一个眼神吓瘫大太监,这才是大唐最后的狠人

装傻36年骗过全天下,登基当晚一个眼神吓瘫大太监,这才是大唐最后的狠人

历史回忆室
2026-01-17 17:51:17
李亚鹏没想到,儿童医院陷租金纠纷不到两天,前妻王菲口碑暴跌

李亚鹏没想到,儿童医院陷租金纠纷不到两天,前妻王菲口碑暴跌

一盅情怀
2026-01-18 20:05:54
NBA伦敦赛:莫兰特复出砍24分5板13助 灰熊复仇轻取魔术

NBA伦敦赛:莫兰特复出砍24分5板13助 灰熊复仇轻取魔术

罗说NBA
2026-01-19 04:18:06
一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

品读时刻
2026-01-19 09:08:21
CBA焦点战今夜打响!CCTV5直播表,广东拒3连败,广厦冲6连胜

CBA焦点战今夜打响!CCTV5直播表,广东拒3连败,广厦冲6连胜

老吴说体育
2026-01-19 11:33:17
姆伯莫破门,米兰体育解析曼联主场2-0战胜曼城

姆伯莫破门,米兰体育解析曼联主场2-0战胜曼城

老纪赶潮流
2026-01-19 13:17:50
已进入最强降雪时段!今晚,常州中到大雪

已进入最强降雪时段!今晚,常州中到大雪

中吴网
2026-01-19 12:28:11
原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

以茶带书
2026-01-16 17:17:29
2026-01-19 13:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7046文章数 20725关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

头条要闻

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

房产
手机
艺术
数码
军事航空

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

手机要闻

realme真我Neo8选择单层主板结构,官宣塞下8000mAh泰坦电池

艺术要闻

有一种美,叫做中国园林!

数码要闻

技嘉AORUS RTX 5060 Ti AI BOX评测:雷电5加持硬核性能

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版