网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

0
分享至

鱼羊 西风 发自 凹非寺
量子位 | 公众号 QbitAI

大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍

具体是这么个事儿:

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

两篇论文探讨的都是一种规范模型文本生成结构的方法。

抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:

谷歌对两者差异性的表述“简直荒谬”。

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

唯一区别是换了概念?

赶紧瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的摘要对比。

谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。

该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。

而“原告”的说法大致是:

提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历

同样“不依赖于具体模型”。

方向上确实大差不差,我们还是接着来看看更多详细内容。

我们用谷歌Gemini 1.5 Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。

对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。

通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。

此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。

而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换

“原告”的具体方法是:

  • 利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。
  • 通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。

前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

最相关的研究是Outlines(Willard&Louf, 2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。

谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。

另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。

一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。

另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。

与Outlines类似,该方法依赖于定制算法。

但吃瓜群众们显然不是很买账:

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

网友:这事儿不罕见…

这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。

哦对了,Normal Computing的创始团队有一部分就来自Google Brain……

另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。

说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

去年10月我们完成了一项工作,最近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

不过,也有网友表达了不同的意见:

如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?

对此,雷米怒怼:

好家伙,发布预印本论文并开源代码 = 占坑;
写篇数学论文,甚至不需要任何伪代码 = 好工作???

布兰登老哥也表示yue了:

开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~

两篇论文戳这里:
谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1
原告论文:https://arxiv.org/abs/2307.09702

参考链接:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
游客吐槽“杭州西湖景区停车费30元一小时”,官方回应:节假日差别化收费,倡导公交出行,日常收费10元一小时

游客吐槽“杭州西湖景区停车费30元一小时”,官方回应:节假日差别化收费,倡导公交出行,日常收费10元一小时

大象新闻
2026-02-27 15:45:09
淮安人徐亮被查!

淮安人徐亮被查!

淮安网
2026-02-27 14:18:25
春天,少吃苹果多吃它,一次买20斤,晒干囤起来,从春天吃到夏天

春天,少吃苹果多吃它,一次买20斤,晒干囤起来,从春天吃到夏天

阿龙美食记
2026-02-26 19:13:38
央视直播28日新加坡大满贯,王曼昱对张本美和,王楚钦战张禹珍

央视直播28日新加坡大满贯,王曼昱对张本美和,王楚钦战张禹珍

乒乓球球
2026-02-27 21:56:06
大瓜!黄晓明小22岁新欢曝光,照片流出,网友:这眼光,挺专一的

大瓜!黄晓明小22岁新欢曝光,照片流出,网友:这眼光,挺专一的

乌娱子酱
2026-02-27 10:40:54
少妇当众猥亵年轻男子:脱裤裸露下体,正面照流出,私密细节披露

少妇当众猥亵年轻男子:脱裤裸露下体,正面照流出,私密细节披露

博士观察
2026-02-27 14:51:00
转发提醒!在伊朗的中国公民尽快撤离

转发提醒!在伊朗的中国公民尽快撤离

闪电新闻
2026-02-27 19:30:43
老朋友伊朗,快要退出群聊了

老朋友伊朗,快要退出群聊了

基本常识
2026-02-27 23:10:46
新加坡第1冠!雨果爱侣状态高昂,3-0横扫头号种子首夺冠获2000分

新加坡第1冠!雨果爱侣状态高昂,3-0横扫头号种子首夺冠获2000分

乒谈
2026-02-27 21:15:34
澳门的赌台,大面积关停!不是没人去,而是被“算法”割废的?

澳门的赌台,大面积关停!不是没人去,而是被“算法”割废的?

水泥土的搞笑
2026-02-27 17:09:36
南博通报里“张某”身份的大瓜:被网友爆料系“徐湖平干女儿”?

南博通报里“张某”身份的大瓜:被网友爆料系“徐湖平干女儿”?

穿透
2026-02-27 11:40:39
红军城或已失守,欧尔班开始支持欧盟对乌贷款

红军城或已失守,欧尔班开始支持欧盟对乌贷款

史政先锋
2026-02-27 21:13:14
至少又有2万移英港人要回流香港?比他们更惨的是润日华人!许多变卖家产举家移日的中产家庭被排外右翼“三记闷棍”梦碎日本!

至少又有2万移英港人要回流香港?比他们更惨的是润日华人!许多变卖家产举家移日的中产家庭被排外右翼“三记闷棍”梦碎日本!

澳门月刊
2026-02-27 09:16:32
俄罗斯“居住服役”法令颁布华人蜂拥回国,机票暴涨200%

俄罗斯“居住服役”法令颁布华人蜂拥回国,机票暴涨200%

史政先锋
2026-02-27 14:48:38
男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

大象新闻
2026-02-27 09:57:17
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

黎兜兜
2026-02-27 21:20:19
一路走好!2026年春晚才过10天,已有4位名人接连去世,令人唏嘘

一路走好!2026年春晚才过10天,已有4位名人接连去世,令人唏嘘

阿讯说天下
2026-02-26 11:23:19
阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

黄娜老师
2026-02-27 22:32:30
外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

甜柠聊史
2026-01-23 14:01:57
晚上九点!中国男篮上诉成功,国际篮协正式道歉,郭士强被声讨

晚上九点!中国男篮上诉成功,国际篮协正式道歉,郭士强被声讨

多特体育说
2026-02-27 20:52:20
2026-02-28 04:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176397关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

亲子
教育
旅游
家居
公开课

亲子要闻

惊呆了!12岁小女孩抱弟弟如同妈妈般自然,背后真相感人至深!

教育要闻

不好意思,我玩电脑AI已经超高段位了!

旅游要闻

蜜雪冰城主题乐园来了 选址已"出炉"!在河南总部

家居要闻

素色肌理 品意式格调

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版