网易首页 > 网易号 > 正文 申请入驻

大模型“偷师”是迫不得已

0
分享至


经济观察报 记者 钱玉娟

2月23日,美国AI公司Anthropic发布公告,指控中国三家大模型厂商DeepSeek、Kimi和MiniMax发起了工业级“蒸馏”攻击,通过使用虚假账户与代理服务方式,大规模调用其Claude模型接口获取输出结果,用于优化自身模型能力。

在AI模型技术领域,“蒸馏”是一种被广泛使用的训练方式,通常指用强模型的输出去训练弱模型。利用商业模型生成合成数据来提升自家模型性能,已被全球AI开源社区HuggingFace亚太生态负责人王铁震视作“公开的秘密”。不过,包括Anthropic在内的一些海外AI公司在服务条款(ToS)中,明确禁止厂商使用其输出结果来开发竞争模型。

硅基流动联合创始人杨攀反问:模型就在那里,不让人用吗?

为进一步解释“蒸馏”及Anthropic的指控,杨攀举了一个例子,学霸辛苦学习后考了95分,将自己整理的学科笔记放在班里公开展示,学渣将笔记抄了回去,成绩也从60分提高到了80分,学霸见状骂学渣窃取了自己的劳动果实。

在开发者社区里,支持Anthropic的开发者认为,这种大规模注册假账号、针对性“薅羊毛”的行为违反商业契约,破坏了AI行业的公平竞争原则。也有网友讽刺Anthropic,“你训练模型时用的互联网数据,难道都给原作者付过费吗?”

杨攀没有对Anthropic指控一事下定义。他认为,模型厂商间的“蒸馏”行为更像是“偷师”。

王铁震在采访中也提及Claude爬取了互联网上相当多的信息,他将此描述为Claude“偷师”人类。埃隆·马斯克直接发帖嘲讽,“他们怎么敢偷An-thropic从人类程序员那里偷来的东西?”不仅如此,马斯克还曾公开指出Claude“蒸馏”了其他模型的能力。

经济观察报向被点名的三家国产大模型公司管理层人士求证,截至发稿,未获回应。

技术逻辑

在模型公司负责海外业务与技术开源的工程师李轩看来,Anthropic公告中的“蒸馏”攻击(distillationattack)一词包含贬义。他也不认可杨攀将国产模型厂商类比为“学渣”的说法。

在李轩看来,被点名的三家中国大模型企业学习态度并不差,只是与An-thropic这样的厂商相比,更像是穷孩子与富孩子,“后者有钱买各类书籍去学习,而前者买不起”。

李轩试图纠正一种认知,“偷师”海外模型并不代表国产模型的技术能力差,“把别人的答案当成标准,其实是一些模型厂商迫不得已的事”。

从技术定义来看,“蒸馏”的边界并非绝对。李轩更愿意用“数据合成”“冷启动”等中性词汇替代“蒸馏”。他指出,DeepSeek在其V3大模型的技术报告中称,公司使用了“冷启动数据”,未明确数据来源。“本质上通过调用其他模型获取训练素材的做法,在行业内非常普遍,大家只是心照不宣。”李轩称,这是通过调用其他模型的输出结果来补充训练数据,提升模型在特定领域的表现,弥补自身的能力短板。

李轩认为,这考验模型厂商能否知己知彼,既明确自家模型要走的技术方向,也了解模型“蒸馏”的效果,避免“蒸馏”效果还比不上购买数据集投入模型训练的效果。

“蒸馏”更有性价比?

Anthropic“指控”三家大模型厂商模拟复杂的编程场景和API(应用程序编程接口)调用环境,让Claude展示其拆解任务,调用搜索、读写文件等外部工具的过程,甚至使用2.4万个虚假账号,通过分散的商业代理服务器在全球范围内伪装IP,模拟成普通用户,以避免触发API的频率限制和风控。

王铁震呼吁行业辩证地去看待“偷师”。他认为,在资源不足的情况下,“蒸馏”成为这些模型厂商不得不取舍的选择,只能加大投入去采集数据。

以数学竞赛题为例,海外厂商可投入上亿美元邀请顶级科学家标注数据;而国产厂商受资金限制,难以承担如此高昂的成本。“一套IMO(国际数学奥林匹克竞赛)级别的数学题,标注成本可能高达数千万元,单条题目标注费用甚至超过1万元。”李轩算了一笔账,MiniMax被指控向Claude模型发送的请求量超过1300万次,对应的API调用成本可能高达数亿元。

MiniMax在招股书中披露,其从2023年至2025年前9个月,不到3年时间,账面亏损超12亿美元。摩根士丹利据此估算,MiniMax月均现金消耗约2790万美元。

国产大模型的发展速度与算力、数据、算法息息相关。在李轩看来,决定模型表现的核心因素并非技术,而是数据。海外厂商凭借雄厚资金,可以对细分领域数据进行极致标注。例如,为提升数学竞赛能力,海外厂商会针对一道错题衍生出100道相似题目进行标注,确保模型实现无死角覆盖。

相比之下,国内数据标注产业仍处在发展阶段。“国内高端数据标注人才稀缺,如IMO级别的数学题,国内能准确解答的专家数量有限。”李轩称,数据标注成本高昂,国内厂商根本无力复制海外的极致标注模式。

除了数据,算力也是国产大模型面临的隐性瓶颈。目前,国内大模型训练主要依赖英伟达GPU,但受美国出口管制影响,高端芯片获取难度极大。“国产大模型面临‘有钱也买不到卡’的困境,训练阶段算力不足会限制模型规模,推理阶段算力不足会影响用户体验。”李轩说。

2025年7月,KimiK2宣布完全开源且允许商用,AI研究科学家Se-bastianRaschka称,KimiK2的架构与DeepSeekV3基本一致。

Kimi团队随后在社交平台上回复称,团队曾尝试多种不同于DeepSeekV3的MoE/Dense结构变种,但始终没有任何设计在loss(损失值)指标上显著超过 DeepSeekV3。Kimi团队最终决定,完全继承DeepSeekV3的底层架构。

“并非国内厂商缺乏创新能力,而是创新成本过高。”李轩称,自研新架构需要投入大量资源进行实验验证,且失败风险极高。相比之下,借鉴成熟架构的性价比更高,一些模型厂商为进一步节约成本会选择采集冷启动数据。

发力垂直场景

在长期推动模型业务“出海”过程中,李轩逐渐意识到,海外模型在中文理解和文化适配方面存在不足,“这正是国产模型的机会”。

尤其当“蒸馏”成为行业普遍操作,“偷师”逐渐出现天花板。

一位国产大模型管理人士告诉经济观察报,现今模型间已经“蒸”不出高价值的数据了,如果全球从业者都选择蒸馏,没有人探索原生逻辑,AI的进化或将陷入“近亲繁殖”的循环。

面对数据枷锁,国产大模型厂商并非无计可施。上述国产大模型管理人士认为,与海外厂商追求全能型模型不同,国内厂商可聚焦垂直场景,打造细分领域的优势,如中文处理、政务服务、医疗健康等。

李轩还观察到,国内厂商正在加大基础研究投入,在高效训练、小样本学习、多模态融合等领域出现不少研究成果,甚至可以基于领先的国产模型架构进行二次创新,推出更高效的新模型,加入到全球模型能力的竞争中。

(应受访者要求,李轩为化名)

(作者 钱玉娟)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。


钱玉娟

TMT新闻部记者 长期关注并报道TMT领域的重大事件,时刻保持新闻敏感,发现前沿趋势。擅长企业模式、人物专访及行业深度报道。 重要新闻线索可联系qianyujuan@eeo.com.cn 微信号:EstherQ138279

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

都市快报橙柿互动
2026-07-04 13:23:28
越闹越大!西安赛格负责人,被浙商投资人林孙忠实名举报,引热议

越闹越大!西安赛格负责人,被浙商投资人林孙忠实名举报,引热议

火山詩话
2026-07-04 07:39:14
赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

贴小君
2026-07-04 13:12:59
人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

阿凯销售场
2026-07-04 15:35:28
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

流史岁月
2026-07-03 16:00:07
贪污上亿、假慈善、谎话连篇、高调炫富,韩红身上标签哪些是真的

贪污上亿、假慈善、谎话连篇、高调炫富,韩红身上标签哪些是真的

TVB的四小花
2026-07-05 01:18:31
伊朗又在美国脸上狠狠一巴掌

伊朗又在美国脸上狠狠一巴掌

史政先锋
2026-07-04 22:14:16
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-07-03 18:18:55
4信号暗示中国男篮更衣室或有内讧,杨瀚森王俊杰疑遭本土派排挤

4信号暗示中国男篮更衣室或有内讧,杨瀚森王俊杰疑遭本土派排挤

弄月公子
2026-07-04 21:02:43
美国务卿鲁比奥:中国人认为跟美国开战能赢,这是真正的危险所在

美国务卿鲁比奥:中国人认为跟美国开战能赢,这是真正的危险所在

莫地方
2026-07-05 00:35:43
当众疯狂侮辱普京,以为躲在北约很安全,4天后,在家门口被悄然暗杀

当众疯狂侮辱普京,以为躲在北约很安全,4天后,在家门口被悄然暗杀

匹夫来搞笑
2026-07-04 19:15:07
世界杯16强最新夺冠赔率:法国断层领跑!葡萄牙仅第5 巴拉圭垫底

世界杯16强最新夺冠赔率:法国断层领跑!葡萄牙仅第5 巴拉圭垫底

我爱英超
2026-07-04 12:33:41
中年少妇现在都在擦边直播…

中年少妇现在都在擦边直播…

微微热评
2026-07-04 12:47:33
香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

鲁中晨报
2026-07-04 09:30:04
佛得角世界杯之旅落幕:球队收获1100万美元奖金,40岁老门将沃齐尼亚社媒粉丝数破2000万;旅游爆火,赴当地航班搜索量同比增近30倍

佛得角世界杯之旅落幕:球队收获1100万美元奖金,40岁老门将沃齐尼亚社媒粉丝数破2000万;旅游爆火,赴当地航班搜索量同比增近30倍

鲁中晨报
2026-07-04 16:02:12
7月4日俄乌最新:特别军事行动的新传奇

7月4日俄乌最新:特别军事行动的新传奇

西楼饮月
2026-07-04 21:27:55
宋喆现状:隐居县城,双眼无神生活落魄,前妻杨慧早已经过新生活

宋喆现状:隐居县城,双眼无神生活落魄,前妻杨慧早已经过新生活

草莓信箱
2026-07-03 10:46:38
世卫组织宣布:疫情结束

世卫组织宣布:疫情结束

闪电新闻
2026-07-03 15:28:28
大胆预测,一旦郭士强下课,男篮新主帅,99%在以下三人之间产生

大胆预测,一旦郭士强下课,男篮新主帅,99%在以下三人之间产生

江启
2026-07-04 16:46:56
39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

红星新闻
2026-07-04 15:53:16
2026-07-05 01:48:49
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
115342文章数 1607094关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
数码
时尚
游戏
军事航空

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

韩版“全境封锁”PC配置降低 内存改为32GB起步

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版