网易首页 > 网易科技 > 网易科技 > 正文

AI公司集体"抄作业":白菜价训练"小模型"时代来了?

0
分享至

3月10日消息,如今开发人工智能的成本正降至历史新低。更低廉的人工智能开发技术的确让开发者欢欣鼓舞,但这并非全然利好。随着成本降至谷底,大科技公司在基础模型上的高昂投资必须得到合理解释。

以下为翻译内容:

打造一家人工智能公司究竟要花多少钱?随着大语言模型的研发成本越来越低,这个数字每天都在下降。

人工智能算力成本持续下降,此外用极低成本训练出优质大模型的“模型蒸馏技术”在不断普及。新型廉价开发技术令AI开发者欢欣鼓舞,但这并非全然利好,也让一些企业感到寒意。这项历史悠久的技术正被赋予新价值:对多数人是福音,对特定群体意味着复杂挑战,而对AI未来则意义深远。

蒸馏技术解构

人工智能开发者和专家表示,蒸馏技术的本质在于运用一个模型提升另一个模型。让一个较大的“教师”模型生成应答与推理路径,再让一个较小的“学生”模型模仿其行为模式。

据传中国公司DeepSeek(深度求索)以约500万美元成本训练出与OpenAI抗衡的模型,在业界引起轩然大波。该消息引发股市恐慌,因担忧芯片需求下降,英伟达市值惨跌6000亿美元(但此预测尚未成真)。

加州大学伯克利分校的研究团队则在今年1月份发布研究,表明他们用不到1000美元的算力成本就训练出两个新模型。今年2月份,斯坦福大学、华盛顿大学以及艾伦人工智能研究所的研究人员更进一步,只用更低成本就训练出一个可用的推理模型。

这些突破都得益于蒸馏技术。

这项技术通常会搭配微调技术(fine-tuning),能以远低于其他方法的成本在训练阶段提升模型性能。开发者常用这两种技术赋予模型特定的专业知识或技能。例如,可以将Meta开发的通用基础模型蒸馏成精通美国税法的专家系统;或者利用DeepSeek的R1推理模型对Llama进行蒸馏,从而增强后者的推理能力,让Llama在生成答案需要更长时间时,能逐步展示推理过程。

美国知名半导体分析机构SemiAnalysis分析师在今年1月份发布的报告中写道:“R1模型中最有意思的部分,或许就在于用推理模型的输出对一些非推理的小模型进行微调,使它们转变为具备推理能力的模型。”

除了价格低廉外,DeepSeek还把R1推理模型作为教师,发布其他开源模型的蒸馏版本。DeepSeek的全尺寸模型以及Llama的最大版本规模太过庞大,仅有特定硬件能支持模型运行,而蒸馏技术也有助于解决这一问题。图灵资本(Touring Capital)合伙人萨米尔·库马尔(Samir Kumar)表示:“经过蒸馏的模型体积更小、参数更少、内存占用更低,甚至可以在手机或边缘设备上运行。”

DeepSeek的突破性在于,经过蒸馏的模型性能并未因规模缩减而下降,反而有所提升。

蒸馏技术虽非新生事物,却已悄然蜕变

蒸馏技术最早出现在2015年,源于谷歌人工智能元老杰夫·迪恩(Jeff Dean)、杰弗里·辛顿(Geoffrey Hinton)以及谷歌DeepMind研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)共同撰写的一篇论文中。维尼亚尔斯近期透露,该论文曾被NeurIPS顶会拒稿,理由是该技术“对领域影响有限”。十年后,蒸馏技术却突然成为AI讨论的核心议题。与过去相比,如今蒸馏技术的威力提升源于可用作教师模型的开源模型在数量与质量上的飞跃。今年1月份,IBM LLM Granite技术管理总监凯特·索尔(Kate Soule)在播客中表示:“DeepSeek通过MIT许可开源迄今最强大的模型,实质上正在侵蚀各大厂商守护核心模型的紧闭大门。”

蒸馏技术的应用边界索尔提到,互联网开源模型库Hugging Face平台上充斥着诸如Meta Llama和阿里巴巴Qwen等传统模型的蒸馏版本。实际上,Hugging Face存储的约150万个模型中,有3万个名称中带有“distill”字样,这通常表明它们经过了蒸馏。但目前尚无蒸馏模型进入Hugging Face的榜单前列。正如实体店里的一元店,蒸馏技术虽具顶尖性价比,但可选范围有限且存在缺陷:专精某项任务的蒸馏模型在其他领域的表现可能会弱化。

苹果公司研究人员曾尝试构建“蒸馏扩展定律”,通过教师模型的规模、目标模型规模和算力投入等参数预测蒸馏效果。他们发现,在特定条件下,当使用高质量的教师模型时,蒸馏效果优于传统的监督学习,但当教师模型过大时,性能提升将停滞。

尽管如此,这一技术仍有助于缩短从概念到原型的距离,普遍降低人工智能创业门槛。但多位人工智能专家强调,这种捷径并不否定昂贵基础模型的必要性,但却是动摇了大模型厂商的盈利前景。

基础模型还有出路吗?英伟达首席执行官黄仁勋在公司最新财报发布后接受采访时表示:“如今全球几乎所有AI开发者都在使用DeepSeek的R1来蒸馏新模型。”蒸馏技术带来了机遇,但对OpenAI和Anthropic等公司耗巨资开发的专有大模型构成了威胁,有可能遭到对抗。云平台Hyperbolic联合创始人张杰表示:“我认为基础模型将会越来越趋于同质化。预训练模型的能力存在天花板,我们正逼近这个极限。”张杰认为,大语言模型巨头的出路在于打造受欢迎的产品而非模型本身,这或许解释了Meta选择部分开源Llama模型的战略考量。

此外,基础模型公司还可以采用更激进的策略。匿名谷歌DeepMind研究员表示,具备推理能力的模型可以通过隐藏推理步骤或“痕迹”来防止被蒸馏。虽然OpenAI在大型o1推理模型中隐藏了完整的推理路径,但新发布的o3-mini版本则展示了这些信息。特朗普政府人工智能政策顾问戴维·萨克斯(David Sacks)在今年1月份接受采访时说:“未来几个月,头部人工智能公司将围剿蒸馏技术。”

不过,在开源人工智能的“狂野西部”,要通过限制蒸馏来遏制技术扩散谈何容易。IBM LLM Granite的索尔直言:“Hugging Face充斥着大量GPT模型生成的、未经授权的格式化训练数据集。这早已经是公开的秘密。”

Anthropic和OpenAI均未对此置评。(辰辰)

延伸阅读
相关推荐
热点推荐
刚刚发布!2026年QS世界大学学科排名:北大榜首,浙大第二,清华复旦并列第三

刚刚发布!2026年QS世界大学学科排名:北大榜首,浙大第二,清华复旦并列第三

TOP大学来了
2026-03-26 00:06:23
连续三天,重庆市委书记袁家军围绕这件事调研

连续三天,重庆市委书记袁家军围绕这件事调研

中国乡村振兴
2026-03-26 10:02:48
广东复仇北京!输球或四强不保,杜锋全力一搏,徐杰重夺主控大权

广东复仇北京!输球或四强不保,杜锋全力一搏,徐杰重夺主控大权

多特体育说
2026-03-26 22:44:37
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
山姆曲奇礼盒紧急下架,消费者要求立即召回!监管部门:已立案

山姆曲奇礼盒紧急下架,消费者要求立即召回!监管部门:已立案

北京商报
2026-03-26 13:44:00
尘埃落定?NBA各大奖项预测出炉!SGA卫冕MVP 最佳新秀不是弗拉格

尘埃落定?NBA各大奖项预测出炉!SGA卫冕MVP 最佳新秀不是弗拉格

大卫的篮球故事
2026-03-25 20:35:52
亏损超1200万,谢苗不甘心,推出一部新电影,再救武打动作片一把

亏损超1200万,谢苗不甘心,推出一部新电影,再救武打动作片一把

白公子探剧
2026-03-25 18:23:49
家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

观察鉴娱
2026-03-21 12:39:12
输同曦发布会!张庆鹏直指全队防守态度不行,朱松玮主动反思!

输同曦发布会!张庆鹏直指全队防守态度不行,朱松玮主动反思!

篮球资讯达人
2026-03-26 22:43:44
到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

涛哥美食汇
2026-03-10 09:16:10
导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

Ck的蜜糖
2026-03-24 01:46:13
伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

阿腩讲娱乐
2026-03-26 21:01:30
阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

有范又有料
2026-03-26 17:22:20
扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

老马拉车莫少装
2026-03-25 07:41:30
京沪蓉之后,第四座“双机场”城市,来了

京沪蓉之后,第四座“双机场”城市,来了

西部城市
2026-03-25 21:43:15
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
惊喜!7000万捡漏敲定,22岁兽腰驰援,曼联中场真要活了?

惊喜!7000万捡漏敲定,22岁兽腰驰援,曼联中场真要活了?

生活新鲜市
2026-03-26 08:00:48
感谢陈凯歌当年不娶之恩,如今儿子是学霸,丈夫是绝世好男人

感谢陈凯歌当年不娶之恩,如今儿子是学霸,丈夫是绝世好男人

光辉与阴暗
2026-03-26 22:48:20
2026-03-27 00:32:49

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
本地
健康
公开课
军事航空

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版
×