哈喽,大家好,我是小方,今天,我们主要来看看,曾经被整个科技界奉为圭臬的“大力出奇迹”——即疯狂堆砌算力和参数的AI发展模式,是不是真的走到了尽头。
![]()
![]()
![]()
过去十年,大家似乎形成了一种思维定式:想让AI更聪明?那就加参数、喂数据、砸算力,但这种做法效率越来越低,把学术界挤到了边缘,也让大公司的研究越来越封闭。更重要的是,这条路的回报,正在肉眼可见地递减。
![]()
![]()
这个团队的策略不是盲目扩大规模,而是采用极高纯度的专业数据集进行训练,并结合了新型的稀疏化训练技术。这个案例就像一记警钟,提醒我们:在计算资源回报递减的时代,优化技术和数据质量,往往比单纯的“更大”更管用。
![]()
为什么单纯堆算力不灵了?因为这就像只往一个方向使劲,深度神经网络的学习方式其实很“笨”,它善于记忆常见模式,但对于现实世界中大量存在的、不常见的“长尾”信息,学习效率极低,需要耗费不成比例的巨量算力去“死记硬背”,这就好比为了记住一本词典里所有生僻字,而把整本词典翻来覆去背了成千上万遍。
![]()
好在,研究者们找到了其他提升算力“性价比”的杠杆,首先是数据质量。业界现在公认,对数据进行精心清洗、去重、排序,其效果可能远超简单增加数据量。
其次是算法创新。比如,通过“模型蒸馏”技术,让一个庞大的“教师模型”教会一个小巧的“学生模型”,让小模型获得逼近大模型的能力;再比如“检索增强生成”,让模型在回答问题时能实时查阅外部知识库,而不是全靠死记硬背。这些技术,都让等量算力下的产出大幅增加。
![]()
最后是架构本身。Transformer架构奠定了过去几年的辉煌,但它可能已触及天花板,新的架构探索,比如更接近生物神经网络的脉冲神经网络,或者能更好处理序列中长期依赖的新模型,正在实验室里萌芽,它们可能从根本上重塑算力与性能的关系曲线。
![]()
那么,不迷信算力,路在何方?前沿的探索正在发生几个关键转向。第一个转向,是从“训练算力”到“推理算力”。以前所有智慧都凝结在训练好的静态模型里,现在,人们发现,在模型使用时(推理阶段)投入更多计算资源进行搜索、规划、多步推理,能极大提升最终表现,且成本远低于重新训练,这就像给人一个计算器,而不是让他背下所有乘法表。
![]()
第二个转向,是数据从“静态化石”变为“可塑材料”。以前模型在固定数据集上训练完就定型了,现在,借助成本大幅降低的合成数据技术,我们可以主动生成、补充模型薄弱环节所需的数据,让模型在迭代中持续适应新环境。
![]()
第三个转向,是智能的核心从“孤立模型”走向“交互系统”。未来的AI能力,可能不单单取决于模型本身,而取决于它如何与工具、数据库、其他AI智能体乃至物理世界进行交互与协同,这要求计算机科学家拥有更广阔的系统思维。
![]()
算力是重要的基石,但绝不是唯一的出路。当行业从对算力的盲目崇拜中清醒过来,将目光更多地投向算法革新、数据质量和系统设计时,我们或许才能迎来AI下一个真正稳健、高效且包容的突破阶段,这条路也许没那么“简单粗暴”,但无疑会更可持续,也更能孕育出多样化的智慧。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.