几年前,人工智能主要呈现为笨拙的聊天机器人,对最简单的问题也很难回答。这到底发生了什么变化呢?其实很简单:如果你不断为这些模型提供更多的数据和计算,它们就会以可测量和可预测的方式不断变得更好。
杨阳,一位机器学习专家和分布式系统架构师,曾在这个故事的两面工作。作为“深度学习的扩展是可预测的,通过经验”的共同作者,他帮助展示了随着数据和计算的扩展,模型性能以一致且可用数学描述的方式提升。今天,他领导的团队将这些想法转化为数百万人使用的生产系统,同时,他作为IEEE手稿审稿人和ESP的编辑委员会成员,始终与研究社区保持紧密联系。在这篇文章中,他回顾了人工智能如何达到当前水平,为什么“规模”如此重要,以及运行这些系统需要什么硬件。
扩展规律101
深度学习中的扩展规律描述了三个要素之间的关系:你训练的数据量、模型的大小以及你使用的计算量。它们将这些输入与性能联系起来,通常通过模型在新测试数据上出错的频率来跟踪。简单说,你可能会问:“如果我将数据量加倍,错误率会下降多少?”
杨的研究表明,当你以平衡的方式同时增加训练集和模型时,错误率往往遵循平滑的幂律曲线。在为这种比较构建的图表上,这种关系几乎看起来像一条直线。该直线的陡峭程度代表任务的粗略‘学习速度’。
对于新兴的人工智能行业,这表明,一旦你了解模型的学习速度和当前状态,你就可以估算出达到特定性能目标所需的额外数据和计算量,并且可以看到收益开始趋于平稳的点。
杨的论文强调了一个预算见解。最优模型的大小与数据量的增长呈亚线性关系。十倍的数据并不需要十倍的参数。对于许多比较云合同或考虑是否购买更多人工智能硬件的初创公司来说,这一经验法则表明数据和模型容量应共同增长,并为这些选择提供具体的数字。
“规模”如何成为人工智能的北极星
一旦这些关系明确,规模因此成为了一种规划工具。工程师们不必在抽象层面上争论模型是否应该稍微增大,或者另一个数据集是否可能有帮助。他们可以从性能目标出发,反向推导,问自己:考虑到我们的学习曲线,达到目标需要什么?这一步是否值得花费金钱和时间?
杨的工作还为各式各样的人工智能问题提供了一个共同的语言。一个团队在构建推荐系统,另一个团队则在做语音识别,他们都可以用类似的曲线来讨论各自的进展。数据和用户不同,但随着资源的增加,性能改善的基本图景保持不变。
了解更大数据集通常如何提升结果,这只是故事的开头。构建能够将这些好处传递给使用手机和商业工具的人们的系统则是另一个完全不同的挑战。
解决规模化的基础设施
高盛的分析师估计,人工智能将在短短两年内占据整个数据中心市场的大约三分之一。这种增长需要更多的图形处理单元(GPU)和远高于过去几代网络服务所需的电力预算。几年前,少于十个GPU的服务器可能还算是一个靠谱的人工智能系统。很快,顶尖的系统可能会在一个机架里装下超过500个GPU。把规模法则的指导转化为高效、可靠的基础设施,还需要一轮新的工程工作。
在他的研究之后,杨继续领导一个首创的神经检索引擎的架构设计,该引擎用于个性化和内容发现。这个项目刚开始时,单台服务器中的八个GPU就显得非常雄心勃勃。如今,该平台覆盖了超过一百万台服务器,每天处理数十亿个请求。
每个请求在几十毫秒内必须经过几个严格的阶段。软件将庞大的候选池缩小到一个较小的集合,计算用户和项目的神经网络表示,然后对最强的匹配进行排名。人们感受到的就是所需内容的即时呈现,但在其背后,这是一个基于杨曾在纸上描述的相同扩展原则的缓存和网络调用的精确调度。
杨和他的同事们与硬件专家紧密合作,采用先进的加速器,包括NVIDIA的Grace Hopper超级芯片。通过推动模型与硬件的协同设计,他们能够将更大、更强的模型适配到实际的服务系统中。这个服务层把抽象的扩展规则转化为人们日常能用的东西。没有它,即使是再有效的学习曲线也只能停留在理论上。
规模定律将推动人工智能走向何方
规模定律及其周围发展起来的基础设施改变了人工智能的规划和交付方式。研究提供了一张地图,展示了随着输入更多数据和计算能力,性能如何提升,而工程工作则建立了服务器集群和加速器,使这些收益能够提供给用户。
这种组合现在影响着远超过任何一家公司所做的选择。麦肯锡的研究预测,到本世纪末,数据中心将需要6.7万亿美元的投资,因为运营商们争相支持更大规模的模型和更高强度的推理工作负载。每当推荐看起来及时,或者语音助手反应流畅时,这反映了这个故事的两个方面:决定模型扩展的简单规则,以及为将这些规则付诸实践而精心设计的庞大系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.