神经网络AlexNet、大数据ImageNet和 GPU 如何彻底改变人工智能|算法|李飞飞|大模型

分享至

这一波生成式人工智能大爆发的秘诀是什么？今天，我们将从以下5个点总结神经网络（AlexNet）、大数据（ImageNet）和 GPU 的突破是如何促成现代人工智能和计算机视觉的诞生

2000年代的情况
认识李飞飞和 ImageNet
卷积神经网络
NVIDIA 推出 CUDA
Geoffrey Hinton 的实验室和 AlexNet 的突破

拿出你的笔和笔记本——开启学习模式‍‍

‍‍

2000年代的情况
‍‍‍‍

2000年代初是暴风雨前的平静。对计算机视觉 (CV) 潜力的兴奋与对工具限制和资源限制的沮丧一样强烈。最明显的障碍之一是缺乏标准化数据集。每个研究小组都策划了自己的小型图像集合，因此几乎不可能比较不同算法的结果和基准进度。这使得评估新兴 CV 技术的真实能力变得具有挑战性。但大型标准化数据集在通往强大人工智能的道路上根本不被认为非常重要。许多团队都专注于开发算法，根据共识，这些算法将推动人工智能行业向前发展。

早期的方法和模型虽然本身具有开创性，但相当有限。 SIFT（尺度不变特征变换）和 HOG（定向梯度直方图）等传统特征提取方法最初对于识别图像模式至关重要。但它很难掌握物体类别的全部范围和现实世界场景的复杂性。 LeNet-5 凭借其优雅的卷积神经网络 (CNN) 架构，表明深度学习可以解开手写数字识别的秘密。但是，除了这些简单的数字之外，还有广阔而复杂的物体世界呢？

很难相信在我们以数据为中心的世界中，基本上没有人考虑过用多样化、高质量的真实世界数据创建一个真正庞大的数据集

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

虽然每个人都注重细节，但没有人注重规模

认识李飞飞和 ImageNet‍‍‍‍

2006 年，时任伊利诺伊大学-香槟分校新教授的李飞飞试图克服现有人工智能算法的局限性，这些算法依赖于通常较小且缺乏多样性的数据集。糟糕的数据集使得模型很难学习一般模式。数据的稀缺常常导致过度拟合，因为模型会记住有限的训练示例，而不是学习可概括的特征。在研究现有数据编目方法的过程中，李飞飞发现了 WordNet，这是普林斯顿大学心理学家乔治·米勒 (George Miller) 的一个项目，该项目按层次结构组织单词。她对 WordNet 构建知识的方法很感兴趣，于是联系了 Christiane Fellbaum，后者在 Miller 之后接手了 WordNet 项目的方向。这种互动和她随后的阅读给了李飞飞和将类似的分层方法应用于视觉数据的想法。 2007年初，李飞飞加入普林斯顿大学并发起了ImageNet项目。她第一个聘用的是likai，一位相信她愿景的教授。likai说服了博士生学生dengjia转入李飞飞实验室

“ImageNet 思维的范式转变是，当很多人关注模型时，让我们关注数据。数据将重新定义我们对模型的看法。” 李飞飞

但如何构建这样的数据集呢？为了有所作为，它应该有数百万张带注释的图像。李飞飞最初计划雇佣本科生手动查找图像，每小时 10 美元。但对于一个非常大的数据集，按照本科生的速度需要几十年才能完成

然后，团队考虑使用 CV 算法从互联网上挑选照片，但在尝试使用它们几个月后，他们认为这是不可持续的：机器生成的数据集只能匹配当时最好的算法‍

但许多人仍然认为进步的关键是更好的算法，而不是更多的数据。这太超前于时代了。 ImageNet 未能获得联邦拨款，并受到对其重要性和可行性的批评和怀疑。一个人需要对自己的愿景充满信心，才能不断推动并克服所有障碍。幸运的是：在走廊里的一次偶然谈话中，一名研究生问李是否知道亚马逊 Mechanical Turk。她决定尝试一下——这个项目开始了

“他向我展示了该网站，我可以毫不夸张地告诉你，那天我就知道 ImageNet 项目将会发生。突然间，我们发现了一个可以扩展的工具，这是我们通过雇佣普林斯顿大学本科生做梦都想不到的。” 李飞飞

来自 167 个国家的 49,000 名工作人员花了两年时间创建了 12 个子树，包含 5247 个同义词集和总共 320 万张图像（目标是在未来两年内完成约 5000 万张图像的构建，如原始论文所示）。 2009 年，该团队在迈阿密计算机视觉和模式识别会议 (CVPR) 上作为海报首次展示了 ImageNet。

因为，几乎没有人真正相信这样的数据集会产生影响。

为了继续实现自己的愿景，李飞飞和她的团队于 2010 年决定发起 ImageNet 挑战赛，以“大众化”使用大规模数据集训练计算机视觉算法的想法，并为评估不同图像识别的性能设定基准大规模且多样化的数据集上的算法。为了真正推进该领域的发展，他们认为有必要接触更广泛的受众并鼓励更多研究人员探索 ImageNet 的潜力。

这本身就引发了深度学习革命吗？当然不是。在同一时期和在此之前不久，还发生了一些其他非常重要的发展

卷积神经网络‍‍‍‍‍‍‍‍

Yann LeCun 于 1989 年引入了卷积神经网络 (CNN)，最初学习的是电气工程。他在本科学习期间阅读了皮亚杰与乔姆斯基关于语言习得的争论（Piattelli-Palmarini，1983），激发了他对智能机器的兴趣。 Seymour Papert 在书中提到 Rosenblatt 的感知器激发了 LeCun 探索神经网络的兴趣。具有讽刺意味的是，Papert 和 Marvin Minsky 曾在 20 世纪 60 年代末和第一个人工智能寒冬之一期间导致了神经网络研究的衰落。

到 1998 年，LeNet-5 在 MNIST 数据集上达到了 99.05% 的准确率，标志着 CNN 发展的一个重要里程碑，并激励一些人工智能实验室继续研究 CNN。 CNN 的主要障碍是计算限制，训练深度 CNN 的速度极其缓慢且需要大量资源。

当时，大多数深度学习工作都是在中央处理单元（CPU）上完成的，通常是专注于各种学习算法和架构的小规模实验。深度学习社区认为 CNN 具有巨大潜力，但它们受到 CPU 的限制。 NVIDIA 正准备做出改变

英伟达推出CUDA

第一个注意到 CPU 巨大局限性的人并不是机器学习从业者。 1993 年，Jensen Huang（黄仁勋）、Chris Malachowsky 和 Curtis Priem 意识到视频游戏中的 3D 图形对 PC 中央处理单元 (CPU) 提出了许多重复性的数学密集型要求。如果专用芯片可以更快地并行执行这些计算会怎么样？第一个 Nvidia GeForce 图形加速器芯片诞生了。最初为视频游戏创建 GPU（图形处理单元），很快 NVIDIA 团队（特别是黄仁勋）就有了更大的愿景。

2006 年 11 月，NVIDIA 率先推出了一种突破性的 GPU 通用计算解决方案，称为 CUDA（统一计算设备架构）。 CUDA 是一种并行计算平台和编程模型，它利用 NVIDIA GPU 的强大功能，比传统的基于 CPU 的方法更有效地解决复杂的计算问题。它旨在与 C、C++、Fortran 和 Python 等流行编程语言兼容。现在 ML 人群可以加入并使用它了。

一些人工智能先驱立即开始尝试计算和 GPU。

根据 Jürgen Schmidhuber 的说法，2010 年，他的团队展示了“GPU 可用于通过简单的反向传播来训练深度标准监督神经网络，实现了 CPU 50 倍的加速，并打破了长期以来著名的 MNIST 基准测试记录。这就是 GPU 的巨大力量——不需要新颖的神经网络技术，不需要无监督的预训练，技术还是几十年前的东西。大约在同一时间，吴恩达 (Andrew Ng) 斯坦福大学的实验室也在转向使用 GPU 进行大规模深度学习。 GPU 对于 ML 社区来说仍然是新颖的，其发展主要是由直觉引导的。原因是强大的计算基础设施可以极大地加速统计模型训练，解决大数据固有的许多扩展挑战。当时，这是一个有争议且危险的举动。

现在回到另一个障碍：缺乏对大型标准化数据集的愿景

Geoffrey Hinton 的实验室 ‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍ AlexNet 的突破

现在被被称为人工智能教父的Geoffrey Hinton‍

1978年，他获得实验心理学学位和人工智能博士学位。1987年，他成为多伦多大学教授。他的实验室成为了生产人工智能人才的工厂‍

他的学生之一是亚历克斯·克里热夫斯基（Alex Krizhevsky）和伊利亚·苏茨克韦尔（Ilya Sutskever）。他们并不是第一个在 CUDA 上尝试CNN 的人

他们提出 AlexNet 使用相对标准的卷积神经网络 (ConvNet)，显着扩展了CNN：

在大型 ImageNet 数据集上对其进行训‍

在 CUDA/C++ 中高效实现它（你可以在此处找到 AlexNet 的原始代码https://github.com/ulrichstern/cuda-convnet?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=the-recipe-for-an-ai-revolution-how-imagenet-alexnet-and-gpus-changed-ai-forever）。这种方法利用了模型并行性，将并行卷积流分割到两个 GPU 上，这在当时是相当创新的

根据原始论文，AlexNet 的大型深度卷积神经网络在 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像上进行了训练，取得了破纪录的结果。该网络的架构由五个卷积层和三个全连接层组成，其深度对其性能至关重要。为了防止过度拟合，采用了图像平移、水平反射和改变 RGB 通道强度等数据增强技术。此外，还使用了一种称为“dropout”的正则化方法，其中每个隐藏神经元的输出在训练期间随机设置为零。该网络使用具有特定参数设置的随机梯度下降进行训练，并在 ILSVRC-2010 测试集上实现了 37.5% 和 17.0% 的 top-1 和 top-5 错误率。结果证明了大型深度卷积神经网络在图像分类任务中的潜力，并表明可以通过更大的网络和数据集实现进一步的改进

AlexNet 做主要创新：

ReLU 非线性：利用整流线性单元 (ReLU) 作为激活函数，与 tanh 等传统饱和非线性相比，可以更快地训练深度神经网络。

在多个 GPU 上进行训练：实现跨 GPU 并行化，允许训练不适合单个 GPU 的较大网络。

局部响应标准化：引入受真实神经元横向抑制启发的标准化方案，促进神经元输出之间的竞争并帮助泛化。‍‍‍

重叠池化：使用具有重叠邻域的池化层，与传统的非重叠池化相比，减少了过度拟合。expand_more

数据增强：实施图像平移、水平反射和基于 PCA 的强度更改，以人为地扩大数据集并提高网络的泛化能力。

Dropout：引入正则化技术，在训练过程中“丢弃”随机神经元，迫使网络学习更稳健的特征并减少过度拟合。

AlexNet 在 2012 年参加 ImageNet 挑战赛时取得了惊人的成绩，以 15.3% 的 top-5 错误率超越了之前的所有模型，而第二名的错误率为 26.2%

这一成功标志着深度学习的关键时刻，导致 CNN 架构的广泛采用和进一步进步。

在一次采访中，Ilya Sutskever 将那一刻描述为绝对的启示：他确信，大量数据和强大计算的结合将带来人工智能领域前所未有的突破—就是我们现在熟知的生成式AI的规模定律（scaling law）。他是对的。它为后续的突破铺平了道路，包括VGG、GoogLeNet和ResNet等模型以及整个深度学习领域，推动其走向我们目前正在经历的GenAI革命

总结‍‍‍‍

这就是深度学习革命的秘诀

关键要素‍‍‍‍‍

开放协作的海量数据集（ImageNet）、建立在其他巨头肩膀上的强大神经网络（AlexNet）、计算能力（NVIDIA 的 GPU）；但最重要的是，一些研究人员对其愿景的坚定信念（李飞飞）

成果‍‍‍‍‍‍

人工智能范式转变，图像识别、NLP 等领域取得突破。导致了今天的人工智能寒武纪大爆发：ChatGPT为代表

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

视觉与AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.