选模型不是挑名字,是挑数据结构。
DNN、CNN、RNN、注意力机制,这四个名字背后藏着一条清晰的进化线:图像需要空间模式,序列需要顺序记忆,现代AI需要可扩展的注意力机制。架构从来不是偏好问题,是对问题形状的回应。
![]()
核心逻辑:数据决定架构
深度学习的架构选择围绕一个根本问题:数据有什么结构?
DNN学习分层表示,通用但粗糙。CNN专为空间数据设计,卷积核扫描图像区域,捕捉局部视觉模式。RNN处理序列,一步步推进,用隐藏状态记住时间线上的信息。注意力机制则用注意力直接比较任意两个元素的关系,灵活且可扩展。
目标始终没变:从数据中学到有用的表示。变的是数据的形态,以及捕捉这种形态的工具。
一张简单的选择地图
实际选型时可以这样判断:
输入是表格数据或通用特征向量?从DNN开始。输入有空间结构?考虑CNN。输入是序列或时间序列?RNN或注意力机制。需要捕捉长距离关系?注意力机制。任务涉及现代语言模型或多模态系统?注意力机制通常是基线。
理解这张地图的意义在于:先选对模型家族,再调细节。
三个具体场景
图像分类需要检测局部视觉模式,CNN的卷积核天然适合扫描空间区域。时间序列预测需要理解时间顺序,RNN就是为这种序列流设计的。文本生成需要连接长距离的词与词,注意力机制可以直接比较任意两个token,因此成为主流。
不同的数据,不同的结构,不同的架构。
四者对比:关键差异在假设
DNN是通用分层模型,处理固定大小的特征向量,不显式建模空间或时间。CNN专为空间数据设计,用卷积核高效捕捉局部模式。RNN专为序列设计,逐步处理,跨时间保持隐藏状态。注意力机制围绕注意力构建,直接比较元素,在现代语言和多模态系统中扩展性最好。
关键差异不在层类型,而在每种模型对数据结构的假设。
视觉架构的进化线
CNN在计算机视觉中的主导地位,可以通过一系列里程碑模型理解:LeNet → AlexNet → VGGNet → GoogLeNet → ResNet。每个模型解决不同问题——LeNet证明CNN可行,AlexNet证明可扩展到大规模图像识别,VGGNet展示简单深度的力量,GoogLeNet改进效率,ResNet解决深层网络的训练难题。
这条线说明:架构进化不是替换,是针对性优化。理解数据结构,才能理解为什么某个架构在特定时代成为最优解。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.