差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
深度学习:卷积神经网络 [2026/03/02 22:04] – [1.3 CNN的核心组件] 张叶安深度学习:卷积神经网络 [2026/03/02 22:15] (当前版本) – [4. 答案与解析] 张叶安
行 95: 行 95:
  
   - **ReLU**:$f(x) = \max(0, x)$   - **ReLU**:$f(x) = \max(0, x)$
-   - 计算简单,缓解梯度消失 +    - 计算简单,缓解梯度消失 
-   - 可能导致"神经元死亡"+    - 可能导致"神经元死亡"
   - **Leaky ReLU**:$f(x) = \max(\alpha x, x)$,$\alpha$通常取0.01   - **Leaky ReLU**:$f(x) = \max(\alpha x, x)$,$\alpha$通常取0.01
-   - 解决ReLU的死亡问题+    - 解决ReLU的死亡问题
   - **PReLU**:可学习的$\alpha$   - **PReLU**:可学习的$\alpha$
   - **ELU**:$f(x) = x$ if $x \geq 0$ else $\alpha(e^x - 1)$   - **ELU**:$f(x) = x$ if $x \geq 0$ else $\alpha(e^x - 1)$
-   - 输出均值接近零,加速收敛+    - 输出均值接近零,加速收敛
   - **GELU**:平滑的ReLU变体,在Transformer中常用   - **GELU**:平滑的ReLU变体,在Transformer中常用
  
行 114: 行 114:
 **平均池化(Average Pooling)**: **平均池化(Average Pooling)**:
  
-$$Y[i, j] = \frac{1}{k^2} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i \cdot S + m, j \cdot S + n]$+$$Y[i, j] = \frac{1}{k^2} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i \cdot S + m, j \cdot S + n]$$
  
 **全局池化**:对整个特征图进行池化,输出$1 \times 1$ **全局池化**:对整个特征图进行池化,输出$1 \times 1$
行 131: 行 131:
  
 结构:Conv → Pool → Conv → Pool → FC → FC → Output 结构:Conv → Pool → Conv → Pool → FC → FC → Output
-- 输入:$32 \times 32$灰度图像 +  - 输入:$32 \times 32$灰度图像 
-- 参数:约6万个 +  - 参数:约6万个 
-- 应用:手写数字识别(MNIST)+  - 应用:手写数字识别(MNIST)
  
 **1.4.2 AlexNet(2012)** **1.4.2 AlexNet(2012)**
  
 突破:ReLU、Dropout、GPU训练、数据增强 突破:ReLU、Dropout、GPU训练、数据增强
 +
 结构:5个卷积层 + 3个全连接层 结构:5个卷积层 + 3个全连接层
-- 输入:$227 \times 227 \times 3$ +  - 输入:$227 \times 227 \times 3$ 
-- 参数:约6000万个 +  - 参数:约6000万个 
-- Top-5错误率:15.3%(第二名26.2%)+  - Top-5错误率:15.3%(第二名26.2%)
  
 **1.4.3 VGGNet(2014)** **1.4.3 VGGNet(2014)**
  
 核心理念:使用小卷积核($3 \times 3$)堆叠替代大卷积核 核心理念:使用小卷积核($3 \times 3$)堆叠替代大卷积核
-- VGG-16:13个卷积层 + 3个全连接层 +  - VGG-16:13个卷积层 + 3个全连接层 
-- VGG-19:16个卷积层 + 3个全连接层 +  - VGG-19:16个卷积层 + 3个全连接层 
-- 参数:VGG-16约1.38亿个+  - 参数:VGG-16约1.38亿个
  
 两个$3 \times 3$卷积的 receptive field 等于一个$5 \times 5$卷积,但参数量更少,非线性更强。 两个$3 \times 3$卷积的 receptive field 等于一个$5 \times 5$卷积,但参数量更少,非线性更强。
行 155: 行 156:
  
 创新:Inception模块、$1 \times 1$卷积、辅助分类器 创新:Inception模块、$1 \times 1$卷积、辅助分类器
-- 22层深度 +  - 22层深度 
-- 参数:约500万个(远小于VGG) +  - 参数:约500万个(远小于VGG) 
-- Inception模块并行使用不同尺寸的卷积核+  - Inception模块并行使用不同尺寸的卷积核
  
 Inception模块结构: Inception模块结构:
-```+<code>
 输入 → [1×1卷积]  输入 → [1×1卷积] 
     → [1×1卷积 → 3×3卷积]     → [1×1卷积 → 3×3卷积]
行 166: 行 167:
     → [MaxPool → 1×1卷积]     → [MaxPool → 1×1卷积]
     → 通道拼接     → 通道拼接
-```+</code>
  
 **1.4.5 ResNet(2015)** **1.4.5 ResNet(2015)**
行 180: 行 181:
  
 变体: 变体:
-- ResNet-18/34:基本残差块 +  - ResNet-18/34:基本残差块 
-- ResNet-50/101/152:瓶颈残差块(Bottleneck) +  - ResNet-50/101/152:瓶颈残差块(Bottleneck) 
-  - 使用$1 \times 1$卷积降维/升维 +    - 使用$1 \times 1$卷积降维/升维 
-  - 结构:$1 \times 1$(降维)→ $3 \times 3$ → $1 \times 1$(升维)+    - 结构:$1 \times 1$(降维)→ $3 \times 3$ → $1 \times 1$(升维)
  
 **1.4.6 DenseNet(2017)** **1.4.6 DenseNet(2017)**
  
 密集连接:每一层与前面所有层相连 密集连接:每一层与前面所有层相连
 +
 $$x_l = H_l([x_0, x_1, ..., x_{l-1}])$$ $$x_l = H_l([x_0, x_1, ..., x_{l-1}])$$
  
行 195: 行 197:
  
 复合缩放:同时缩放网络的深度、宽度和分辨率 复合缩放:同时缩放网络的深度、宽度和分辨率
-- 使用神经架构搜索(NAS)找到基础网络 +  - 使用神经架构搜索(NAS)找到基础网络 
-- 通过复合系数统一缩放+  - 通过复合系数统一缩放
  
 ==== 1.5 感受野与特征层次 ==== ==== 1.5 感受野与特征层次 ====
行 205: 行 207:
  
 计算:第$l$层的感受野 计算:第$l$层的感受野
 +
 $$RF_l = RF_{l-1} + (k_l - 1) \times \prod_{i=1}^{l-1} s_i$$ $$RF_l = RF_{l-1} + (k_l - 1) \times \prod_{i=1}^{l-1} s_i$$
  
行 211: 行 214:
 **特征层次:** **特征层次:**
  
-- **浅层**(低层):边缘、角点、纹理等低级特征 +  - **浅层**(低层):边缘、角点、纹理等低级特征 
-- **中层**:纹理模式、简单形状 +  - **中层**:纹理模式、简单形状 
-- **高层**:物体部件、语义概念+  - **高层**:物体部件、语义概念
  
 这种层次结构使CNN能够从简单特征构建复杂表示。 这种层次结构使CNN能够从简单特征构建复杂表示。
行 231: 行 234:
  
 用于上采样,是卷积的逆操作(非数学逆): 用于上采样,是卷积的逆操作(非数学逆):
-- 别名:反卷积(Deconvolution)、分数步长卷积 +  - 别名:反卷积(Deconvolution)、分数步长卷积 
-- 应用:图像生成、语义分割的上采样+  - 应用:图像生成、语义分割的上采样
  
 **1.6.3 可分离卷积(Separable Convolution)** **1.6.3 可分离卷积(Separable Convolution)**
  
 将标准卷积分解为深度卷积(Depthwise)和逐点卷积(Pointwise): 将标准卷积分解为深度卷积(Depthwise)和逐点卷积(Pointwise):
-- 深度卷积:对每个输入通道单独卷积 +  - 深度卷积:对每个输入通道单独卷积 
-- 逐点卷积:$1 \times 1$卷积混合通道+  - 逐点卷积:$1 \times 1$卷积混合通道
  
 计算量大幅减少,MobileNet的核心技术。 计算量大幅减少,MobileNet的核心技术。
行 245: 行 248:
  
 将输入通道分组,每组独立卷积: 将输入通道分组,每组独立卷积:
-- AlexNet中使用(GPU内存限制) +  - AlexNet中使用(GPU内存限制) 
-- ResNeXt的核心 +  - ResNeXt的核心 
-- 当组数等于通道数时,即为深度可分离卷积+  - 当组数等于通道数时,即为深度可分离卷积
  
 ==== 1.7 CNN的训练与优化 ==== ==== 1.7 CNN的训练与优化 ====
行 253: 行 256:
 **1.7.1 权重初始化** **1.7.1 权重初始化**
  
-- **Xavier/Glorot初始化**:根据输入输出维度调整初始化范围 +  - **Xavier/Glorot初始化**:根据输入输出维度调整初始化范围 
-  $$W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}, \frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}\right]$$+$$W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}, \frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}\right]$$
  
-- **He初始化**:专为ReLU设计 +  - **He初始化**:专为ReLU设计 
-  $$W \sim N(0, \sqrt{2/n_{in}})$$+$$W \sim N(0, \sqrt{2/n_{in}})$$
  
 **1.7.2 学习率调度** **1.7.2 学习率调度**
  
-- 阶梯衰减(Step decay) +  - 阶梯衰减(Step decay) 
-- 指数衰减 +  - 指数衰减 
-- 余弦退火(Cosine annealing) +  - 余弦退火(Cosine annealing) 
-- 学习率预热(Warmup)+  - 学习率预热(Warmup)
  
 **1.7.3 正则化策略** **1.7.3 正则化策略**
  
-- L2权重衰减 +  - L2权重衰减 
-- Dropout +  - Dropout 
-- 数据增强 +  - 数据增强 
-- 标签平滑 +  - 标签平滑 
-- 早停+  - 早停
  
 ==== 1.8 CNN的应用领域 ==== ==== 1.8 CNN的应用领域 ====
行 308: 行 311:
 **局限性:** **局限性:**
 1. 缺乏全局建模能力(局部感受野限制) 1. 缺乏全局建模能力(局部感受野限制)
 +
 2. 对旋转、尺度变化鲁棒性有限 2. 对旋转、尺度变化鲁棒性有限
 +
 3. 需要大量标注数据 3. 需要大量标注数据
 +
 4. 难以处理非网格数据 4. 难以处理非网格数据
  
 **发展趋势:** **发展趋势:**
 +
 1. **Vision Transformer(ViT)**:用注意力机制替代卷积 1. **Vision Transformer(ViT)**:用注意力机制替代卷积
 +
 2. **ConvNeXt**:结合CNN与Transformer的优点 2. **ConvNeXt**:结合CNN与Transformer的优点
 +
 3. **神经架构搜索(NAS)**:自动设计网络结构 3. **神经架构搜索(NAS)**:自动设计网络结构
 +
 4. **轻量化设计**:MobileNet、ShuffleNet、EfficientNet-Lite 4. **轻量化设计**:MobileNet、ShuffleNet、EfficientNet-Lite
 +
 5. **自监督学习**:减少标注依赖 5. **自监督学习**:减少标注依赖
  
行 324: 行 335:
  
 **题目**:计算以下卷积层的参数量: **题目**:计算以下卷积层的参数量:
-- 输入特征图:$64 \times 64 \times 3$(3通道彩色图像) +  - 输入特征图:$64 \times 64 \times 3$(3通道彩色图像) 
-- 卷积核大小:$5 \times 5$ +  - 卷积核大小:$5 \times 5$ 
-- 输出通道数:64 +  - 输出通道数:64 
-- 使用偏置项+  - 使用偏置项
  
 **分析过程**: **分析过程**:
行 337: 行 348:
  
 权重参数总数 = 输出通道数 $\times$ 卷积核大小 权重参数总数 = 输出通道数 $\times$ 卷积核大小
 +
 $$= C_{out} \times k \times k \times C_{in}$$ $$= C_{out} \times k \times k \times C_{in}$$
 +
 $$= 64 \times 5 \times 5 \times 3$$ $$= 64 \times 5 \times 5 \times 3$$
 +
 $$= 64 \times 75$$ $$= 64 \times 75$$
 +
 $$= 4800$$ $$= 4800$$
  
 **偏置参数**: **偏置参数**:
 +
 每个输出通道有一个偏置值 每个输出通道有一个偏置值
 +
 偏置参数总数 = 输出通道数 = 64 偏置参数总数 = 输出通道数 = 64
  
 **总参数量**: **总参数量**:
 +
 $$4800 + 64 = 4864$$ $$4800 + 64 = 4864$$
  
 **对比全连接层**: **对比全连接层**:
 +
 如果将输入展平为$64 \times 64 \times 3 = 12288$维向量,输出64维,则全连接层参数为: 如果将输入展平为$64 \times 64 \times 3 = 12288$维向量,输出64维,则全连接层参数为:
 +
 $$12288 \times 64 + 64 = 786496$$ $$12288 \times 64 + 64 = 786496$$
  
行 356: 行 376:
  
 **输出特征图尺寸**: **输出特征图尺寸**:
 +
 假设使用same填充($P=2$)和步长$S=1$: 假设使用same填充($P=2$)和步长$S=1$:
 +
 $$H_{out} = \left\lfloor \frac{64 + 2 \times 2 - 5}{1} \right\rfloor + 1 = 64$$ $$H_{out} = \left\lfloor \frac{64 + 2 \times 2 - 5}{1} \right\rfloor + 1 = 64$$
  
行 365: 行 387:
 **题目**:计算以下网络的感受野(从输入到最后一层卷积层): **题目**:计算以下网络的感受野(从输入到最后一层卷积层):
 | 层 | 类型 | 核大小 | 步长 | | 层 | 类型 | 核大小 | 步长 |
-|---|------|--------|------| 
 | 1 | 卷积 | 3×3 | 1 | | 1 | 卷积 | 3×3 | 1 |
 | 2 | 池化 | 2×2 | 2 | | 2 | 池化 | 2×2 | 2 |
行 432: 行 453:
  
 更深层的理论解释: 更深层的理论解释:
-- 残差函数$F(x)$通常比原始映射$H(x)$更接近零,具有更小的数值范围 +  - 残差函数$F(x)$通常比原始映射$H(x)$更接近零,具有更小的数值范围 
-- 这缓解了深层网络的梯度消失问题 +  - 这缓解了深层网络的梯度消失问题 
-- 实验表明,添加残差连接后,深层网络(100+层)可以比浅层网络训练得更好+  - 实验表明,添加残差连接后,深层网络(100+层)可以比浅层网络训练得更好
  
 **(2) 维度不匹配的处理** **(2) 维度不匹配的处理**
行 467: 行 488:
  
 关键观察:梯度由两部分组成: 关键观察:梯度由两部分组成:
-- 第一部分$\frac{\partial L}{\partial y}$直接传递梯度(捷径) +  - 第一部分$\frac{\partial L}{\partial y}$直接传递梯度(捷径) 
-- 第二部分通过残差路径传递+  - 第二部分通过残差路径传递
  
 这意味着即使$\frac{\partial F}{\partial x}$很小,梯度仍能通过恒等连接有效传播,缓解了梯度消失问题。 这意味着即使$\frac{\partial F}{\partial x}$很小,梯度仍能通过恒等连接有效传播,缓解了梯度消失问题。
行 477: 行 498:
  
 1. 卷积神经网络中,权值共享的主要目的是: 1. 卷积神经网络中,权值共享的主要目的是:
-   A. 增加模型容量 + 
-   B. 减少参数量 +A. 增加模型容量 
-   C. 提高计算速度 + 
-   D. 增加非线性+B. 减少参数量 
 + 
 +C. 提高计算速度 
 + 
 +D. 增加非线性
  
 2. 对于$7 \times 7$的输入,使用$3 \times 3$卷积核、步长2、无填充,输出尺寸为: 2. 对于$7 \times 7$的输入,使用$3 \times 3$卷积核、步长2、无填充,输出尺寸为:
-   A. $5 \times 5$ + 
-   B. $4 \times 4$ +A. $5 \times 5$ 
-   C. $3 \times 3$ + 
-   D. $2 \times 2$+B. $4 \times 4$ 
 + 
 +C. $3 \times 3$ 
 + 
 +D. $2 \times 2$
  
 3. ResNet中解决深层网络训练困难的关键技术是: 3. ResNet中解决深层网络训练困难的关键技术是:
-   A. 批归一化 + 
-   B. 残差连接 +A. 批归一化 
-   C. Dropout + 
-   D. 数据增强+B. 残差连接 
 + 
 +C. Dropout 
 + 
 +D. 数据增强
  
 4. 空洞卷积(Dilated Convolution)的主要优势是: 4. 空洞卷积(Dilated Convolution)的主要优势是:
-   A. 减少计算量 + 
-   B. 扩大感受野 +A. 减少计算量 
-   C. 增加参数量 + 
-   D. 提高精度+B. 扩大感受野 
 + 
 +C. 增加参数量 
 + 
 +D. 提高精度
  
 5. 在VGGNet中,使用两个$3 \times 3$卷积替代一个$5 \times 5$卷积的好处不包括: 5. 在VGGNet中,使用两个$3 \times 3$卷积替代一个$5 \times 5$卷积的好处不包括:
-   A. 参数量减少 + 
-   B. 非线性增加 +A. 参数量减少 
-   C. 感受野不变 + 
-   D. 计算量增加+B. 非线性增加 
 + 
 +C. 感受野不变 
 + 
 +D. 计算量增加
  
 ==== 二、填空题 ==== ==== 二、填空题 ====
行 531: 行 572:
  
 1. **答案:B** 1. **答案:B**
-   解析:权值共享使同一个卷积核在输入的不同位置使用相同参数,大幅减少参数量。+ 
 +解析:权值共享使同一个卷积核在输入的不同位置使用相同参数,大幅减少参数量。
  
 2. **答案:C** 2. **答案:C**
-   解析:$H_{out} = \lfloor \frac{7 + 0 - 3}{2} \rfloor + 1 = \lfloor 2 \rfloor + 1 = 3$+ 
 +解析:$H_{out} = \lfloor \frac{7 + 0 - 3}{2} \rfloor + 1 = \lfloor 2 \rfloor + 1 = 3$
  
 3. **答案:B** 3. **答案:B**
-   解析:残差连接(Skip Connection)是ResNet的核心创新,允许梯度直接传播,解决深层网络的退化问题。+ 
 +解析:残差连接(Skip Connection)是ResNet的核心创新,允许梯度直接传播,解决深层网络的退化问题。
  
 4. **答案:B** 4. **答案:B**
-   解析:空洞卷积在卷积核中插入空洞,可以在不增加参数的情况下扩大感受野。+ 
 +解析:空洞卷积在卷积核中插入空洞,可以在不增加参数的情况下扩大感受野。
  
 5. **答案:D** 5. **答案:D**
-   解析:两个$3 \times 3$卷积参数量为$2 \times 3 \times 3 = 18$,一个$5 \times 5$为25,参数量减少而非增加。+ 
 +解析:两个$3 \times 3$卷积参数量为$2 \times 3 \times 3 = 18$,一个$5 \times 5$为25,参数量减少而非增加。
  
 **二、填空题答案:** **二、填空题答案:**
  
 6. **答案:1** 6. **答案:1**
-   解析:标准卷积输出尺寸公式。+ 
 +解析:标准卷积输出尺寸公式。
  
 7. **答案:**降维(或减少通道数);通道混合(或特征融合) 7. **答案:**降维(或减少通道数);通道混合(或特征融合)
-   解析:$1 \times 1$卷积在Inception中用于减少计算量和混合不同通道的信息。+ 
 +解析:$1 \times 1$卷积在Inception中用于减少计算量和混合不同通道的信息。
  
 8. **答案:**深度(Depthwise);逐点(Pointwise) 8. **答案:**深度(Depthwise);逐点(Pointwise)
-   解析:深度可分离卷积先对每个通道单独卷积,再用$1 \times 1$卷积混合通道。+ 
 +解析:深度可分离卷积先对每个通道单独卷积,再用$1 \times 1$卷积混合通道。
  
 9. **答案:**ReLU;Dropout 9. **答案:**ReLU;Dropout
-   解析:AlexNet首次在大规模CNN中使用ReLU和Dropout。+ 
 +解析:AlexNet首次在大规模CNN中使用ReLU和Dropout。
  
 10. **答案:**$1 \times 1$(或1×1) 10. **答案:**$1 \times 1$(或1×1)
-    解析:全局平均池化对整个特征图取平均,输出单个值。+ 
 +解析:全局平均池化对整个特征图取平均,输出单个值。
  
 **三、计算题答案:** **三、计算题答案:**
  
 11. **解答:** 11. **解答:**
-    权重参数 = $C_{out} \times k \times k \times C_{in}$ + 
-    $= 512 \times 3 \times 3 \times 256$ +权重参数 = $C_{out} \times k \times k \times C_{in}$ 
-    $= 512 \times 9 \times 256$ + 
-    $= 1179648$+$= 512 \times 3 \times 3 \times 256$ 
 + 
 +$= 512 \times 9 \times 256$ 
 + 
 +$= 1179648$
          
-    偏置参数 = 512+偏置参数 = 512
          
-    总参数量 = $1179648 + 512 = 1180160$(约118万)+总参数量 = $1179648 + 512 = 1180160$(约118万)
  
 12. **解答:** 12. **解答:**
-    逐层计算感受野: + 
-    - 初始:$RF_0 = 1$ +逐层计算感受野: 
-    - 第一层:$RF_1 = 1 + (3-1) \times 1 = 3$ +  - 初始:$RF_0 = 1$ 
-    - 第二层:$RF_2 = 3 + (3-1) \times 1 = 5$ +  - 第一层:$RF_1 = 1 + (3-1) \times 1 = 3$ 
-    - 第三层:$RF_3 = 5 + (3-1) \times 1 = 7$+  - 第二层:$RF_2 = 3 + (3-1) \times 1 = 5$ 
 +  - 第三层:$RF_3 = 5 + (3-1) \times 1 = 7$
          
-    最终感受野为$7 \times 7$。+最终感受野为$7 \times 7$。
          
-    验证:三个$3 \times 3$卷积的堆叠等价于一个$7 \times 7$卷积的感受野。+验证:三个$3 \times 3$卷积的堆叠等价于一个$7 \times 7$卷积的感受野。
  
 13. **解答:** 13. **解答:**
-    **标准卷积计算量**: + 
-    输出尺寸:$64 \times 64$,输出通道256 +**标准卷积计算量**: 
-    每个输出点的计算:$3 \times 3 \times 128$次乘加 + 
-    总计算量 = $64 \times 64 \times 256 \times 3 \times 3 \times 128$ +输出尺寸:$64 \times 64$,输出通道256 
-    $= 4096 \times 256 \times 9 \times 128$ + 
-    $= 1207959552$(约12亿次乘加)+每个输出点的计算:$3 \times 3 \times 128$次乘加 
 + 
 +总计算量 = $64 \times 64 \times 256 \times 3 \times 3 \times 128$ 
 + 
 +$= 4096 \times 256 \times 9 \times 128$ 
 + 
 +$= 1207959552$(约12亿次乘加)
          
-    **深度可分离卷积计算量**: +**深度可分离卷积计算量**: 
-    深度卷积:$64 \times 64 \times 128 \times 3 \times 3 = 4718592$ + 
-    逐点卷积:$64 \times 64 \times 128 \times 256 = 134217728$ +深度卷积:$64 \times 64 \times 128 \times 3 \times 3 = 4718592$ 
-    总计算量 = $138936320$(约1.39亿次)+ 
 +逐点卷积:$64 \times 64 \times 128 \times 256 = 134217728$ 
 + 
 +总计算量 = $138936320$(约1.39亿次)
          
-    深度可分离卷积计算量约为标准卷积的11.5%,显著降低了计算开销。+深度可分离卷积计算量约为标准卷积的11.5%,显著降低了计算开销。

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/卷积神经网络.1772460298.txt.gz
  • 最后更改: 2026/03/02 22:04
  • 张叶安