差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:卷积神经网络 [2026/03/02 22:04] – [1.3 CNN的核心组件] 张叶安
+++ 深度学习:卷积神经网络 [2026/03/02 22:15] (当前版本) – [4. 答案与解析] 张叶安
@@ 行 94: / 行 94: @@
 卷积后通常接非线性激活函数：
- - **ReLU**：$f(x) = \max(0, x)$
+  - **ReLU**：$f(x) = \max(0, x)$
-   - 计算简单，缓解梯度消失
+    - 计算简单，缓解梯度消失
-   - 可能导致"神经元死亡"
+    - 可能导致"神经元死亡"
- - **Leaky ReLU**：$f(x) = \max(\alpha x, x)$，$\alpha$通常取0.01
+  - **Leaky ReLU**：$f(x) = \max(\alpha x, x)$，$\alpha$通常取0.01
-   - 解决ReLU的死亡问题
+    - 解决ReLU的死亡问题
- - **PReLU**：可学习的$\alpha$
+  - **PReLU**：可学习的$\alpha$
- - **ELU**：$f(x) = x$ if $x \geq 0$ else $\alpha(e^x - 1)$
+  - **ELU**：$f(x) = x$ if $x \geq 0$ else $\alpha(e^x - 1)$
-   - 输出均值接近零，加速收敛
+    - 输出均值接近零，加速收敛
- - **GELU**：平滑的ReLU变体，在Transformer中常用
+  - **GELU**：平滑的ReLU变体，在Transformer中常用
 **1.3.3 池化层（Pooling Layer）**
@@ 行 114: / 行 114: @@
 **平均池化（Average Pooling）**：
-$$Y[i, j] = \frac{1}{k^2} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i \cdot S + m, j \cdot S + n]$
+$$Y[i, j] = \frac{1}{k^2} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i \cdot S + m, j \cdot S + n]$$
 **全局池化**：对整个特征图进行池化，输出$1 \times 1$
@@ 行 131: / 行 131: @@
 结构：Conv → Pool → Conv → Pool → FC → FC → Output
-- 输入：$32 \times 32$灰度图像
+  - 输入：$32 \times 32$灰度图像
-- 参数：约6万个
+  - 参数：约6万个
-- 应用：手写数字识别（MNIST）
+  - 应用：手写数字识别（MNIST）
 **1.4.2 AlexNet（2012）**
 突破：ReLU、Dropout、GPU训练、数据增强
 结构：5个卷积层 + 3个全连接层
-- 输入：$227 \times 227 \times 3$
+  - 输入：$227 \times 227 \times 3$
-- 参数：约6000万个
+  - 参数：约6000万个
-- Top-5错误率：15.3%（第二名26.2%）
+  - Top-5错误率：15.3%（第二名26.2%）
 **1.4.3 VGGNet（2014）**
 核心理念：使用小卷积核（$3 \times 3$）堆叠替代大卷积核
-- VGG-16：13个卷积层 + 3个全连接层
+  - VGG-16：13个卷积层 + 3个全连接层
-- VGG-19：16个卷积层 + 3个全连接层
+  - VGG-19：16个卷积层 + 3个全连接层
-- 参数：VGG-16约1.38亿个
+  - 参数：VGG-16约1.38亿个
 两个$3 \times 3$卷积的 receptive field 等于一个$5 \times 5$卷积，但参数量更少，非线性更强。
@@ 行 155: / 行 156: @@
 创新：Inception模块、$1 \times 1$卷积、辅助分类器
-- 22层深度
+  - 22层深度
-- 参数：约500万个（远小于VGG）
+  - 参数：约500万个（远小于VGG）
-- Inception模块并行使用不同尺寸的卷积核
+  - Inception模块并行使用不同尺寸的卷积核
 Inception模块结构：
-```
+<code>
 输入 → [1×1卷积]
     → [1×1卷积 → 3×3卷积]
@@ 行 166: / 行 167: @@
     → [MaxPool → 1×1卷积]
     → 通道拼接
-```
+</code>
 **1.4.5 ResNet（2015）**
@@ 行 180: / 行 181: @@
 变体：
-- ResNet-18/34：基本残差块
+  - ResNet-18/34：基本残差块
-- ResNet-50/101/152：瓶颈残差块（Bottleneck）
+  - ResNet-50/101/152：瓶颈残差块（Bottleneck）
-  - 使用$1 \times 1$卷积降维/升维
+    - 使用$1 \times 1$卷积降维/升维
-  - 结构：$1 \times 1$（降维）→ $3 \times 3$ → $1 \times 1$（升维）
+    - 结构：$1 \times 1$（降维）→ $3 \times 3$ → $1 \times 1$（升维）
 **1.4.6 DenseNet（2017）**
 密集连接：每一层与前面所有层相连
 $$x_l = H_l([x_0, x_1, ..., x_{l-1}])$$
@@ 行 195: / 行 197: @@
 复合缩放：同时缩放网络的深度、宽度和分辨率
-- 使用神经架构搜索（NAS）找到基础网络
+  - 使用神经架构搜索（NAS）找到基础网络
-- 通过复合系数统一缩放
+  - 通过复合系数统一缩放
 ==== 1.5 感受野与特征层次 ====
@@ 行 205: / 行 207: @@
 计算：第$l$层的感受野
 $$RF_l = RF_{l-1} + (k_l - 1) \times \prod_{i=1}^{l-1} s_i$$
@@ 行 211: / 行 214: @@
 **特征层次：**
-- **浅层**（低层）：边缘、角点、纹理等低级特征
+  - **浅层**（低层）：边缘、角点、纹理等低级特征
-- **中层**：纹理模式、简单形状
+  - **中层**：纹理模式、简单形状
-- **高层**：物体部件、语义概念
+  - **高层**：物体部件、语义概念
 这种层次结构使CNN能够从简单特征构建复杂表示。
@@ 行 231: / 行 234: @@
 用于上采样，是卷积的逆操作（非数学逆）：
-- 别名：反卷积（Deconvolution）、分数步长卷积
+  - 别名：反卷积（Deconvolution）、分数步长卷积
-- 应用：图像生成、语义分割的上采样
+  - 应用：图像生成、语义分割的上采样
 **1.6.3 可分离卷积（Separable Convolution）**
 将标准卷积分解为深度卷积（Depthwise）和逐点卷积（Pointwise）：
-- 深度卷积：对每个输入通道单独卷积
+  - 深度卷积：对每个输入通道单独卷积
-- 逐点卷积：$1 \times 1$卷积混合通道
+  - 逐点卷积：$1 \times 1$卷积混合通道
 计算量大幅减少，MobileNet的核心技术。
@@ 行 245: / 行 248: @@
 将输入通道分组，每组独立卷积：
-- AlexNet中使用（GPU内存限制）
+  - AlexNet中使用（GPU内存限制）
-- ResNeXt的核心
+  - ResNeXt的核心
-- 当组数等于通道数时，即为深度可分离卷积
+  - 当组数等于通道数时，即为深度可分离卷积
 ==== 1.7 CNN的训练与优化 ====
@@ 行 253: / 行 256: @@
 **1.7.1 权重初始化**
-- **Xavier/Glorot初始化**：根据输入输出维度调整初始化范围
+  - **Xavier/Glorot初始化**：根据输入输出维度调整初始化范围
-  $$W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}, \frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}\right]$$
+$$W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}, \frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}\right]$$
-- **He初始化**：专为ReLU设计
+  - **He初始化**：专为ReLU设计
-  $$W \sim N(0, \sqrt{2/n_{in}})$$
+$$W \sim N(0, \sqrt{2/n_{in}})$$
 **1.7.2 学习率调度**
-- 阶梯衰减（Step decay）
+  - 阶梯衰减（Step decay）
-- 指数衰减
+  - 指数衰减
-- 余弦退火（Cosine annealing）
+  - 余弦退火（Cosine annealing）
-- 学习率预热（Warmup）
+  - 学习率预热（Warmup）
 **1.7.3 正则化策略**
-- L2权重衰减
+  - L2权重衰减
-- Dropout
+  - Dropout
-- 数据增强
+  - 数据增强
-- 标签平滑
+  - 标签平滑
-- 早停
+  - 早停
 ==== 1.8 CNN的应用领域 ====
@@ 行 308: / 行 311: @@
 **局限性：**
 . 缺乏全局建模能力（局部感受野限制）
 . 对旋转、尺度变化鲁棒性有限
 . 需要大量标注数据
 . 难以处理非网格数据
 **发展趋势：**
 . **Vision Transformer（ViT）**：用注意力机制替代卷积
 . **ConvNeXt**：结合CNN与Transformer的优点
 . **神经架构搜索（NAS）**：自动设计网络结构
 . **轻量化设计**：MobileNet、ShuffleNet、EfficientNet-Lite
 . **自监督学习**：减少标注依赖
@@ 行 324: / 行 335: @@
 **题目**：计算以下卷积层的参数量：
-- 输入特征图：$64 \times 64 \times 3$（3通道彩色图像）
+  - 输入特征图：$64 \times 64 \times 3$（3通道彩色图像）
-- 卷积核大小：$5 \times 5$
+  - 卷积核大小：$5 \times 5$
-- 输出通道数：64
+  - 输出通道数：64
-- 使用偏置项
+  - 使用偏置项
 **分析过程**：
@@ 行 337: / 行 348: @@
 权重参数总数 = 输出通道数 $\times$ 卷积核大小
 $$= C_{out} \times k \times k \times C_{in}$$
 $$= 64 \times 5 \times 5 \times 3$$
 $$= 64 \times 75$$
 $$= 4800$$
 **偏置参数**：
 每个输出通道有一个偏置值
 偏置参数总数 = 输出通道数 = 64
 **总参数量**：
 $$4800 + 64 = 4864$$
 **对比全连接层**：
 如果将输入展平为$64 \times 64 \times 3 = 12288$维向量，输出64维，则全连接层参数为：
 $$12288 \times 64 + 64 = 786496$$
@@ 行 356: / 行 376: @@
 **输出特征图尺寸**：
 假设使用same填充（$P=2$）和步长$S=1$：
 $$H_{out} = \left\lfloor \frac{64 + 2 \times 2 - 5}{1} \right\rfloor + 1 = 64$$
@@ 行 365: / 行 387: @@
 **题目**：计算以下网络的感受野（从输入到最后一层卷积层）：
 | 层 | 类型 | 核大小 | 步长 |
-|---|------|--------|------|
 | 1 | 卷积 | 3×3 | 1 |
 | 2 | 池化 | 2×2 | 2 |
@@ 行 432: / 行 453: @@
 更深层的理论解释：
-- 残差函数$F(x)$通常比原始映射$H(x)$更接近零，具有更小的数值范围
+  - 残差函数$F(x)$通常比原始映射$H(x)$更接近零，具有更小的数值范围
-- 这缓解了深层网络的梯度消失问题
+  - 这缓解了深层网络的梯度消失问题
-- 实验表明，添加残差连接后，深层网络（100+层）可以比浅层网络训练得更好
+  - 实验表明，添加残差连接后，深层网络（100+层）可以比浅层网络训练得更好
 **(2) 维度不匹配的处理**
@@ 行 467: / 行 488: @@
 关键观察：梯度由两部分组成：
-- 第一部分$\frac{\partial L}{\partial y}$直接传递梯度（捷径）
+  - 第一部分$\frac{\partial L}{\partial y}$直接传递梯度（捷径）
-- 第二部分通过残差路径传递
+  - 第二部分通过残差路径传递
 这意味着即使$\frac{\partial F}{\partial x}$很小，梯度仍能通过恒等连接有效传播，缓解了梯度消失问题。
@@ 行 477: / 行 498: @@
 . 卷积神经网络中，权值共享的主要目的是：
-   A. 增加模型容量
-   B. 减少参数量
+A. 增加模型容量
-   C. 提高计算速度
-   D. 增加非线性
+B. 减少参数量
+C. 提高计算速度
+D. 增加非线性
 . 对于$7 \times 7$的输入，使用$3 \times 3$卷积核、步长2、无填充，输出尺寸为：
-   A. $5 \times 5$
-   B. $4 \times 4$
+A. $5 \times 5$
-   C. $3 \times 3$
-   D. $2 \times 2$
+B. $4 \times 4$
+C. $3 \times 3$
+D. $2 \times 2$
 . ResNet中解决深层网络训练困难的关键技术是：
-   A. 批归一化
-   B. 残差连接
+A. 批归一化
-   C. Dropout
-   D. 数据增强
+B. 残差连接
+C. Dropout
+D. 数据增强
 . 空洞卷积（Dilated Convolution）的主要优势是：
-   A. 减少计算量
-   B. 扩大感受野
+A. 减少计算量
-   C. 增加参数量
-   D. 提高精度
+B. 扩大感受野
+C. 增加参数量
+D. 提高精度
 . 在VGGNet中，使用两个$3 \times 3$卷积替代一个$5 \times 5$卷积的好处不包括：
-   A. 参数量减少
-   B. 非线性增加
+A. 参数量减少
-   C. 感受野不变
-   D. 计算量增加
+B. 非线性增加
+C. 感受野不变
+D. 计算量增加
 ==== 二、填空题 ====
@@ 行 531: / 行 572: @@
 . **答案：B**
-   解析：权值共享使同一个卷积核在输入的不同位置使用相同参数，大幅减少参数量。
+解析：权值共享使同一个卷积核在输入的不同位置使用相同参数，大幅减少参数量。
 . **答案：C**
-   解析：$H_{out} = \lfloor \frac{7 + 0 - 3}{2} \rfloor + 1 = \lfloor 2 \rfloor + 1 = 3$
+解析：$H_{out} = \lfloor \frac{7 + 0 - 3}{2} \rfloor + 1 = \lfloor 2 \rfloor + 1 = 3$
 . **答案：B**
-   解析：残差连接（Skip Connection）是ResNet的核心创新，允许梯度直接传播，解决深层网络的退化问题。
+解析：残差连接（Skip Connection）是ResNet的核心创新，允许梯度直接传播，解决深层网络的退化问题。
 . **答案：B**
-   解析：空洞卷积在卷积核中插入空洞，可以在不增加参数的情况下扩大感受野。
+解析：空洞卷积在卷积核中插入空洞，可以在不增加参数的情况下扩大感受野。
 . **答案：D**
-   解析：两个$3 \times 3$卷积参数量为$2 \times 3 \times 3 = 18$，一个$5 \times 5$为25，参数量减少而非增加。
+解析：两个$3 \times 3$卷积参数量为$2 \times 3 \times 3 = 18$，一个$5 \times 5$为25，参数量减少而非增加。
 **二、填空题答案：**
 . **答案：1**
-   解析：标准卷积输出尺寸公式。
+解析：标准卷积输出尺寸公式。
 . **答案：**降维（或减少通道数）；通道混合（或特征融合）
-   解析：$1 \times 1$卷积在Inception中用于减少计算量和混合不同通道的信息。
+解析：$1 \times 1$卷积在Inception中用于减少计算量和混合不同通道的信息。
 . **答案：**深度（Depthwise）；逐点（Pointwise）
-   解析：深度可分离卷积先对每个通道单独卷积，再用$1 \times 1$卷积混合通道。
+解析：深度可分离卷积先对每个通道单独卷积，再用$1 \times 1$卷积混合通道。
 . **答案：**ReLU；Dropout
-   解析：AlexNet首次在大规模CNN中使用ReLU和Dropout。
+解析：AlexNet首次在大规模CNN中使用ReLU和Dropout。
 . **答案：**$1 \times 1$（或1×1）
-    解析：全局平均池化对整个特征图取平均，输出单个值。
+解析：全局平均池化对整个特征图取平均，输出单个值。
 **三、计算题答案：**
 . **解答：**
-    权重参数 = $C_{out} \times k \times k \times C_{in}$
-    $= 512 \times 3 \times 3 \times 256$
+权重参数 = $C_{out} \times k \times k \times C_{in}$
-    $= 512 \times 9 \times 256$
-    $= 1179648$
+$= 512 \times 3 \times 3 \times 256$
+$= 512 \times 9 \times 256$
+$= 1179648$
-    偏置参数 = 512
+偏置参数 = 512
-    总参数量 = $1179648 + 512 = 1180160$（约118万）
+总参数量 = $1179648 + 512 = 1180160$（约118万）
 . **解答：**
-    逐层计算感受野：
-    - 初始：$RF_0 = 1$
+逐层计算感受野：
-    - 第一层：$RF_1 = 1 + (3-1) \times 1 = 3$
+  - 初始：$RF_0 = 1$
-    - 第二层：$RF_2 = 3 + (3-1) \times 1 = 5$
+  - 第一层：$RF_1 = 1 + (3-1) \times 1 = 3$
-    - 第三层：$RF_3 = 5 + (3-1) \times 1 = 7$
+  - 第二层：$RF_2 = 3 + (3-1) \times 1 = 5$
+  - 第三层：$RF_3 = 5 + (3-1) \times 1 = 7$
-    最终感受野为$7 \times 7$。
+最终感受野为$7 \times 7$。
-    验证：三个$3 \times 3$卷积的堆叠等价于一个$7 \times 7$卷积的感受野。
+验证：三个$3 \times 3$卷积的堆叠等价于一个$7 \times 7$卷积的感受野。
 . **解答：**
-    **标准卷积计算量**：
-    输出尺寸：$64 \times 64$，输出通道256
+**标准卷积计算量**：
-    每个输出点的计算：$3 \times 3 \times 128$次乘加
-    总计算量 = $64 \times 64 \times 256 \times 3 \times 3 \times 128$
+输出尺寸：$64 \times 64$，输出通道256
-    $= 4096 \times 256 \times 9 \times 128$
-    $= 1207959552$（约12亿次乘加）
+每个输出点的计算：$3 \times 3 \times 128$次乘加
+总计算量 = $64 \times 64 \times 256 \times 3 \times 3 \times 128$
+$= 4096 \times 256 \times 9 \times 128$
+$= 1207959552$（约12亿次乘加）
-    **深度可分离卷积计算量**：
+**深度可分离卷积计算量**：
-    深度卷积：$64 \times 64 \times 128 \times 3 \times 3 = 4718592$
-    逐点卷积：$64 \times 64 \times 128 \times 256 = 134217728$
+深度卷积：$64 \times 64 \times 128 \times 3 \times 3 = 4718592$
-    总计算量 = $138936320$（约1.39亿次）
+逐点卷积：$64 \times 64 \times 128 \times 256 = 134217728$
+总计算量 = $138936320$（约1.39亿次）
-    深度可分离卷积计算量约为标准卷积的11.5%，显著降低了计算开销。
+深度可分离卷积计算量约为标准卷积的11.5%，显著降低了计算开销。

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客