差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:扩散模型:class1 [2026/03/13 13:42] – [前向过程单步公式讲解] 张叶安
+++ 深度学习:扩散模型:class1 [2026/04/01 13:15] (当前版本) – [前向过程单步公式讲解] 张叶安
@@ 行 1: / 行 1: @@
+====== 显示图片 ======
 <code>
 import torch                              # 导入 PyTorch 库，用于张量操作
@@ 行 46: / 行 48: @@
 TensorFlow：(𝐻,𝑊,3)
+====== 对称处理 ======
 为了让数据和高斯噪声处在同一个零中心对称空间里，要对像素值进行仿射变换：
@@ 行 54: / 行 59: @@
 现在想它取值范围为[-1,1]
+变换形式为$y=ax+b$
+当$x=0$时，$y=-1$,当$x=1$时，$y=1$
+$y=2x-1$,$x=\frac{1}{2}y+\frac{1}{2}$
 仿射变换矩阵为：
@@ 行 131: / 行 142: @@
 可以看出图片的形状没有变
+====== 扩散过程 ======
 扩散过程是基于一个**方差调度表**构建的，这个调度表决定了在扩散过程的每一个时间步中加入噪声的强度。为此，我们定义如下几个量：
-  * `betas`：$\beta_t$
+  * betas：$\beta_t$
-  * `alphas`：$\alpha_t = 1 - \beta_t$
+  * alphas：$\alpha_t = 1 - \beta_t$
-  * `alphas_sqrt`：$\sqrt{\alpha_t}$
+  * alphas_sqrt：$\sqrt{\alpha_t}$
-  * `alphas_prod`：$\bar{\alpha}_t = \prod_{i=0}^{t}\alpha_i$
+  * alphas_prod：$\bar{\alpha}_t = \prod_{i=0}^{t}\alpha_i$
-  * `alphas_prod_sqrt`：$\sqrt{\bar{\alpha}_t}$
+  * alphas_prod_sqrt：$\sqrt{\bar{\alpha}_t}$
@@ 行 144: / 行 156: @@
-. `betas`：$\beta_t$
+. betas：$\beta_t$
 它表示**第 $t$ 步加入噪声的强度**，也可以理解为该步的“噪声方差比例”。
@@ 行 158: / 行 170: @@
-. `alphas`：$\alpha_t = 1 - \beta_t$
+. alphas：$\alpha_t = 1 - \beta_t$
 它表示**第 $t$ 步保留下来的原始信号比例**。
@@ 行 179: / 行 191: @@
-. `alphas_sqrt`：$\sqrt{\alpha_t}$
+. alphas_sqrt：$\sqrt{\alpha_t}$
 这个量是在实际加噪公式里直接使用的系数。
@@ 行 191: / 行 203: @@
   * $x_{t-1}$ 是上一步图像
   * $x_t$ 是当前这一步加噪后的图像
-  * $\epsilon_t \sim \mathcal{N}(0, I)$ 是高斯噪声
+  * $\epsilon_t \sim \mathcal{N}(0, I)$ 是高斯噪声(符合[[概率论:随机变量及其分布#2.4.3 常见连续型分布|高斯分布]]的噪声)
 **直观理解：**
@@ 行 197: / 行 209: @@
 $\sqrt{\alpha_t}$ 是**上一步图像在当前步中的保留权重**。
-之所以取平方根，是因为扩散模型里控制的是**方差**，而真正乘在样本上的系数是标准差，所以会出现平方根。
+之所以取平方根，是因为扩散模型里控制的是[[概率论:数字特征#4.2 方差|方差]]，而真正乘在样本上的系数是标准差，所以会出现平方根。
+注：变量乘以标准差，才能得到对应的方差。如X=>3X，方差是原来的9倍。
-. `alphas_prod`：$\bar{\alpha}_t = \prod_{i=0}^{t}\alpha_i$
+. alphas_prod：$\bar{\alpha}_t = \prod_{i=0}^{t}\alpha_i$
 它表示从第 $0$ 步到第 $t$ 步，**所有保留比例连乘之后的结果**。
@@ 行 218: / 行 234: @@
-. `alphas_prod_sqrt`：$\sqrt{\bar{\alpha}_t}$
+. alphas_prod_sqrt：$\sqrt{\bar{\alpha}_t}$
 这个量是从原图 $x_0$ 直接生成第 $t$ 步噪声图 $x_t$ 时的关键系数。
@@ 行 559: / 行 575: @@
-反向过程
+====== 反向过程 ======
 反向过程 $p$ 的目的是：根据扩散链中的当前样本 $x_t$，去近似恢复前一步的样本 $x_{t-1}$。在实际情况下，这种近似 $p(x_{t-1}|x_t)$ 必须在不知道 $x_0$ 的前提下完成。
@@ 行 689: / 行 706: @@
 <code python>
-x_0_pred = (x_t - (1 - alphas_cumprod[t_step]).sqrt() * noise) / (alphas_cumprod_sqrt[t_step])
+import torch                              # 导入 PyTorch 库，用于张量操作
+import torch.nn.functional as F           # 导入 PyTorch 的函数式 API
+import numpy as np                        # 导入 NumPy 库，用于数值计算
+import matplotlib as mpl                  # 导入 Matplotlib 库的主模块
+import matplotlib.pyplot as plt           # 导入 Matplotlib 的绘图模块
+import imageio.v2 as imageio              # 导入 imageio 库，用于读取图片文件
-plt.subplot(1,3,1)
+mpl.rcParams['figure.figsize'] = (12, 8)  # 设置 Matplotlib 图表默认尺寸
-show(x_t)
-plt.title('$x_t$ ($\ell_1$: {:.3f})'.format(F.l1_loss(x_t, img_)))
-plt.axis('off')
-plt.subplot(1,3,2)
+# 读取图片，像素值归一化到[0,1]，转为 PyTorch 浮点张量
-show(x_0_pred)
+img = torch.FloatTensor(imageio.imread('imgs/hills_2.png') / 255)
-plt.title('$x_0$ prediction ($\ell_1$: {:.3f})'.format(F.l1_loss(x_0_pred, img_)))
-plt.axis('off')
+# 值域转换函数：将图像从 [0,1] 转换到 [-1,+1]（扩散模型标准输入值域）
+def input_T(input):
+    # [0,1] -> [-1,+1]
+    return 2 * input - 1
+# 值域转换函数：将图像从 [-1,+1] 转换到 [0,1]（用于显示）
+def output_T(input):
+    # [-1,+1] -> [0,1]
+    return (input + 1) / 2
+# 显示图像函数，自动转换值域并裁剪到 [0,1]
+def show(input):
+    plt.imshow(output_T(input).clip(0, 1))
+# ========== 扩散模型超参数设置 ==========
+T = 100  # 时间步总数
+# 定义 beta 调度（线性调度）
+betas = torch.linspace(0.0001, 0.02, T)  # 从 0.0001 线性增加到 0.02
+# 计算 alpha 相关参数
+alphas = 1 - betas                       # alpha_t = 1 - beta_t
+alphas_cumprod = torch.cumprod(alphas, dim=0)  # 累积乘积：ᾱ_t = ∏(1-β_s)
+alphas_cumprod_sqrt = torch.sqrt(alphas_cumprod)  # √ᾱ_t
+# 设置前向跳转的时间步
+t_step = 50
+def forward_jump(t, condition_img, return_noise=False):
+    """
+        forward jump: 0 -> t
+        直接跳转加噪：从初始时刻 0 直接加噪到时刻 t
+        根据扩散模型公式：x_t = √ᾱ_t * x_0 + √(1-ᾱ_t) * ε
+        其中 ε ~ N(0, I)
+    """
+    assert t >= 0
+    mean = alphas_cumprod_sqrt[t] * condition_img
+    std = (1 - alphas_cumprod[t]).sqrt()
+    # 从正态分布采样
+    if not return_noise:
+        return mean + std * torch.randn_like(condition_img)
+    else:
+        noise = torch.randn_like(condition_img)
+        return mean + std * noise, noise
+# ========== 主程序 ==========
+if __name__ == "__main__":
+    # 将图像转换到 [-1, 1] 值域
+    img_ = input_T(img)
+    # 执行前向跳转加噪，获取加噪后的图像和噪声
+    x_t, noise = forward_jump(t_step, img_, return_noise=True)
+    # 根据 x_t 和噪声预测 x_0
+    # 由 x_t = √ᾱ_t * x_0 + √(1-ᾱ_t) * ε 可得：
+    # x_0 = (x_t - √(1-ᾱ_t) * ε) / √ᾱ_t
+    x_0_pred = (x_t - (1 - alphas_cumprod[t_step]).sqrt() * noise) / alphas_cumprod_sqrt[t_step]
+    # 可视化结果：x_t（加噪图像）、x_0 预测值、原始 x_0
+    plt.subplot(1, 3, 1)
+    show(x_t)
+    plt.title(r'$x_t$ ($\ell_1$: {:.3f})'.format(F.l1_loss(x_t, img_)))
+    plt.axis('off')
+    plt.subplot(1, 3, 2)
+    show(x_0_pred)
+    plt.title(r'$x_0$ prediction ($\ell_1$: {:.3f})'.format(F.l1_loss(x_0_pred, img_)))
+    plt.axis('off')
+    plt.subplot(1, 3, 3)
+    show(img_)
+    plt.title(r'$x_0$')
+    plt.axis('off')
+    plt.suptitle(f'x_0 Prediction from x_t (t={t_step})', y=0.98)
+    plt.tight_layout()
+    plt.show()
-plt.subplot(1,3,3)
-show(img_)
-plt.title('$x_0$')
-plt.axis('off')
 </code>
+{{.:pasted:20260313-134755.png}}
 这里的含义是：
@@ 行 766: / 行 866: @@
 plt.title(r'$\mu_{t-1}$' + '  ($\ell_1$: {:.3f})'.format(F.l1_loss(mean_gt, img_)))
 </code>
+{{.:pasted:20260313-135602.png}}
 这三幅图分别表示：
@@ 行 983: / 行 1085: @@
 也就是说，它实现了扩散模型中的一次“去噪反推”。
+{{.:pasted:20260313-135843.png}}
+{{.:pasted:20260313-135917.png}}

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客