差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 深度学习:深度学习前沿 [2026/03/02 20:32] – 创建张叶安
+++ 深度学习:深度学习前沿 [2026/03/03 13:24] (当前版本) – 张叶安
@@ 行 22: / 行 22: @@
 **GPT架构演进**：
-- **GPT-1**（2018，1.17亿参数）：证明预训练+微调的通用范式
+  - **GPT-1**（2018，1.17亿参数）：证明预训练+微调的通用范式
-- **GPT-2**（2019，15亿参数）：展现零样本能力，提出"无监督多任务学习"
+  - **GPT-2**（2019，15亿参数）：展现零样本能力，提出"无监督多任务学习"
-- **GPT-3**（2020，1750亿参数）：开启大模型时代，展现惊人的少样本学习能力
+  - **GPT-3**（2020，1750亿参数）：开启大模型时代，展现惊人的少样本学习能力
-- **GPT-4**（2023，估计万亿级参数）：多模态能力，接近人类水平的通用智能
+  - **GPT-4**（2023，估计万亿级参数）：多模态能力，接近人类水平的通用智能
 **自回归语言建模**的目标是最大化序列的联合概率：
@@ 行 34: / 行 34: @@
 **上下文学习（In-Context Learning）**是大语言模型的革命性能力。通过在提示（Prompt）中提供示例，模型无需参数更新就能学习任务。包括：
-- **零样本（Zero-shot）**：直接描述任务，无示例
+  - **零样本（Zero-shot）**：直接描述任务，无示例
-- **少样本（Few-shot）**：提供少量示例（通常3-10个）
+  - **少样本（Few-shot）**：提供少量示例（通常3-10个）
-- **思维链（Chain-of-Thought）**：引导模型展示推理过程
+  - **思维链（Chain-of-Thought）**：引导模型展示推理过程
 ==== 14.1.3 对齐技术与RLHF ====
@@ 行 45: / 行 45: @@
 **阶段1：监督微调（SFT）**
 收集高质量的指令-响应对，对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。
 **阶段2：奖励模型训练**
 训练一个奖励模型（Reward Model, RM）来评估响应质量。收集人类偏好数据：对于同一输入的两个不同响应，标注者选择更好的一个。奖励模型学习预测人类偏好：
@@ 行 55: / 行 57: @@
 **阶段3：强化学习优化**
 使用PPO算法优化语言模型策略，最大化奖励模型的评分：
@@ 行 62: / 行 65: @@
 **RLHF的改进方向**：
-- **DPO（Direct Preference Optimization）**：直接优化策略，无需显式训练奖励模型
+  - **DPO（Direct Preference Optimization）**：直接优化策略，无需显式训练奖励模型
-- **RLAIF（RL from AI Feedback）**：使用AI而非人类生成偏好数据
+  - **RLAIF（RL from AI Feedback）**：使用AI而非人类生成偏好数据
-- **Constitutional AI**：让AI根据原则自我修正
+  - **Constitutional AI**：让AI根据原则自我修正
 ==== 14.1.4 多模态大模型 ====
@@ 行 71: / 行 74: @@
 **视觉-语言模型**：
-- **CLIP**（Contrastive Language-Image Pre-training）：通过对比学习将图像和文本映射到共享嵌入空间
+  - **CLIP**（Contrastive Language-Image Pre-training）：通过对比学习将图像和文本映射到共享嵌入空间
-- **DALL-E系列**：文本到图像生成，DALL-E 3结合ChatGPT实现精确控制
+  - **DALL-E系列**：文本到图像生成，DALL-E 3结合ChatGPT实现精确控制
-- **GPT-4V**：具备视觉理解能力的大语言模型
+  - **GPT-4V**：具备视觉理解能力的大语言模型
-- **LLaVA、MiniGPT-4**：开源视觉-语言助手
+  - **LLaVA、MiniGPT-4**：开源视觉-语言助手
 **统一架构**：
 多模态模型通常采用**编码器-投影器-LLM**架构：
 . 使用专门的编码器（如ViT用于图像）提取模态特征
 . 通过投影层（线性层或轻量级网络）将特征对齐到语言空间
 . 大语言模型进行统一的理解和生成
@@ 行 89: / 行 96: @@
 **知识蒸馏（Knowledge Distillation）**：
 让小模型（学生）学习大模型（教师）的行为。不仅学习硬标签，还学习软标签（概率分布）：
@@ 行 96: / 行 104: @@
 **量化（Quantization）**：
 将浮点权重转换为低精度表示（如INT8、INT4）。量化方法包括：
-- **训练后量化（PTQ）**：直接对训练好的模型量化
+  - **训练后量化（PTQ）**：直接对训练好的模型量化
-- **量化感知训练（QAT）**：在训练中模拟量化效应
+  - **量化感知训练（QAT）**：在训练中模拟量化效应
-- **LLM.int8()、GPTQ**：针对大模型的专用量化方法
+  - **LLM.int8()、GPTQ**：针对大模型的专用量化方法
 **剪枝（Pruning）**：
 移除不重要的权重或神经元。分为：
-- **非结构化剪枝**：移除单个权重，需要硬件支持
+  - **非结构化剪枝**：移除单个权重，需要硬件支持
-- **结构化剪枝**：移除整个通道或层，更易部署
+  - **结构化剪枝**：移除整个通道或层，更易部署
 ==== 14.2.2 高效注意力机制 ====
@@ 行 111: / 行 121: @@
 **稀疏注意力**：
-- **局部注意力（Local Attention）**：只关注邻近位置
+  - **局部注意力（Local Attention）**：只关注邻近位置
-- **稀疏模式（Sparse Patterns）**：固定稀疏模式如Longformer的"全局+滑动窗口"
+  - **稀疏模式（Sparse Patterns）**：固定稀疏模式如Longformer的"全局+滑动窗口"
-- **随机注意力（Random Attention）**：随机选择部分位置关注
+  - **随机注意力（Random Attention）**：随机选择部分位置关注
 **线性注意力**：
 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax：
@@ 行 123: / 行 134: @@
 **硬件感知注意力**：
-- **FlashAttention**：通过IO感知的分块计算，减少GPU内存访问
+  - **FlashAttention**：通过IO感知的分块计算，减少GPU内存访问
-- **FlashAttention-2**：进一步优化warps级并行
+  - **FlashAttention-2**：进一步优化warps级并行
 ==== 14.2.3 状态空间模型与RNN复兴 ====
@@ 行 131: / 行 142: @@
 **S4（Structured State Space for Sequence Modeling）**：
 将序列建模视为连续系统的离散化：
@@ 行 142: / 行 154: @@
 **Mamba**：
 选择性状态空间模型，引入输入依赖的选择机制：
@@ 行 153: / 行 166: @@
 **MoE层结构**：
-- 多个专家网络（通常是FFN）
+  - 多个专家网络（通常是FFN）
-- 门控网络（Gating Network）决定激活哪些专家
+  - 门控网络（Gating Network）决定激活哪些专家
 $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$
@@ 行 161: / 行 174: @@
 **负载均衡**：
 为避免所有输入都路由到少数专家，引入负载均衡损失：
@@ 行 168: / 行 182: @@
 **代表性模型**：
-- Switch Transformer：每个token激活1个专家，简单高效
+  - Switch Transformer：每个token激活1个专家，简单高效
-- GLaM、PaLM-E：大规模MoE语言模型
+  - GLaM、PaLM-E：大规模MoE语言模型
-- Mixtral 8x7B：开源MoE模型，性能超越更大稠密模型
+  - Mixtral 8x7B：开源MoE模型，性能超越更大稠密模型
 ===== 14.3 生成模型新进展 =====
@@ 行 179: / 行 193: @@
 **前向扩散过程**：
 逐步向数据添加高斯噪声，经过$T$步后数据接近纯噪声：
@@ 行 186: / 行 201: @@
 **反向去噪过程**：
 学习神经网络逆转扩散过程：
@@ 行 195: / 行 211: @@
 **条件生成**：
-- 类别条件：通过类别嵌入或分类器引导
+  - 类别条件：通过类别嵌入或分类器引导
-- 文本条件：使用CLIP或T5编码文本，通过cross-attention注入
+  - 文本条件：使用CLIP或T5编码文本，通过cross-attention注入
-- Classifier-Free Guidance（CFG）：同时训练条件和无条件生成，推理时插值
+  - Classifier-Free Guidance（CFG）：同时训练条件和无条件生成，推理时插值
 **代表性模型**：
-- DDPM、DDIM：基础扩散模型
+  - DDPM、DDIM：基础扩散模型
-- Stable Diffusion、DALL-E 2/3、Midjourney：图像生成
+  - Stable Diffusion、DALL-E 2/3、Midjourney：图像生成
-- Imagen Video、Make-A-Video：视频生成
+  - Imagen Video、Make-A-Video：视频生成
-- AudioLDM：音频生成
+  - AudioLDM：音频生成
 ==== 14.3.2 流模型与一致性模型 ====
@@ 行 210: / 行 226: @@
 **连续正规化流（Continuous Normalizing Flows, CNF）**：
 用神经网络参数化的常微分方程描述概率流：
@@ 行 219: / 行 236: @@
 **流匹配（Flow Matching）**：
 直接回归条件概率路径，避免求解ODE。训练目标为：
@@ 行 226: / 行 244: @@
 **Rectified Flow**：
 学习将噪声直接映射到数据的直线路径，实现一步或少步生成。
 **一致性模型（Consistency Models）**：
 学习将任意时间步的噪声直接映射回数据空间，实现单步生成。一致性函数$f_{\theta}$满足：
@@ 行 240: / 行 260: @@
 **NeRF表示**：
 场景由MLP参数化，输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$，输出体密度$\sigma$和RGB颜色$c$：
@@ 行 247: / 行 268: @@
 **体积渲染**：
 通过沿光线积分计算像素颜色：
@@ 行 254: / 行 276: @@
 **3D生成模型**：
-- **DreamFusion、Magic3D**：文本到3D生成，使用分数蒸馏采样（SDS）
+  - **DreamFusion、Magic3D**：文本到3D生成，使用分数蒸馏采样（SDS）
-- **Point-E**：基于点云的文本到3D生成
+  - **Point-E**：基于点云的文本到3D生成
-- **Gaussian Splatting**：使用3D高斯表示，实现实时渲染
+  - **Gaussian Splatting**：使用3D高斯表示，实现实时渲染
 ===== 14.4 可解释性与安全 =====
@@ 行 265: / 行 287: @@
 ** mechanistic interpretability（机械可解释性）**：
 试图逆向工程神经网络，理解其内部表示和计算。
 **探测（Probing）**：
 训练简单分类器探测模型内部表示是否包含特定信息：
@@ 行 275: / 行 299: @@
 **注意力可视化**：
 可视化Transformer的注意力权重，观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。
 **归因方法**：
-- **Integrated Gradients**：计算输入特征对输出的积分梯度
+  - **Integrated Gradients**：计算输入特征对输出的积分梯度
-- **SHAP**：基于博弈论的特征重要性
+  - **SHAP**：基于博弈论的特征重要性
-- **LIME**：局部线性近似解释
+  - **LIME**：局部线性近似解释
 ==== 14.4.2 大模型安全与对抗攻击 ====
 **越狱攻击（Jailbreaking）**：
 通过精心设计的提示绕过模型的安全限制。常见技术：
-- **角色扮演**：让模型扮演无道德约束的角色
+  - **角色扮演**：让模型扮演无道德约束的角色
-- **间接注入**：通过外部内容（如网页）注入恶意指令
+  - **间接注入**：通过外部内容（如网页）注入恶意指令
-- **编码绕过**：使用Base64、翻译等方式编码有害内容
+  - **编码绕过**：使用Base64、翻译等方式编码有害内容
 **对抗性攻击**：
 在输入中添加人眼不可见的扰动，导致模型产生错误输出：
@@ 行 296: / 行 323: @@
 **防御技术**：
-- **对抗训练**：在训练中加入对抗样本
+  - **对抗训练**：在训练中加入对抗样本
-- **输入净化**：检测并移除对抗扰动
+  - **输入净化**：检测并移除对抗扰动
-- **红队测试**：系统性寻找模型弱点
+  - **红队测试**：系统性寻找模型弱点
 ==== 14.4.3 机器学习的因果推理 ====
@@ 行 305: / 行 332: @@
 **因果层次**：
-- **关联（Association）**：$P(Y|X)$，看到X时Y的概率
+  - **关联（Association）**：$P(Y|X)$，看到X时Y的概率
-- **干预（Intervention）**：$P(Y|do(X))$，改变X时Y的概率
+  - **干预（Intervention）**：$P(Y|do(X))$，改变X时Y的概率
-- **反事实（Counterfactual）**：$P(Y_{X=x}|X=x', Y=y')$，如果当初做了不同选择会怎样
+  - **反事实（Counterfactual）**：$P(Y_{X=x}|X=x', Y=y')$，如果当初做了不同选择会怎样
 **因果发现**：
 从观测数据中识别因果图结构。常用方法包括：
-- **PC算法**：基于条件独立性测试
+  - **PC算法**：基于条件独立性测试
-- **GES（Greedy Equivalence Search）**：基于评分搜索
+  - **GES（Greedy Equivalence Search）**：基于评分搜索
-- **NOTEARS**：连续优化方法
+  - **NOTEARS**：连续优化方法
 **因果推断方法**：
-- **工具变量（IV）**：利用外生变量识别因果效应
+  - **工具变量（IV）**：利用外生变量识别因果效应
-- **双重机器学习**：结合ML与Neyman正交化
+  - **双重机器学习**：结合ML与Neyman正交化
-- **因果贝叶斯网络**：显式建模因果结构
+  - **因果贝叶斯网络**：显式建模因果结构
 ===== 14.5 例题分析 =====
@@ 行 326: / 行 354: @@
 给定提示模板：
-"""
+<code>
 将以下中文翻译成英文：
 中文：苹果
@@ 行 336: / 行 364: @@
 中文：橘子
 英文：
-"""
+</code>
 **问题**：
 . 这是哪种上下文学习类型？
 . 解释为什么大语言模型能够进行上下文学习
 . 与微调相比，上下文学习的优缺点是什么？
@@ 行 348: / 行 379: @@
 . **上下文学习机制**：
-   - **隐式梯度下降**：研究表明，上下文学习在数学上等价于在元层面进行梯度下降
+  - **隐式梯度下降**：研究表明，上下文学习在数学上等价于在元层面进行梯度下降
-   - **注意力机制**：Transformer的注意力允许模型直接"复制"和"参考"提示中的示例
+  - **注意力机制**：Transformer的注意力允许模型直接"复制"和"参考"提示中的示例
-   - **预训练任务匹配**：预训练中的语言建模任务要求预测下一个token，与给定示例后预测目标类似
+  - **预训练任务匹配**：预训练中的语言建模任务要求预测下一个token，与给定示例后预测目标类似
-   - **任务识别**：模型从示例中识别出"翻译"这一任务类型
+  - **任务识别**：模型从示例中识别出"翻译"这一任务类型
 . **优缺点分析**：
-   | 方面 | 上下文学习 | 微调 |
+| 方面 | 上下文学习 | 微调 |
-   |------|-----------|------|
+| 训练成本 | 无需训练，即时适应 | 需要额外训练 |
-   | 训练成本 | 无需训练，即时适应 | 需要额外训练 |
+| 数据需求 | 少量示例即可 | 需要较多标注数据 |
-   | 数据需求 | 少量示例即可 | 需要较多标注数据 |
+| 灵活性 | 任务切换灵活 | 模型专用于特定任务 |
-   | 灵活性 | 任务切换灵活 | 模型专用于特定任务 |
+| 性能 | 通常低于微调 | 通常更高 |
-   | 性能 | 通常低于微调 | 通常更高 |
+| 上下文长度 | 受限于模型窗口 | 无此限制 |
-   | 上下文长度 | 受限于模型窗口 | 无此限制 |
 **例题2：扩散模型的数学推导**
@@ 行 368: / 行 398: @@
 **问题**：
 . 推导给定$x_0$时$x_t$的条件分布
 . 解释为什么$\bar{\alpha}_t$需要设计为递减序列
 . 若$\bar{\alpha}_T \approx 0$，说明$x_T$的分布
 **解答**：
@@ 行 376: / 行 410: @@
 . **条件分布推导**：
-   给定$x_0$，$x_t$是$x_0$的线性变换加上高斯噪声：
+给定$x_0$，$x_t$是$x_0$的线性变换加上高斯噪声：
-   $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$
+$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$
-   这是高斯分布的仿射变换，因此：
+这是高斯分布的仿射变换，因此：
-   $$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$
+$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$
-   均值：$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$
+均值：$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$
-   方差：$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$
+方差：$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$
 . **$\bar{\alpha}_t$递减的原因**：
-   $\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$，其中$\beta_s \in (0, 1)$是噪声调度参数。
+$\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$，其中$\beta_s \in (0, 1)$是噪声调度参数。
-   - $t=0$：$\bar{\alpha}_0 = 1$，$x_0$是纯数据
+  - $t=0$：$\bar{\alpha}_0 = 1$，$x_0$是纯数据
-   - $t$增加：$\bar{\alpha}_t$减小，数据信号衰减
+  - $t$增加：$\bar{\alpha}_t$减小，数据信号衰减
-   - $t=T$：$\bar{\alpha}_T \approx 0$，$x_T$接近纯噪声
+  - $t=T$：$\bar{\alpha}_T \approx 0$，$x_T$接近纯噪声
    这种设计确保前向过程逐步破坏数据结构，最终达到易采样的先验分布（标准高斯）。
@@ 行 400: / 行 434: @@
 . **$x_T$的分布**：
-   当$\bar{\alpha}_T \approx 0$：
+当$\bar{\alpha}_T \approx 0$：
-   $$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$
+$$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$
-   因此$x_T \sim \mathcal{N}(0, I)$，与数据分布无关。这保证了反向过程可以从标准高斯噪声开始，逐步恢复数据。
+因此$x_T \sim \mathcal{N}(0, I)$，与数据分布无关。这保证了反向过程可以从标准高斯噪声开始，逐步恢复数据。
 **例题3：MoE负载均衡分析**
@@ 行 411: / 行 446: @@
 **问题**：
 . 在Top-2路由下，各专家被激活的概率是多少？
 . 若当前批次有100个token，理想负载下每个专家应处理多少token？
 . 计算此门控分布的负载不均衡程度
@@ 行 419: / 行 457: @@
 . **Top-2激活概率**：
-   Top-2选择专家0和1（概率最高的两个）。
+Top-2选择专家0和1（概率最高的两个）。
-   归一化门控权重：
+归一化门控权重：
-   - 专家0：$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$
-   - 专家1：$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$
+  - 专家0：$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$
-   - 专家2,3：0（不被激活）
+  - 专家1：$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$
+  - 专家2,3：0（不被激活）
 . **理想负载**：
 个token，4个专家，理想情况下每个专家处理$100/4 = 25$个token。
 . **负载不均衡度**：
-   实际token分配（期望）：
+实际token分配（期望）：
-   - 专家0：$100 \times 0.57 = 57$ token
+  - 专家0：$100 \times 0.57 = 57$ token
-   - 专家1：$100 \times 0.43 = 43$ token
+  - 专家1：$100 \times 0.43 = 43$ token
-   - 专家2,3：0 token
+  - 专家2,3：0 token
-   负载均衡损失（简化版）：
+负载均衡损失（简化版）：
-   使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$，理想均匀分布的熵为$\log 4 \approx 1.39$。
+使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$，理想均匀分布的熵为$\log 4 \approx 1.39$。
-   实际概率分布（按门控）：$p = [0.4, 0.3, 0.2, 0.1]$
+实际概率分布（按门控）：$p = [0.4, 0.3, 0.2, 0.1]$
-   $H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$
+$H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$
-   $= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$
+$= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$
-   $= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$
+$= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$
-   相对理想熵的比例：$1.28 / 1.39 \approx 0.92$，说明有轻微不均衡。
+相对理想熵的比例：$1.28 / 1.39 \approx 0.92$，说明有轻微不均衡。
 ===== 14.6 训练题 =====
@@ 行 487: / 行 526: @@
 ==== 14.6.2 填空题 ====
-. 规模化定律表明，语言模型性能与模型参数和数据量呈________关系。
+. 规模化定律表明，语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。
-. 在RLHF中，SFT阶段使用________数据进行训练，RL阶段使用________信号优化。
+. 在RLHF中，SFT阶段使用$\_\_\_\_$数据进行训练，RL阶段使用$\_\_\_\_$信号优化。
-. 知识蒸馏中的温度参数$T$用于________概率分布，传递更多类别相似性信息。
+. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布，传递更多类别相似性信息。
-. 扩散模型的反向过程学习一个________网络，用于逐步去除噪声。
+. 扩散模型的反向过程学习一个$\_\_\_\_$网络，用于逐步去除噪声。
-. 因果推理的三个层次是：关联、________和________。
+. 因果推理的三个层次是：关联、$\_\_\_\_$和$\_\_\_\_$。
 ==== 14.6.3 简答题 ====
@@ 行 541: / 行 580: @@
 . **扩散模型vs一致性模型**：
-   扩散模型通过迭代去噪生成样本，每一步只进行小幅度的噪声去除，需要多步（通常20-1000步）才能从纯噪声生成高质量图像。
+扩散模型通过迭代去噪生成样本，每一步只进行小幅度的噪声去除，需要多步（通常20-1000步）才能从纯噪声生成高质量图像。
-   一致性模型训练一个直接映射函数，将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致，因此推理时可以单步完成，或仅用几步精炼。
+一致性模型训练一个直接映射函数，将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致，因此推理时可以单步完成，或仅用几步精炼。
 . **CLIP与DALL-E对比**：
+| 方面 | CLIP | DALL-E |
+| 方向 | 文本↔图像（对齐） | 文本→图像（生成） |
+| 架构 | 双编码器（对比学习） | 自回归/扩散生成 |
+| 输出 | 相似度分数 | 图像 |
+| 应用 | 检索、分类、作为条件 | 文本到图像生成 |
-   | 方面 | CLIP | DALL-E |
+CLIP学习共享的文本-图像表示空间，DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成（如通过对比损失）。
-   |------|------|--------|
-   | 方向 | 文本↔图像（对齐） | 文本→图像（生成） |
-   | 架构 | 双编码器（对比学习） | 自回归/扩散生成 |
-   | 输出 | 相似度分数 | 图像 |
-   | 应用 | 检索、分类、作为条件 | 文本到图像生成 |
-   CLIP学习共享的文本-图像表示空间，DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成（如通过对比损失）。
 . **MoE负载均衡**：
-   **必要性**：没有负载均衡时，门控网络可能将所有token路由到少数"容易"的专家，导致：
+**必要性**：没有负载均衡时，门控网络可能将所有token路由到少数"容易"的专家，导致：
-   - 专家使用不均衡，部分专家过载
+  - 专家使用不均衡，部分专家过载
-   - 其他专家不被训练，容量浪费
+  - 其他专家不被训练，容量浪费
-   - 推理时某些专家成为瓶颈
+  - 推理时某些专家成为瓶颈
-   **实现方法**：
+**实现方法**：
-   - 负载均衡损失：$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$，惩罚不均衡分配
+  - 负载均衡损失：$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$，惩罚不均衡分配
-   - 容量限制：限制每个专家处理的token数量
+  - 容量限制：限制每个专家处理的token数量
-   - 专家选择：使用Top-k和噪声门控
+  - 专家选择：使用Top-k和噪声门控
 ==== 14.7.4 计算题答案 ====
@@ 行 572: / 行 610: @@
 . **扩散模型噪声调度计算**：
-   给定$\beta_t = 0.02t/T = 0.00002t$
+给定$\beta_t = 0.02t/T = 0.00002t$
-   $\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$
+$\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$
-   当$t=500$：
+当$t=500$：
-   $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$
+$$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$
-   $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$
+$$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$
-   当$t=1000$：
+当$t=1000$：
-   $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$
+$$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$
-   $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$
+$$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$
-   **答案**：$\bar{\alpha}_{500} \approx 0.082$，$\bar{\alpha}_{1000} \approx 0$
+**答案**：$\bar{\alpha}_{500} \approx 0.082$，$\bar{\alpha}_{1000} \approx 0$
 . **上下文长度计算**：
-   已用token：
+已用token：
-   - 3个示例：$3 \times 20 = 60$
+ - 3个示例：$3 \times 20 = 60$
-   - 任务描述：$10$
+ - 任务描述：$10$
-   - 输入问题：$15$
+ - 输入问题：$15$
-   - 总计：$85$
+ - 总计：$85$
-   剩余token：$2048 - 85 = 1963$
+剩余token：$2048 - 85 = 1963$
-   每个新示例约20个token，因此：
+每个新示例约20个token，因此：
-   $$\lfloor 1963 / 20 \rfloor = 98$$
+$$\lfloor 1963 / 20 \rfloor = 98$$
-   **答案**：最多还能添加98个示例
+**答案**：最多还能添加98个示例

Detach Close

您访问的页面并不存在。如果允许，您可以使用创建该页面按钮来创建它。

差别

该主题尚不存在

张叶安的博客