差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

深度学习:深度学习前沿 [2026/03/02 20:32] – 创建 张叶安深度学习:深度学习前沿 [2026/03/03 13:24] (当前版本) 张叶安
行 22: 行 22:
  
 **GPT架构演进**: **GPT架构演进**:
-- **GPT-1**(2018,1.17亿参数):证明预训练+微调的通用范式 +  - **GPT-1**(2018,1.17亿参数):证明预训练+微调的通用范式 
-- **GPT-2**(2019,15亿参数):展现零样本能力,提出"无监督多任务学习" +  - **GPT-2**(2019,15亿参数):展现零样本能力,提出"无监督多任务学习" 
-- **GPT-3**(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力 +  - **GPT-3**(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力 
-- **GPT-4**(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能+  - **GPT-4**(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能
  
 **自回归语言建模**的目标是最大化序列的联合概率: **自回归语言建模**的目标是最大化序列的联合概率:
行 34: 行 34:
  
 **上下文学习(In-Context Learning)**是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括: **上下文学习(In-Context Learning)**是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括:
-- **零样本(Zero-shot)**:直接描述任务,无示例 +  - **零样本(Zero-shot)**:直接描述任务,无示例 
-- **少样本(Few-shot)**:提供少量示例(通常3-10个) +  - **少样本(Few-shot)**:提供少量示例(通常3-10个) 
-- **思维链(Chain-of-Thought)**:引导模型展示推理过程+  - **思维链(Chain-of-Thought)**:引导模型展示推理过程
  
 ==== 14.1.3 对齐技术与RLHF ==== ==== 14.1.3 对齐技术与RLHF ====
行 45: 行 45:
  
 **阶段1:监督微调(SFT)** **阶段1:监督微调(SFT)**
 +
 收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。 收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。
  
 **阶段2:奖励模型训练** **阶段2:奖励模型训练**
 +
 训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好: 训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好:
  
行 55: 行 57:
  
 **阶段3:强化学习优化** **阶段3:强化学习优化**
 +
 使用PPO算法优化语言模型策略,最大化奖励模型的评分: 使用PPO算法优化语言模型策略,最大化奖励模型的评分:
  
行 62: 行 65:
  
 **RLHF的改进方向**: **RLHF的改进方向**:
-- **DPO(Direct Preference Optimization)**:直接优化策略,无需显式训练奖励模型 +  - **DPO(Direct Preference Optimization)**:直接优化策略,无需显式训练奖励模型 
-- **RLAIF(RL from AI Feedback)**:使用AI而非人类生成偏好数据 +  - **RLAIF(RL from AI Feedback)**:使用AI而非人类生成偏好数据 
-- **Constitutional AI**:让AI根据原则自我修正+  - **Constitutional AI**:让AI根据原则自我修正
  
 ==== 14.1.4 多模态大模型 ==== ==== 14.1.4 多模态大模型 ====
行 71: 行 74:
  
 **视觉-语言模型**: **视觉-语言模型**:
-- **CLIP**(Contrastive Language-Image Pre-training):通过对比学习将图像和文本映射到共享嵌入空间 +  - **CLIP**(Contrastive Language-Image Pre-training):通过对比学习将图像和文本映射到共享嵌入空间 
-- **DALL-E系列**:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制 +  - **DALL-E系列**:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制 
-- **GPT-4V**:具备视觉理解能力的大语言模型 +  - **GPT-4V**:具备视觉理解能力的大语言模型 
-- **LLaVA、MiniGPT-4**:开源视觉-语言助手+  - **LLaVA、MiniGPT-4**:开源视觉-语言助手
  
 **统一架构**: **统一架构**:
 +
 多模态模型通常采用**编码器-投影器-LLM**架构: 多模态模型通常采用**编码器-投影器-LLM**架构:
 +
 1. 使用专门的编码器(如ViT用于图像)提取模态特征 1. 使用专门的编码器(如ViT用于图像)提取模态特征
 +
 2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间 2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间
 +
 3. 大语言模型进行统一的理解和生成 3. 大语言模型进行统一的理解和生成
  
行 89: 行 96:
  
 **知识蒸馏(Knowledge Distillation)**: **知识蒸馏(Knowledge Distillation)**:
 +
 让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布): 让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布):
  
行 96: 行 104:
  
 **量化(Quantization)**: **量化(Quantization)**:
 +
 将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括: 将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括:
-- **训练后量化(PTQ)**:直接对训练好的模型量化 +  - **训练后量化(PTQ)**:直接对训练好的模型量化 
-- **量化感知训练(QAT)**:在训练中模拟量化效应 +  - **量化感知训练(QAT)**:在训练中模拟量化效应 
-- **LLM.int8()、GPTQ**:针对大模型的专用量化方法+  - **LLM.int8()、GPTQ**:针对大模型的专用量化方法
  
 **剪枝(Pruning)**: **剪枝(Pruning)**:
 +
 移除不重要的权重或神经元。分为: 移除不重要的权重或神经元。分为:
-- **非结构化剪枝**:移除单个权重,需要硬件支持 +  - **非结构化剪枝**:移除单个权重,需要硬件支持 
-- **结构化剪枝**:移除整个通道或层,更易部署+  - **结构化剪枝**:移除整个通道或层,更易部署
  
 ==== 14.2.2 高效注意力机制 ==== ==== 14.2.2 高效注意力机制 ====
行 111: 行 121:
  
 **稀疏注意力**: **稀疏注意力**:
-- **局部注意力(Local Attention)**:只关注邻近位置 +  - **局部注意力(Local Attention)**:只关注邻近位置 
-- **稀疏模式(Sparse Patterns)**:固定稀疏模式如Longformer的"全局+滑动窗口" +  - **稀疏模式(Sparse Patterns)**:固定稀疏模式如Longformer的"全局+滑动窗口" 
-- **随机注意力(Random Attention)**:随机选择部分位置关注+  - **随机注意力(Random Attention)**:随机选择部分位置关注
  
 **线性注意力**: **线性注意力**:
 +
 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax: 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax:
  
行 123: 行 134:
  
 **硬件感知注意力**: **硬件感知注意力**:
-- **FlashAttention**:通过IO感知的分块计算,减少GPU内存访问 +  - **FlashAttention**:通过IO感知的分块计算,减少GPU内存访问 
-- **FlashAttention-2**:进一步优化warps级并行+  - **FlashAttention-2**:进一步优化warps级并行
  
 ==== 14.2.3 状态空间模型与RNN复兴 ==== ==== 14.2.3 状态空间模型与RNN复兴 ====
行 131: 行 142:
  
 **S4(Structured State Space for Sequence Modeling)**: **S4(Structured State Space for Sequence Modeling)**:
 +
 将序列建模视为连续系统的离散化: 将序列建模视为连续系统的离散化:
  
行 142: 行 154:
  
 **Mamba**: **Mamba**:
 +
 选择性状态空间模型,引入输入依赖的选择机制: 选择性状态空间模型,引入输入依赖的选择机制:
  
行 153: 行 166:
  
 **MoE层结构**: **MoE层结构**:
-- 多个专家网络(通常是FFN) +  - 多个专家网络(通常是FFN) 
-- 门控网络(Gating Network)决定激活哪些专家+  - 门控网络(Gating Network)决定激活哪些专家
  
 $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$ $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$
行 161: 行 174:
  
 **负载均衡**: **负载均衡**:
 +
 为避免所有输入都路由到少数专家,引入负载均衡损失: 为避免所有输入都路由到少数专家,引入负载均衡损失:
  
行 168: 行 182:
  
 **代表性模型**: **代表性模型**:
-- Switch Transformer:每个token激活1个专家,简单高效 +  - Switch Transformer:每个token激活1个专家,简单高效 
-- GLaM、PaLM-E:大规模MoE语言模型 +  - GLaM、PaLM-E:大规模MoE语言模型 
-- Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型+  - Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型
  
 ===== 14.3 生成模型新进展 ===== ===== 14.3 生成模型新进展 =====
行 179: 行 193:
  
 **前向扩散过程**: **前向扩散过程**:
 +
 逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声: 逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声:
  
行 186: 行 201:
  
 **反向去噪过程**: **反向去噪过程**:
 +
 学习神经网络逆转扩散过程: 学习神经网络逆转扩散过程:
  
行 195: 行 211:
  
 **条件生成**: **条件生成**:
-- 类别条件:通过类别嵌入或分类器引导 +  - 类别条件:通过类别嵌入或分类器引导 
-- 文本条件:使用CLIP或T5编码文本,通过cross-attention注入 +  - 文本条件:使用CLIP或T5编码文本,通过cross-attention注入 
-- Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值+  - Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值
  
 **代表性模型**: **代表性模型**:
-- DDPM、DDIM:基础扩散模型 +  - DDPM、DDIM:基础扩散模型 
-- Stable Diffusion、DALL-E 2/3、Midjourney:图像生成 +  - Stable Diffusion、DALL-E 2/3、Midjourney:图像生成 
-- Imagen Video、Make-A-Video:视频生成 +  - Imagen Video、Make-A-Video:视频生成 
-- AudioLDM:音频生成+  - AudioLDM:音频生成
  
 ==== 14.3.2 流模型与一致性模型 ==== ==== 14.3.2 流模型与一致性模型 ====
行 210: 行 226:
  
 **连续正规化流(Continuous Normalizing Flows, CNF)**: **连续正规化流(Continuous Normalizing Flows, CNF)**:
 +
 用神经网络参数化的常微分方程描述概率流: 用神经网络参数化的常微分方程描述概率流:
  
行 219: 行 236:
  
 **流匹配(Flow Matching)**: **流匹配(Flow Matching)**:
 +
 直接回归条件概率路径,避免求解ODE。训练目标为: 直接回归条件概率路径,避免求解ODE。训练目标为:
  
行 226: 行 244:
  
 **Rectified Flow**: **Rectified Flow**:
 +
 学习将噪声直接映射到数据的直线路径,实现一步或少步生成。 学习将噪声直接映射到数据的直线路径,实现一步或少步生成。
  
 **一致性模型(Consistency Models)**: **一致性模型(Consistency Models)**:
 +
 学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足: 学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足:
  
行 240: 行 260:
  
 **NeRF表示**: **NeRF表示**:
 +
 场景由MLP参数化,输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$,输出体密度$\sigma$和RGB颜色$c$: 场景由MLP参数化,输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$,输出体密度$\sigma$和RGB颜色$c$:
  
行 247: 行 268:
  
 **体积渲染**: **体积渲染**:
 + 
 通过沿光线积分计算像素颜色: 通过沿光线积分计算像素颜色:
  
行 254: 行 276:
  
 **3D生成模型**: **3D生成模型**:
-- **DreamFusion、Magic3D**:文本到3D生成,使用分数蒸馏采样(SDS) +  - **DreamFusion、Magic3D**:文本到3D生成,使用分数蒸馏采样(SDS) 
-- **Point-E**:基于点云的文本到3D生成 +  - **Point-E**:基于点云的文本到3D生成 
-- **Gaussian Splatting**:使用3D高斯表示,实现实时渲染+  - **Gaussian Splatting**:使用3D高斯表示,实现实时渲染
  
 ===== 14.4 可解释性与安全 ===== ===== 14.4 可解释性与安全 =====
行 265: 行 287:
  
 ** mechanistic interpretability(机械可解释性)**: ** mechanistic interpretability(机械可解释性)**:
 +
 试图逆向工程神经网络,理解其内部表示和计算。 试图逆向工程神经网络,理解其内部表示和计算。
  
 **探测(Probing)**: **探测(Probing)**:
 +
 训练简单分类器探测模型内部表示是否包含特定信息: 训练简单分类器探测模型内部表示是否包含特定信息:
  
行 275: 行 299:
  
 **注意力可视化**: **注意力可视化**:
 +
 可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。 可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。
  
 **归因方法**: **归因方法**:
-- **Integrated Gradients**:计算输入特征对输出的积分梯度 +  - **Integrated Gradients**:计算输入特征对输出的积分梯度 
-- **SHAP**:基于博弈论的特征重要性 +  - **SHAP**:基于博弈论的特征重要性 
-- **LIME**:局部线性近似解释+  - **LIME**:局部线性近似解释
  
 ==== 14.4.2 大模型安全与对抗攻击 ==== ==== 14.4.2 大模型安全与对抗攻击 ====
  
 **越狱攻击(Jailbreaking)**: **越狱攻击(Jailbreaking)**:
 +
 通过精心设计的提示绕过模型的安全限制。常见技术: 通过精心设计的提示绕过模型的安全限制。常见技术:
-- **角色扮演**:让模型扮演无道德约束的角色 +  - **角色扮演**:让模型扮演无道德约束的角色 
-- **间接注入**:通过外部内容(如网页)注入恶意指令 +  - **间接注入**:通过外部内容(如网页)注入恶意指令 
-- **编码绕过**:使用Base64、翻译等方式编码有害内容+  - **编码绕过**:使用Base64、翻译等方式编码有害内容
  
 **对抗性攻击**: **对抗性攻击**:
 +
 在输入中添加人眼不可见的扰动,导致模型产生错误输出: 在输入中添加人眼不可见的扰动,导致模型产生错误输出:
  
行 296: 行 323:
  
 **防御技术**: **防御技术**:
-- **对抗训练**:在训练中加入对抗样本 +  - **对抗训练**:在训练中加入对抗样本 
-- **输入净化**:检测并移除对抗扰动 +  - **输入净化**:检测并移除对抗扰动 
-- **红队测试**:系统性寻找模型弱点+  - **红队测试**:系统性寻找模型弱点
  
 ==== 14.4.3 机器学习的因果推理 ==== ==== 14.4.3 机器学习的因果推理 ====
行 305: 行 332:
  
 **因果层次**: **因果层次**:
-- **关联(Association)**:$P(Y|X)$,看到X时Y的概率 +  - **关联(Association)**:$P(Y|X)$,看到X时Y的概率 
-- **干预(Intervention)**:$P(Y|do(X))$,改变X时Y的概率 +  - **干预(Intervention)**:$P(Y|do(X))$,改变X时Y的概率 
-- **反事实(Counterfactual)**:$P(Y_{X=x}|X=x', Y=y')$,如果当初做了不同选择会怎样+  - **反事实(Counterfactual)**:$P(Y_{X=x}|X=x', Y=y')$,如果当初做了不同选择会怎样
  
 **因果发现**: **因果发现**:
 +
 从观测数据中识别因果图结构。常用方法包括: 从观测数据中识别因果图结构。常用方法包括:
-- **PC算法**:基于条件独立性测试 +  - **PC算法**:基于条件独立性测试 
-- **GES(Greedy Equivalence Search)**:基于评分搜索 +  - **GES(Greedy Equivalence Search)**:基于评分搜索 
-- **NOTEARS**:连续优化方法+  - **NOTEARS**:连续优化方法
  
 **因果推断方法**: **因果推断方法**:
-- **工具变量(IV)**:利用外生变量识别因果效应 +  - **工具变量(IV)**:利用外生变量识别因果效应 
-- **双重机器学习**:结合ML与Neyman正交化 +  - **双重机器学习**:结合ML与Neyman正交化 
-- **因果贝叶斯网络**:显式建模因果结构+  - **因果贝叶斯网络**:显式建模因果结构
  
 ===== 14.5 例题分析 ===== ===== 14.5 例题分析 =====
行 326: 行 354:
 给定提示模板: 给定提示模板:
  
-"""+<code>
 将以下中文翻译成英文: 将以下中文翻译成英文:
 中文:苹果 中文:苹果
行 336: 行 364:
 中文:橘子 中文:橘子
 英文: 英文:
-"""+</code>
  
 **问题**: **问题**:
 +
 1. 这是哪种上下文学习类型? 1. 这是哪种上下文学习类型?
 +
 2. 解释为什么大语言模型能够进行上下文学习 2. 解释为什么大语言模型能够进行上下文学习
 +
 3. 与微调相比,上下文学习的优缺点是什么? 3. 与微调相比,上下文学习的优缺点是什么?
  
行 348: 行 379:
  
 2. **上下文学习机制**: 2. **上下文学习机制**:
-   - **隐式梯度下降**:研究表明,上下文学习在数学上等价于在元层面进行梯度下降 +  - **隐式梯度下降**:研究表明,上下文学习在数学上等价于在元层面进行梯度下降 
-   - **注意力机制**:Transformer的注意力允许模型直接"复制"和"参考"提示中的示例 +  - **注意力机制**:Transformer的注意力允许模型直接"复制"和"参考"提示中的示例 
-   - **预训练任务匹配**:预训练中的语言建模任务要求预测下一个token,与给定示例后预测目标类似 +  - **预训练任务匹配**:预训练中的语言建模任务要求预测下一个token,与给定示例后预测目标类似 
-   - **任务识别**:模型从示例中识别出"翻译"这一任务类型+  - **任务识别**:模型从示例中识别出"翻译"这一任务类型
  
 3. **优缺点分析**: 3. **优缺点分析**:
  
-   | 方面 | 上下文学习 | 微调 | +| 方面 | 上下文学习 | 微调 | 
-   |------|-----------|------| +| 训练成本 | 无需训练,即时适应 | 需要额外训练 | 
-   | 训练成本 | 无需训练,即时适应 | 需要额外训练 | +| 数据需求 | 少量示例即可 | 需要较多标注数据 | 
-   | 数据需求 | 少量示例即可 | 需要较多标注数据 | +| 灵活性 | 任务切换灵活 | 模型专用于特定任务 | 
-   | 灵活性 | 任务切换灵活 | 模型专用于特定任务 | +| 性能 | 通常低于微调 | 通常更高 | 
-   | 性能 | 通常低于微调 | 通常更高 | +| 上下文长度 | 受限于模型窗口 | 无此限制 |
-   | 上下文长度 | 受限于模型窗口 | 无此限制 |+
  
 **例题2:扩散模型的数学推导** **例题2:扩散模型的数学推导**
行 368: 行 398:
  
 **问题**: **问题**:
 +
 1. 推导给定$x_0$时$x_t$的条件分布 1. 推导给定$x_0$时$x_t$的条件分布
 +
 2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列 2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列
 +
 3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布 3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布
 +
  
 **解答**: **解答**:
行 376: 行 410:
 1. **条件分布推导**: 1. **条件分布推导**:
  
-   给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声:+给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声:
        
-   $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$+$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$
        
-   这是高斯分布的仿射变换,因此:+这是高斯分布的仿射变换,因此:
        
-   $$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$+$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$
        
-   均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$+均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$
        
-   方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$+方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$
  
 2. **$\bar{\alpha}_t$递减的原因**: 2. **$\bar{\alpha}_t$递减的原因**:
        
-   $\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。 +$\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。 
-    + 
-   - $t=0$:$\bar{\alpha}_0 = 1$,$x_0$是纯数据 +  - $t=0$:$\bar{\alpha}_0 = 1$,$x_0$是纯数据 
-   - $t$增加:$\bar{\alpha}_t$减小,数据信号衰减 +  - $t$增加:$\bar{\alpha}_t$减小,数据信号衰减 
-   - $t=T$:$\bar{\alpha}_T \approx 0$,$x_T$接近纯噪声+  - $t=T$:$\bar{\alpha}_T \approx 0$,$x_T$接近纯噪声
        
    这种设计确保前向过程逐步破坏数据结构,最终达到易采样的先验分布(标准高斯)。    这种设计确保前向过程逐步破坏数据结构,最终达到易采样的先验分布(标准高斯)。
行 400: 行 434:
 3. **$x_T$的分布**: 3. **$x_T$的分布**:
  
-   当$\bar{\alpha}_T \approx 0$:+ 
 +当$\bar{\alpha}_T \approx 0$:
        
-   $$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$+$$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$
        
-   因此$x_T \sim \mathcal{N}(0, I)$,与数据分布无关。这保证了反向过程可以从标准高斯噪声开始,逐步恢复数据。+因此$x_T \sim \mathcal{N}(0, I)$,与数据分布无关。这保证了反向过程可以从标准高斯噪声开始,逐步恢复数据。
  
 **例题3:MoE负载均衡分析** **例题3:MoE负载均衡分析**
行 411: 行 446:
  
 **问题**: **问题**:
 +
 1. 在Top-2路由下,各专家被激活的概率是多少? 1. 在Top-2路由下,各专家被激活的概率是多少?
 +
 2. 若当前批次有100个token,理想负载下每个专家应处理多少token? 2. 若当前批次有100个token,理想负载下每个专家应处理多少token?
 +
 3. 计算此门控分布的负载不均衡程度 3. 计算此门控分布的负载不均衡程度
  
行 419: 行 457:
 1. **Top-2激活概率**: 1. **Top-2激活概率**:
        
-   Top-2选择专家0和1(概率最高的两个)。+Top-2选择专家0和1(概率最高的两个)。
        
-   归一化门控权重: +归一化门控权重: 
-   - 专家0:$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$ + 
-   - 专家1:$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$ +  - 专家0:$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$ 
-   - 专家2,3:0(不被激活)+  - 专家1:$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$ 
 +  - 专家2,3:0(不被激活)
  
 2. **理想负载**: 2. **理想负载**:
        
-   100个token,4个专家,理想情况下每个专家处理$100/4 = 25$个token。+100个token,4个专家,理想情况下每个专家处理$100/4 = 25$个token。
  
 3. **负载不均衡度**: 3. **负载不均衡度**:
  
-   实际token分配(期望): +实际token分配(期望): 
-   - 专家0:$100 \times 0.57 = 57$ token +  - 专家0:$100 \times 0.57 = 57$ token 
-   - 专家1:$100 \times 0.43 = 43$ token +  - 专家1:$100 \times 0.43 = 43$ token 
-   - 专家2,3:0 token+  - 专家2,3:0 token
  
-   负载均衡损失(简化版):+负载均衡损失(简化版):
        
-   使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。+使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。
        
-   实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$+实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$
        
-   $H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$+$H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$
        
-   $= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$+$= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$
        
-   $= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$+$= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$
        
-   相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。+相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。
  
 ===== 14.6 训练题 ===== ===== 14.6 训练题 =====
行 487: 行 526:
 ==== 14.6.2 填空题 ==== ==== 14.6.2 填空题 ====
  
-1. 规模化定律表明,语言模型性能与模型参数和数据量呈________关系。+1. 规模化定律表明,语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。
  
-2. 在RLHF中,SFT阶段使用________数据进行训练,RL阶段使用________信号优化。+2. 在RLHF中,SFT阶段使用$\_\_\_\_$数据进行训练,RL阶段使用$\_\_\_\_$信号优化。
  
-3. 知识蒸馏中的温度参数$T$用于________概率分布,传递更多类别相似性信息。+3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布,传递更多类别相似性信息。
  
-4. 扩散模型的反向过程学习一个________网络,用于逐步去除噪声。+4. 扩散模型的反向过程学习一个$\_\_\_\_$网络,用于逐步去除噪声。
  
-5. 因果推理的三个层次是:关联、________________+5. 因果推理的三个层次是:关联、$\_\_\_\_$$\_\_\_\_$
  
 ==== 14.6.3 简答题 ==== ==== 14.6.3 简答题 ====
行 541: 行 580:
 1. **扩散模型vs一致性模型**: 1. **扩散模型vs一致性模型**:
        
-   扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。+扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。
        
-   一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。+一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。
  
 2. **CLIP与DALL-E对比**: 2. **CLIP与DALL-E对比**:
 +
 +| 方面 | CLIP | DALL-E |
 +| 方向 | 文本↔图像(对齐) | 文本→图像(生成) |
 +| 架构 | 双编码器(对比学习) | 自回归/扩散生成 |
 +| 输出 | 相似度分数 | 图像 |
 +| 应用 | 检索、分类、作为条件 | 文本到图像生成 |
        
-   | 方面 | CLIP | DALL-E | +CLIP学习共享的文本-图像表示空间,DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成(如通过对比损失)。
-   |------|------|--------| +
-   | 方向 | 文本↔图像(对齐) | 文本→图像(生成) | +
-   | 架构 | 双编码器(对比学习) | 自回归/扩散生成 | +
-   | 输出 | 相似度分数 | 图像 | +
-   | 应用 | 检索、分类、作为条件 | 文本到图像生成 | +
-    +
-   CLIP学习共享的文本-图像表示空间,DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成(如通过对比损失)。+
  
 3. **MoE负载均衡**: 3. **MoE负载均衡**:
        
-   **必要性**:没有负载均衡时,门控网络可能将所有token路由到少数"容易"的专家,导致: +**必要性**:没有负载均衡时,门控网络可能将所有token路由到少数"容易"的专家,导致: 
-   - 专家使用不均衡,部分专家过载 +  - 专家使用不均衡,部分专家过载 
-   - 其他专家不被训练,容量浪费 +  - 其他专家不被训练,容量浪费 
-   - 推理时某些专家成为瓶颈+  - 推理时某些专家成为瓶颈
        
-   **实现方法**: +**实现方法**: 
-   - 负载均衡损失:$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$,惩罚不均衡分配 +  - 负载均衡损失:$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$,惩罚不均衡分配 
-   - 容量限制:限制每个专家处理的token数量 +  - 容量限制:限制每个专家处理的token数量 
-   - 专家选择:使用Top-k和噪声门控+  - 专家选择:使用Top-k和噪声门控
  
 ==== 14.7.4 计算题答案 ==== ==== 14.7.4 计算题答案 ====
行 572: 行 610:
 1. **扩散模型噪声调度计算**: 1. **扩散模型噪声调度计算**:
        
-   给定$\beta_t = 0.02t/T = 0.00002t$+给定$\beta_t = 0.02t/T = 0.00002t$
        
-   $\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$+$\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$
        
-   当$t=500$: +当$t=500$: 
-   $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ +$$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ 
-   $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$+$$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$
        
-   当$t=1000$: +当$t=1000$: 
-   $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ +$$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ 
-   $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$+$$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$
        
-   **答案**:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$+**答案**:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$
  
 2. **上下文长度计算**: 2. **上下文长度计算**:
        
-   已用token: +已用token: 
-   - 3个示例:$3 \times 20 = 60$ + - 3个示例:$3 \times 20 = 60$ 
-   - 任务描述:$10$ + - 任务描述:$10$ 
-   - 输入问题:$15$ + - 输入问题:$15$ 
-   - 总计:$85$+ - 总计:$85$
        
-   剩余token:$2048 - 85 = 1963$+剩余token:$2048 - 85 = 1963$
        
-   每个新示例约20个token,因此: +每个新示例约20个token,因此: 
-   $$\lfloor 1963 / 20 \rfloor = 98$$+$$\lfloor 1963 / 20 \rfloor = 98$$
        
-   **答案**:最多还能添加98个示例+**答案**:最多还能添加98个示例

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/深度学习前沿.1772454730.txt.gz
  • 最后更改: 2026/03/02 20:32
  • 张叶安