差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 深度学习:深度学习前沿 [2026/03/02 20:32] – 创建 张叶安 | 深度学习:深度学习前沿 [2026/03/03 13:24] (当前版本) – 张叶安 | ||
|---|---|---|---|
| 行 22: | 行 22: | ||
| **GPT架构演进**: | **GPT架构演进**: | ||
| - | - **GPT-1**(2018,1.17亿参数):证明预训练+微调的通用范式 | + | |
| - | - **GPT-2**(2019,15亿参数):展现零样本能力,提出" | + | - **GPT-2**(2019,15亿参数):展现零样本能力,提出" |
| - | - **GPT-3**(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力 | + | - **GPT-3**(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力 |
| - | - **GPT-4**(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能 | + | - **GPT-4**(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能 |
| **自回归语言建模**的目标是最大化序列的联合概率: | **自回归语言建模**的目标是最大化序列的联合概率: | ||
| 行 34: | 行 34: | ||
| **上下文学习(In-Context Learning)**是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括: | **上下文学习(In-Context Learning)**是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括: | ||
| - | - **零样本(Zero-shot)**:直接描述任务,无示例 | + | |
| - | - **少样本(Few-shot)**:提供少量示例(通常3-10个) | + | - **少样本(Few-shot)**:提供少量示例(通常3-10个) |
| - | - **思维链(Chain-of-Thought)**:引导模型展示推理过程 | + | - **思维链(Chain-of-Thought)**:引导模型展示推理过程 |
| ==== 14.1.3 对齐技术与RLHF ==== | ==== 14.1.3 对齐技术与RLHF ==== | ||
| 行 45: | 行 45: | ||
| **阶段1:监督微调(SFT)** | **阶段1:监督微调(SFT)** | ||
| + | |||
| 收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。 | 收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。 | ||
| **阶段2:奖励模型训练** | **阶段2:奖励模型训练** | ||
| + | |||
| 训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好: | 训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好: | ||
| 行 55: | 行 57: | ||
| **阶段3:强化学习优化** | **阶段3:强化学习优化** | ||
| + | |||
| 使用PPO算法优化语言模型策略,最大化奖励模型的评分: | 使用PPO算法优化语言模型策略,最大化奖励模型的评分: | ||
| 行 62: | 行 65: | ||
| **RLHF的改进方向**: | **RLHF的改进方向**: | ||
| - | - **DPO(Direct Preference Optimization)**:直接优化策略,无需显式训练奖励模型 | + | |
| - | - **RLAIF(RL from AI Feedback)**:使用AI而非人类生成偏好数据 | + | - **RLAIF(RL from AI Feedback)**:使用AI而非人类生成偏好数据 |
| - | - **Constitutional AI**:让AI根据原则自我修正 | + | - **Constitutional AI**:让AI根据原则自我修正 |
| ==== 14.1.4 多模态大模型 ==== | ==== 14.1.4 多模态大模型 ==== | ||
| 行 71: | 行 74: | ||
| **视觉-语言模型**: | **视觉-语言模型**: | ||
| - | - **CLIP**(Contrastive Language-Image Pre-training):通过对比学习将图像和文本映射到共享嵌入空间 | + | |
| - | - **DALL-E系列**:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制 | + | - **DALL-E系列**:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制 |
| - | - **GPT-4V**:具备视觉理解能力的大语言模型 | + | - **GPT-4V**:具备视觉理解能力的大语言模型 |
| - | - **LLaVA、MiniGPT-4**:开源视觉-语言助手 | + | - **LLaVA、MiniGPT-4**:开源视觉-语言助手 |
| **统一架构**: | **统一架构**: | ||
| + | |||
| 多模态模型通常采用**编码器-投影器-LLM**架构: | 多模态模型通常采用**编码器-投影器-LLM**架构: | ||
| + | |||
| 1. 使用专门的编码器(如ViT用于图像)提取模态特征 | 1. 使用专门的编码器(如ViT用于图像)提取模态特征 | ||
| + | |||
| 2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间 | 2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间 | ||
| + | |||
| 3. 大语言模型进行统一的理解和生成 | 3. 大语言模型进行统一的理解和生成 | ||
| 行 89: | 行 96: | ||
| **知识蒸馏(Knowledge Distillation)**: | **知识蒸馏(Knowledge Distillation)**: | ||
| + | |||
| 让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布): | 让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布): | ||
| 行 96: | 行 104: | ||
| **量化(Quantization)**: | **量化(Quantization)**: | ||
| + | |||
| 将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括: | 将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括: | ||
| - | - **训练后量化(PTQ)**:直接对训练好的模型量化 | + | |
| - | - **量化感知训练(QAT)**:在训练中模拟量化效应 | + | - **量化感知训练(QAT)**:在训练中模拟量化效应 |
| - | - **LLM.int8()、GPTQ**:针对大模型的专用量化方法 | + | - **LLM.int8()、GPTQ**:针对大模型的专用量化方法 |
| **剪枝(Pruning)**: | **剪枝(Pruning)**: | ||
| + | |||
| 移除不重要的权重或神经元。分为: | 移除不重要的权重或神经元。分为: | ||
| - | - **非结构化剪枝**:移除单个权重,需要硬件支持 | + | |
| - | - **结构化剪枝**:移除整个通道或层,更易部署 | + | - **结构化剪枝**:移除整个通道或层,更易部署 |
| ==== 14.2.2 高效注意力机制 ==== | ==== 14.2.2 高效注意力机制 ==== | ||
| 行 111: | 行 121: | ||
| **稀疏注意力**: | **稀疏注意力**: | ||
| - | - **局部注意力(Local Attention)**:只关注邻近位置 | + | |
| - | - **稀疏模式(Sparse Patterns)**:固定稀疏模式如Longformer的" | + | - **稀疏模式(Sparse Patterns)**:固定稀疏模式如Longformer的" |
| - | - **随机注意力(Random Attention)**:随机选择部分位置关注 | + | - **随机注意力(Random Attention)**:随机选择部分位置关注 |
| **线性注意力**: | **线性注意力**: | ||
| + | |||
| 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax: | 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax: | ||
| 行 123: | 行 134: | ||
| **硬件感知注意力**: | **硬件感知注意力**: | ||
| - | - **FlashAttention**:通过IO感知的分块计算,减少GPU内存访问 | + | |
| - | - **FlashAttention-2**:进一步优化warps级并行 | + | - **FlashAttention-2**:进一步优化warps级并行 |
| ==== 14.2.3 状态空间模型与RNN复兴 ==== | ==== 14.2.3 状态空间模型与RNN复兴 ==== | ||
| 行 131: | 行 142: | ||
| **S4(Structured State Space for Sequence Modeling)**: | **S4(Structured State Space for Sequence Modeling)**: | ||
| + | |||
| 将序列建模视为连续系统的离散化: | 将序列建模视为连续系统的离散化: | ||
| 行 142: | 行 154: | ||
| **Mamba**: | **Mamba**: | ||
| + | |||
| 选择性状态空间模型,引入输入依赖的选择机制: | 选择性状态空间模型,引入输入依赖的选择机制: | ||
| 行 153: | 行 166: | ||
| **MoE层结构**: | **MoE层结构**: | ||
| - | - 多个专家网络(通常是FFN) | + | |
| - | - 门控网络(Gating Network)决定激活哪些专家 | + | - 门控网络(Gating Network)决定激活哪些专家 |
| $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$ | $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$ | ||
| 行 161: | 行 174: | ||
| **负载均衡**: | **负载均衡**: | ||
| + | |||
| 为避免所有输入都路由到少数专家,引入负载均衡损失: | 为避免所有输入都路由到少数专家,引入负载均衡损失: | ||
| 行 168: | 行 182: | ||
| **代表性模型**: | **代表性模型**: | ||
| - | - Switch Transformer:每个token激活1个专家,简单高效 | + | |
| - | - GLaM、PaLM-E:大规模MoE语言模型 | + | - GLaM、PaLM-E:大规模MoE语言模型 |
| - | - Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型 | + | - Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型 |
| ===== 14.3 生成模型新进展 ===== | ===== 14.3 生成模型新进展 ===== | ||
| 行 179: | 行 193: | ||
| **前向扩散过程**: | **前向扩散过程**: | ||
| + | |||
| 逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声: | 逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声: | ||
| 行 186: | 行 201: | ||
| **反向去噪过程**: | **反向去噪过程**: | ||
| + | |||
| 学习神经网络逆转扩散过程: | 学习神经网络逆转扩散过程: | ||
| 行 195: | 行 211: | ||
| **条件生成**: | **条件生成**: | ||
| - | - 类别条件:通过类别嵌入或分类器引导 | + | |
| - | - 文本条件:使用CLIP或T5编码文本,通过cross-attention注入 | + | - 文本条件:使用CLIP或T5编码文本,通过cross-attention注入 |
| - | - Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值 | + | - Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值 |
| **代表性模型**: | **代表性模型**: | ||
| - | - DDPM、DDIM:基础扩散模型 | + | |
| - | - Stable Diffusion、DALL-E 2/ | + | - Stable Diffusion、DALL-E 2/ |
| - | - Imagen Video、Make-A-Video:视频生成 | + | - Imagen Video、Make-A-Video:视频生成 |
| - | - AudioLDM:音频生成 | + | - AudioLDM:音频生成 |
| ==== 14.3.2 流模型与一致性模型 ==== | ==== 14.3.2 流模型与一致性模型 ==== | ||
| 行 210: | 行 226: | ||
| **连续正规化流(Continuous Normalizing Flows, CNF)**: | **连续正规化流(Continuous Normalizing Flows, CNF)**: | ||
| + | |||
| 用神经网络参数化的常微分方程描述概率流: | 用神经网络参数化的常微分方程描述概率流: | ||
| 行 219: | 行 236: | ||
| **流匹配(Flow Matching)**: | **流匹配(Flow Matching)**: | ||
| + | |||
| 直接回归条件概率路径,避免求解ODE。训练目标为: | 直接回归条件概率路径,避免求解ODE。训练目标为: | ||
| 行 226: | 行 244: | ||
| **Rectified Flow**: | **Rectified Flow**: | ||
| + | |||
| 学习将噪声直接映射到数据的直线路径,实现一步或少步生成。 | 学习将噪声直接映射到数据的直线路径,实现一步或少步生成。 | ||
| **一致性模型(Consistency Models)**: | **一致性模型(Consistency Models)**: | ||
| + | |||
| 学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足: | 学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足: | ||
| 行 240: | 行 260: | ||
| **NeRF表示**: | **NeRF表示**: | ||
| + | |||
| 场景由MLP参数化,输入3D坐标$\mathbf{x} = (x, | 场景由MLP参数化,输入3D坐标$\mathbf{x} = (x, | ||
| 行 247: | 行 268: | ||
| **体积渲染**: | **体积渲染**: | ||
| + | |||
| 通过沿光线积分计算像素颜色: | 通过沿光线积分计算像素颜色: | ||
| 行 254: | 行 276: | ||
| **3D生成模型**: | **3D生成模型**: | ||
| - | - **DreamFusion、Magic3D**:文本到3D生成,使用分数蒸馏采样(SDS) | + | |
| - | - **Point-E**:基于点云的文本到3D生成 | + | - **Point-E**:基于点云的文本到3D生成 |
| - | - **Gaussian Splatting**:使用3D高斯表示,实现实时渲染 | + | - **Gaussian Splatting**:使用3D高斯表示,实现实时渲染 |
| ===== 14.4 可解释性与安全 ===== | ===== 14.4 可解释性与安全 ===== | ||
| 行 265: | 行 287: | ||
| ** mechanistic interpretability(机械可解释性)**: | ** mechanistic interpretability(机械可解释性)**: | ||
| + | |||
| 试图逆向工程神经网络,理解其内部表示和计算。 | 试图逆向工程神经网络,理解其内部表示和计算。 | ||
| **探测(Probing)**: | **探测(Probing)**: | ||
| + | |||
| 训练简单分类器探测模型内部表示是否包含特定信息: | 训练简单分类器探测模型内部表示是否包含特定信息: | ||
| 行 275: | 行 299: | ||
| **注意力可视化**: | **注意力可视化**: | ||
| + | |||
| 可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。 | 可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。 | ||
| **归因方法**: | **归因方法**: | ||
| - | - **Integrated Gradients**:计算输入特征对输出的积分梯度 | + | |
| - | - **SHAP**:基于博弈论的特征重要性 | + | - **SHAP**:基于博弈论的特征重要性 |
| - | - **LIME**:局部线性近似解释 | + | - **LIME**:局部线性近似解释 |
| ==== 14.4.2 大模型安全与对抗攻击 ==== | ==== 14.4.2 大模型安全与对抗攻击 ==== | ||
| **越狱攻击(Jailbreaking)**: | **越狱攻击(Jailbreaking)**: | ||
| + | |||
| 通过精心设计的提示绕过模型的安全限制。常见技术: | 通过精心设计的提示绕过模型的安全限制。常见技术: | ||
| - | - **角色扮演**:让模型扮演无道德约束的角色 | + | |
| - | - **间接注入**:通过外部内容(如网页)注入恶意指令 | + | - **间接注入**:通过外部内容(如网页)注入恶意指令 |
| - | - **编码绕过**:使用Base64、翻译等方式编码有害内容 | + | - **编码绕过**:使用Base64、翻译等方式编码有害内容 |
| **对抗性攻击**: | **对抗性攻击**: | ||
| + | |||
| 在输入中添加人眼不可见的扰动,导致模型产生错误输出: | 在输入中添加人眼不可见的扰动,导致模型产生错误输出: | ||
| 行 296: | 行 323: | ||
| **防御技术**: | **防御技术**: | ||
| - | - **对抗训练**:在训练中加入对抗样本 | + | |
| - | - **输入净化**:检测并移除对抗扰动 | + | - **输入净化**:检测并移除对抗扰动 |
| - | - **红队测试**:系统性寻找模型弱点 | + | - **红队测试**:系统性寻找模型弱点 |
| ==== 14.4.3 机器学习的因果推理 ==== | ==== 14.4.3 机器学习的因果推理 ==== | ||
| 行 305: | 行 332: | ||
| **因果层次**: | **因果层次**: | ||
| - | - **关联(Association)**:$P(Y|X)$,看到X时Y的概率 | + | |
| - | - **干预(Intervention)**:$P(Y|do(X))$,改变X时Y的概率 | + | - **干预(Intervention)**:$P(Y|do(X))$,改变X时Y的概率 |
| - | - **反事实(Counterfactual)**:$P(Y_{X=x}|X=x', | + | - **反事实(Counterfactual)**:$P(Y_{X=x}|X=x', |
| **因果发现**: | **因果发现**: | ||
| + | |||
| 从观测数据中识别因果图结构。常用方法包括: | 从观测数据中识别因果图结构。常用方法包括: | ||
| - | - **PC算法**:基于条件独立性测试 | + | |
| - | - **GES(Greedy Equivalence Search)**:基于评分搜索 | + | - **GES(Greedy Equivalence Search)**:基于评分搜索 |
| - | - **NOTEARS**:连续优化方法 | + | - **NOTEARS**:连续优化方法 |
| **因果推断方法**: | **因果推断方法**: | ||
| - | - **工具变量(IV)**:利用外生变量识别因果效应 | + | |
| - | - **双重机器学习**:结合ML与Neyman正交化 | + | - **双重机器学习**:结合ML与Neyman正交化 |
| - | - **因果贝叶斯网络**:显式建模因果结构 | + | - **因果贝叶斯网络**:显式建模因果结构 |
| ===== 14.5 例题分析 ===== | ===== 14.5 例题分析 ===== | ||
| 行 326: | 行 354: | ||
| 给定提示模板: | 给定提示模板: | ||
| - | """ | + | < |
| 将以下中文翻译成英文: | 将以下中文翻译成英文: | ||
| 中文:苹果 | 中文:苹果 | ||
| 行 336: | 行 364: | ||
| 中文:橘子 | 中文:橘子 | ||
| 英文: | 英文: | ||
| - | """ | + | </ |
| **问题**: | **问题**: | ||
| + | |||
| 1. 这是哪种上下文学习类型? | 1. 这是哪种上下文学习类型? | ||
| + | |||
| 2. 解释为什么大语言模型能够进行上下文学习 | 2. 解释为什么大语言模型能够进行上下文学习 | ||
| + | |||
| 3. 与微调相比,上下文学习的优缺点是什么? | 3. 与微调相比,上下文学习的优缺点是什么? | ||
| 行 348: | 行 379: | ||
| 2. **上下文学习机制**: | 2. **上下文学习机制**: | ||
| - | - **隐式梯度下降**:研究表明,上下文学习在数学上等价于在元层面进行梯度下降 | + | |
| - | | + | - **注意力机制**:Transformer的注意力允许模型直接" |
| - | | + | - **预训练任务匹配**:预训练中的语言建模任务要求预测下一个token,与给定示例后预测目标类似 |
| - | | + | - **任务识别**:模型从示例中识别出" |
| 3. **优缺点分析**: | 3. **优缺点分析**: | ||
| - | | 方面 | 上下文学习 | 微调 | | + | | 方面 | 上下文学习 | 微调 | |
| - | |------|-----------|------| | + | | 训练成本 | 无需训练,即时适应 | 需要额外训练 | |
| - | | 训练成本 | 无需训练,即时适应 | 需要额外训练 | | + | | 数据需求 | 少量示例即可 | 需要较多标注数据 | |
| - | | + | | 灵活性 | 任务切换灵活 | 模型专用于特定任务 | |
| - | | + | | 性能 | 通常低于微调 | 通常更高 | |
| - | | + | | 上下文长度 | 受限于模型窗口 | 无此限制 | |
| - | | + | |
| **例题2:扩散模型的数学推导** | **例题2:扩散模型的数学推导** | ||
| 行 368: | 行 398: | ||
| **问题**: | **问题**: | ||
| + | |||
| 1. 推导给定$x_0$时$x_t$的条件分布 | 1. 推导给定$x_0$时$x_t$的条件分布 | ||
| + | |||
| 2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列 | 2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列 | ||
| + | |||
| 3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布 | 3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布 | ||
| + | |||
| **解答**: | **解答**: | ||
| 行 376: | 行 410: | ||
| 1. **条件分布推导**: | 1. **条件分布推导**: | ||
| - | 给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声: | + | 给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声: |
| - | $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$ | + | $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$ |
| - | 这是高斯分布的仿射变换,因此: | + | 这是高斯分布的仿射变换,因此: |
| - | $$q(x_t | x_0) = \mathcal{N}(x_t; | + | $$q(x_t | x_0) = \mathcal{N}(x_t; |
| - | 均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$ | + | 均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$ |
| - | 方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$ | + | 方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$ |
| 2. **$\bar{\alpha}_t$递减的原因**: | 2. **$\bar{\alpha}_t$递减的原因**: | ||
| - | $\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。 | + | $\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。 |
| - | | + | |
| - | | + | - $t=0$:$\bar{\alpha}_0 = 1$,$x_0$是纯数据 |
| - | | + | - $t$增加:$\bar{\alpha}_t$减小,数据信号衰减 |
| - | | + | - $t=T$:$\bar{\alpha}_T \approx 0$,$x_T$接近纯噪声 |
| | | ||
| 行 400: | 行 434: | ||
| 3. **$x_T$的分布**: | 3. **$x_T$的分布**: | ||
| - | 当$\bar{\alpha}_T \approx 0$: | + | |
| + | 当$\bar{\alpha}_T \approx 0$: | ||
| - | $$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$ | + | $$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$ |
| - | 因此$x_T \sim \mathcal{N}(0, | + | 因此$x_T \sim \mathcal{N}(0, |
| **例题3:MoE负载均衡分析** | **例题3:MoE负载均衡分析** | ||
| 行 411: | 行 446: | ||
| **问题**: | **问题**: | ||
| + | |||
| 1. 在Top-2路由下,各专家被激活的概率是多少? | 1. 在Top-2路由下,各专家被激活的概率是多少? | ||
| + | |||
| 2. 若当前批次有100个token,理想负载下每个专家应处理多少token? | 2. 若当前批次有100个token,理想负载下每个专家应处理多少token? | ||
| + | |||
| 3. 计算此门控分布的负载不均衡程度 | 3. 计算此门控分布的负载不均衡程度 | ||
| 行 419: | 行 457: | ||
| 1. **Top-2激活概率**: | 1. **Top-2激活概率**: | ||
| - | Top-2选择专家0和1(概率最高的两个)。 | + | Top-2选择专家0和1(概率最高的两个)。 |
| - | 归一化门控权重: | + | 归一化门控权重: |
| - | | + | |
| - | | + | |
| - | | + | - 专家1:$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$ |
| + | - 专家2, | ||
| 2. **理想负载**: | 2. **理想负载**: | ||
| - | 100个token,4个专家,理想情况下每个专家处理$100/ | + | 100个token,4个专家,理想情况下每个专家处理$100/ |
| 3. **负载不均衡度**: | 3. **负载不均衡度**: | ||
| - | 实际token分配(期望): | + | 实际token分配(期望): |
| - | | + | - 专家0:$100 \times 0.57 = 57$ token |
| - | | + | - 专家1:$100 \times 0.43 = 43$ token |
| - | | + | - 专家2, |
| - | 负载均衡损失(简化版): | + | 负载均衡损失(简化版): |
| - | 使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。 | + | 使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。 |
| - | 实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$ | + | 实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$ |
| - | $H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$ | + | $H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$ |
| - | $= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$ | + | $= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$ |
| - | $= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$ | + | $= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$ |
| - | 相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。 | + | 相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。 |
| ===== 14.6 训练题 ===== | ===== 14.6 训练题 ===== | ||
| 行 487: | 行 526: | ||
| ==== 14.6.2 填空题 ==== | ==== 14.6.2 填空题 ==== | ||
| - | 1. 规模化定律表明,语言模型性能与模型参数和数据量呈________关系。 | + | 1. 规模化定律表明,语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。 |
| - | 2. 在RLHF中,SFT阶段使用________数据进行训练,RL阶段使用________信号优化。 | + | 2. 在RLHF中,SFT阶段使用$\_\_\_\_$数据进行训练,RL阶段使用$\_\_\_\_$信号优化。 |
| - | 3. 知识蒸馏中的温度参数$T$用于________概率分布,传递更多类别相似性信息。 | + | 3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布,传递更多类别相似性信息。 |
| - | 4. 扩散模型的反向过程学习一个________网络,用于逐步去除噪声。 | + | 4. 扩散模型的反向过程学习一个$\_\_\_\_$网络,用于逐步去除噪声。 |
| - | 5. 因果推理的三个层次是:关联、________和________。 | + | 5. 因果推理的三个层次是:关联、$\_\_\_\_$和$\_\_\_\_$。 |
| ==== 14.6.3 简答题 ==== | ==== 14.6.3 简答题 ==== | ||
| 行 541: | 行 580: | ||
| 1. **扩散模型vs一致性模型**: | 1. **扩散模型vs一致性模型**: | ||
| - | 扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。 | + | 扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。 |
| - | 一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。 | + | 一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。 |
| 2. **CLIP与DALL-E对比**: | 2. **CLIP与DALL-E对比**: | ||
| + | |||
| + | | 方面 | CLIP | DALL-E | | ||
| + | | 方向 | 文本↔图像(对齐) | 文本→图像(生成) | | ||
| + | | 架构 | 双编码器(对比学习) | 自回归/ | ||
| + | | 输出 | 相似度分数 | 图像 | | ||
| + | | 应用 | 检索、分类、作为条件 | 文本到图像生成 | | ||
| - | | 方面 | CLIP | DALL-E | | + | CLIP学习共享的文本-图像表示空间,DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成(如通过对比损失)。 |
| - | | + | |
| - | | 方向 | 文本↔图像(对齐) | 文本→图像(生成) | | + | |
| - | | 架构 | 双编码器(对比学习) | 自回归/ | + | |
| - | | 输出 | 相似度分数 | 图像 | | + | |
| - | | 应用 | 检索、分类、作为条件 | 文本到图像生成 | | + | |
| - | + | ||
| - | CLIP学习共享的文本-图像表示空间,DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成(如通过对比损失)。 | + | |
| 3. **MoE负载均衡**: | 3. **MoE负载均衡**: | ||
| - | **必要性**:没有负载均衡时,门控网络可能将所有token路由到少数" | + | **必要性**:没有负载均衡时,门控网络可能将所有token路由到少数" |
| - | | + | - 专家使用不均衡,部分专家过载 |
| - | | + | - 其他专家不被训练,容量浪费 |
| - | | + | - 推理时某些专家成为瓶颈 |
| - | **实现方法**: | + | **实现方法**: |
| - | | + | - 负载均衡损失:$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$,惩罚不均衡分配 |
| - | | + | - 容量限制:限制每个专家处理的token数量 |
| - | | + | - 专家选择:使用Top-k和噪声门控 |
| ==== 14.7.4 计算题答案 ==== | ==== 14.7.4 计算题答案 ==== | ||
| 行 572: | 行 610: | ||
| 1. **扩散模型噪声调度计算**: | 1. **扩散模型噪声调度计算**: | ||
| - | 给定$\beta_t = 0.02t/T = 0.00002t$ | + | 给定$\beta_t = 0.02t/T = 0.00002t$ |
| - | $\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$ | + | $\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$ |
| - | 当$t=500$: | + | 当$t=500$: |
| - | | + | $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ |
| - | | + | $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$ |
| - | 当$t=1000$: | + | 当$t=1000$: |
| - | | + | $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ |
| - | | + | $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$ |
| - | **答案**:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$ | + | **答案**:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$ |
| 2. **上下文长度计算**: | 2. **上下文长度计算**: | ||
| - | 已用token: | + | 已用token: |
| - | | + | - 3个示例:$3 \times 20 = 60$ |
| - | | + | - 任务描述:$10$ |
| - | | + | - 输入问题:$15$ |
| - | | + | - 总计:$85$ |
| - | 剩余token:$2048 - 85 = 1963$ | + | 剩余token:$2048 - 85 = 1963$ |
| - | 每个新示例约20个token,因此: | + | 每个新示例约20个token,因此: |
| - | | + | $$\lfloor 1963 / 20 \rfloor = 98$$ |
| - | **答案**:最多还能添加98个示例 | + | **答案**:最多还能添加98个示例 |