显示页面讨论过去修订反向链接回到顶部 本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。 ====== 第十四章 深度学习前沿 ====== ===== 14.1 大语言模型与基础模型 ===== ==== 14.1.1 从预训练到基础模型 ==== 基础模型(Foundation Models)是指在大规模无标注数据上进行预训练,能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出,标志着人工智能研究范式的重大转变。 基础模型的核心特征是**涌现能力(Emergent Abilities)**:当模型规模达到一定阈值时,会突然展现出小型模型所不具备的能力。这些能力并非显式训练的结果,而是在大规模预训练过程中自发涌现的。例如,大型语言模型(LLM)在参数规模超过100B后,展现出上下文学习(In-Context Learning)、思维链推理(Chain-of-Thought Reasoning)等能力。 **规模化定律(Scaling Laws)**研究模型性能与规模(参数数量、数据量、计算量)之间的关系。研究表明,语言模型的测试损失$L$与模型参数$N$、训练token数$D$之间存在幂律关系: $$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$ 其中$\alpha \approx 0.34$,$\beta \approx 0.28$,$L_{\infty}$是不可约误差。这一规律表明,在合理范围内,增加模型规模和数据量可以持续提高性能。 **计算最优训练**(Chinchilla Optimal Training)研究表明,模型参数和训练token数应该以相同比例扩展。DeepMind的Chinchilla模型证明,在相同计算预算下,较小但训练更充分的模型(70B参数,1.4T tokens)可以超越更大但训练不足的模型(280B参数,300B tokens)。 ==== 14.1.2 GPT系列与自回归语言建模 ==== GPT(Generative Pre-trained Transformer)系列是推动大语言模型发展的核心力量,采用自回归(Autoregressive)方式进行语言建模。 **GPT架构演进**: - **GPT-1**(2018,1.17亿参数):证明预训练+微调的通用范式 - **GPT-2**(2019,15亿参数):展现零样本能力,提出"无监督多任务学习" - **GPT-3**(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力 - **GPT-4**(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能 **自回归语言建模**的目标是最大化序列的联合概率: $$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$ 模型通过预测下一个token来学习语言的统计规律。这种训练目标简单但强大,使得模型能够学习语法、语义、常识和世界知识。 **上下文学习(In-Context Learning)**是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括: - **零样本(Zero-shot)**:直接描述任务,无示例 - **少样本(Few-shot)**:提供少量示例(通常3-10个) - **思维链(Chain-of-Thought)**:引导模型展示推理过程 ==== 14.1.3 对齐技术与RLHF ==== 预训练语言模型从海量互联网数据学习,可能产生有害、偏见或不真实的输出。**对齐(Alignment)**技术旨在使模型行为符合人类价值观和意图。 **RLHF(Reinforcement Learning from Human Feedback)**是OpenAI和Anthropic开发的对齐技术,包含三个阶段: **阶段1:监督微调(SFT)** 收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。 **阶段2:奖励模型训练** 训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好: $$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$ 其中$y_w$是偏好的响应(win),$y_l$是不偏好的响应(loss)。 **阶段3:强化学习优化** 使用PPO算法优化语言模型策略,最大化奖励模型的评分: $$\max_{\pi} \mathbb{E}_{x \sim D, y \sim \pi} [r_{\phi}(x, y)] - \beta \mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)]$$ KL散度约束防止策略偏离太远,保持语言能力。 **RLHF的改进方向**: - **DPO(Direct Preference Optimization)**:直接优化策略,无需显式训练奖励模型 - **RLAIF(RL from AI Feedback)**:使用AI而非人类生成偏好数据 - **Constitutional AI**:让AI根据原则自我修正 ==== 14.1.4 多模态大模型 ==== **多模态大模型**(Multimodal Large Models)能够理解和生成多种模态(文本、图像、音频、视频)的内容,是实现通用人工智能的关键一步。 **视觉-语言模型**: - **CLIP**(Contrastive Language-Image Pre-training):通过对比学习将图像和文本映射到共享嵌入空间 - **DALL-E系列**:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制 - **GPT-4V**:具备视觉理解能力的大语言模型 - **LLaVA、MiniGPT-4**:开源视觉-语言助手 **统一架构**: 多模态模型通常采用**编码器-投影器-LLM**架构: 1. 使用专门的编码器(如ViT用于图像)提取模态特征 2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间 3. 大语言模型进行统一的理解和生成 ===== 14.2 高效模型架构 ===== ==== 14.2.1 模型压缩与量化 ==== 大模型的部署面临计算资源、内存和延迟的挑战。**模型压缩**技术旨在减小模型体积和计算需求,同时保持性能。 **知识蒸馏(Knowledge Distillation)**: 让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布): $$\mathcal{L}_{KD} = \alpha \mathcal{L}_{CE}(y_{student}, y_{true}) + (1-\alpha) \mathcal{L}_{KL}(y_{student}/T, y_{teacher}/T)$$ 温度参数$T$软化概率分布,传递更多关于类别相似性的信息。 **量化(Quantization)**: 将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括: - **训练后量化(PTQ)**:直接对训练好的模型量化 - **量化感知训练(QAT)**:在训练中模拟量化效应 - **LLM.int8()、GPTQ**:针对大模型的专用量化方法 **剪枝(Pruning)**: 移除不重要的权重或神经元。分为: - **非结构化剪枝**:移除单个权重,需要硬件支持 - **结构化剪枝**:移除整个通道或层,更易部署 ==== 14.2.2 高效注意力机制 ==== 标准自注意力的计算复杂度为$O(n^2)$,成为长序列处理的瓶颈。 **稀疏注意力**: - **局部注意力(Local Attention)**:只关注邻近位置 - **稀疏模式(Sparse Patterns)**:固定稀疏模式如Longformer的"全局+滑动窗口" - **随机注意力(Random Attention)**:随机选择部分位置关注 **线性注意力**: 将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax: $$\text{softmax}(\frac{QK^T}{\sqrt{d}})V \approx \phi(Q)(\phi(K)^TV)$$ 代表性方法:Performer、Linear Transformer、RWKV。 **硬件感知注意力**: - **FlashAttention**:通过IO感知的分块计算,减少GPU内存访问 - **FlashAttention-2**:进一步优化warps级并行 ==== 14.2.3 状态空间模型与RNN复兴 ==== **状态空间模型(State Space Models, SSM)**是Transformer的新兴替代方案,具有线性复杂度。 **S4(Structured State Space for Sequence Modeling)**: 将序列建模视为连续系统的离散化: $$\dot{h}(t) = Ah(t) + Bx(t), \quad y(t) = Ch(t)$$ 其中$A$是结构化矩阵(HiPPO初始化保证长程记忆)。离散化后: $$h_k = \bar{A}h_{k-1} + \bar{B}x_k, \quad y_k = \bar{C}h_k$$ 通过特定的结构化矩阵,可以实现$O(n)$训练和$O(1)$推理。 **Mamba**: 选择性状态空间模型,引入输入依赖的选择机制: $$h_k = \bar{A}_k h_{k-1} + \bar{B}_k x_k$$ 参数$\bar{A}_k$和$\bar{B}_k$根据输入动态选择,使模型能聚焦于相关信息。Mamba在长序列任务上匹敌Transformer,同时保持线性复杂度。 ==== 14.2.4 Mixture of Experts ==== **混合专家模型(Mixture of Experts, MoE)**通过条件计算扩展模型容量,每次只激活部分参数。 **MoE层结构**: - 多个专家网络(通常是FFN) - 门控网络(Gating Network)决定激活哪些专家 $$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$ 其中$G(x) = \text{Softmax}(W_g \cdot x)$,通常只选择top-$k$专家。 **负载均衡**: 为避免所有输入都路由到少数专家,引入负载均衡损失: $$\mathcal{L}_{balance} = \alpha N \sum_{i=1}^{N} f_i \cdot P_i$$ 其中$f_i$是分配给专家$i$的token比例,$P_i$是门控分配给专家$i$的平均概率。 **代表性模型**: - Switch Transformer:每个token激活1个专家,简单高效 - GLaM、PaLM-E:大规模MoE语言模型 - Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型 ===== 14.3 生成模型新进展 ===== ==== 14.3.1 扩散模型 ==== **扩散模型(Diffusion Models)**是当前最先进的图像生成技术,也被应用于音频、视频和分子生成。 **前向扩散过程**: 逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声: $$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$$ 累积形式:$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$ **反向去噪过程**: 学习神经网络逆转扩散过程: $$p_{\theta}(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$$ 训练目标通常简化为预测噪声: $$\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_{\theta}(x_t, t)||^2 \right]$$ **条件生成**: - 类别条件:通过类别嵌入或分类器引导 - 文本条件:使用CLIP或T5编码文本,通过cross-attention注入 - Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值 **代表性模型**: - DDPM、DDIM:基础扩散模型 - Stable Diffusion、DALL-E 2/3、Midjourney:图像生成 - Imagen Video、Make-A-Video:视频生成 - AudioLDM:音频生成 ==== 14.3.2 流模型与一致性模型 ==== **流模型(Flow-based Models)**通过可逆变换学习精确的数据分布。 **连续正规化流(Continuous Normalizing Flows, CNF)**: 用神经网络参数化的常微分方程描述概率流: $$\frac{dx}{dt} = f_{\theta}(x_t, t), \quad x_0 \sim p_0$$ 通过瞬时变化公式计算密度: $$\frac{d \log p(x_t)}{dt} = -\text{tr}\left(\frac{\partial f}{\partial x_t}\right)$$ **流匹配(Flow Matching)**: 直接回归条件概率路径,避免求解ODE。训练目标为: $$\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1} ||u_t(x_t) - v_{\theta}(x_t, t)||^2$$ 其中$u_t$是条件向量场,$v_{\theta}$是神经网络。 **Rectified Flow**: 学习将噪声直接映射到数据的直线路径,实现一步或少步生成。 **一致性模型(Consistency Models)**: 学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足: $$f_{\theta}(x_t, t) = f_{\theta}(x_{t'}, t') \quad \text{for all } t, t'$$ 特别地,$f_{\theta}(x_T, T) = x_0$。训练后的模型可以单步生成高质量样本。 ==== 14.3.3 神经辐射场与3D生成 ==== **神经辐射场(Neural Radiance Fields, NeRF)**使用神经网络表示3D场景,实现了照片级的新视角合成。 **NeRF表示**: 场景由MLP参数化,输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$,输出体密度$\sigma$和RGB颜色$c$: $$(\sigma, \mathbf{c}) = \text{MLP}(\gamma(\mathbf{x}), \gamma(\mathbf{d}))$$ 其中$\gamma$是位置编码:$\gamma(p) = [\sin(2^0 \pi p), \cos(2^0 \pi p), ..., \sin(2^{L-1} \pi p), \cos(2^{L-1} \pi p)]$ **体积渲染**: 通过沿光线积分计算像素颜色: $$\hat{C}(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$$ 其中$T(t) = \exp(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) ds)$是透射率。 **3D生成模型**: - **DreamFusion、Magic3D**:文本到3D生成,使用分数蒸馏采样(SDS) - **Point-E**:基于点云的文本到3D生成 - **Gaussian Splatting**:使用3D高斯表示,实现实时渲染 ===== 14.4 可解释性与安全 ===== ==== 14.4.1 模型可解释性 ==== 深度学习模型的"黑盒"特性阻碍了其在高风险领域的应用。可解释性研究旨在理解模型的决策机制。 ** mechanistic interpretability(机械可解释性)**: 试图逆向工程神经网络,理解其内部表示和计算。 **探测(Probing)**: 训练简单分类器探测模型内部表示是否包含特定信息: $$\text{Probe}(h_l) \rightarrow \text{linguistic property}$$ 如果探测分类器能准确预测语言学属性,说明该层表示编码了该信息。 **注意力可视化**: 可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。 **归因方法**: - **Integrated Gradients**:计算输入特征对输出的积分梯度 - **SHAP**:基于博弈论的特征重要性 - **LIME**:局部线性近似解释 ==== 14.4.2 大模型安全与对抗攻击 ==== **越狱攻击(Jailbreaking)**: 通过精心设计的提示绕过模型的安全限制。常见技术: - **角色扮演**:让模型扮演无道德约束的角色 - **间接注入**:通过外部内容(如网页)注入恶意指令 - **编码绕过**:使用Base64、翻译等方式编码有害内容 **对抗性攻击**: 在输入中添加人眼不可见的扰动,导致模型产生错误输出: $$x_{adv} = x + \epsilon \cdot \text{sign}(\nabla_x \mathcal{L}(f(x), y))$$ **防御技术**: - **对抗训练**:在训练中加入对抗样本 - **输入净化**:检测并移除对抗扰动 - **红队测试**:系统性寻找模型弱点 ==== 14.4.3 机器学习的因果推理 ==== **因果推理(Causal Inference)**旨在超越相关性,建立变量间的因果关系。 **因果层次**: - **关联(Association)**:$P(Y|X)$,看到X时Y的概率 - **干预(Intervention)**:$P(Y|do(X))$,改变X时Y的概率 - **反事实(Counterfactual)**:$P(Y_{X=x}|X=x', Y=y')$,如果当初做了不同选择会怎样 **因果发现**: 从观测数据中识别因果图结构。常用方法包括: - **PC算法**:基于条件独立性测试 - **GES(Greedy Equivalence Search)**:基于评分搜索 - **NOTEARS**:连续优化方法 **因果推断方法**: - **工具变量(IV)**:利用外生变量识别因果效应 - **双重机器学习**:结合ML与Neyman正交化 - **因果贝叶斯网络**:显式建模因果结构 ===== 14.5 例题分析 ===== **例题1:大语言模型的上下文学习** 给定提示模板: <code> 将以下中文翻译成英文: 中文:苹果 英文:apple 中文:香蕉 英文:banana 中文:橘子 英文: </code> **问题**: 1. 这是哪种上下文学习类型? 2. 解释为什么大语言模型能够进行上下文学习 3. 与微调相比,上下文学习的优缺点是什么? **解答**: 1. **类型识别**:这是**少样本学习(Few-shot Learning)**,提供了2个示例(2-shot)。 2. **上下文学习机制**: - **隐式梯度下降**:研究表明,上下文学习在数学上等价于在元层面进行梯度下降 - **注意力机制**:Transformer的注意力允许模型直接"复制"和"参考"提示中的示例 - **预训练任务匹配**:预训练中的语言建模任务要求预测下一个token,与给定示例后预测目标类似 - **任务识别**:模型从示例中识别出"翻译"这一任务类型 3. **优缺点分析**: | 方面 | 上下文学习 | 微调 | | 训练成本 | 无需训练,即时适应 | 需要额外训练 | | 数据需求 | 少量示例即可 | 需要较多标注数据 | | 灵活性 | 任务切换灵活 | 模型专用于特定任务 | | 性能 | 通常低于微调 | 通常更高 | | 上下文长度 | 受限于模型窗口 | 无此限制 | **例题2:扩散模型的数学推导** 扩散模型中,给定$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$,其中$\epsilon \sim \mathcal{N}(0, I)$。 **问题**: 1. 推导给定$x_0$时$x_t$的条件分布 2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列 3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布 **解答**: 1. **条件分布推导**: 给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声: $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$ 这是高斯分布的仿射变换,因此: $$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$ 均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$ 方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$ 2. **$\bar{\alpha}_t$递减的原因**: $\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。 - $t=0$:$\bar{\alpha}_0 = 1$,$x_0$是纯数据 - $t$增加:$\bar{\alpha}_t$减小,数据信号衰减 - $t=T$:$\bar{\alpha}_T \approx 0$,$x_T$接近纯噪声 这种设计确保前向过程逐步破坏数据结构,最终达到易采样的先验分布(标准高斯)。 3. **$x_T$的分布**: 当$\bar{\alpha}_T \approx 0$: $$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$ 因此$x_T \sim \mathcal{N}(0, I)$,与数据分布无关。这保证了反向过程可以从标准高斯噪声开始,逐步恢复数据。 **例题3:MoE负载均衡分析** 假设MoE层有$N=4$个专家,门控网络输出为$g = [0.4, 0.3, 0.2, 0.1]$,Top-2路由(选择概率最高的2个专家)。 **问题**: 1. 在Top-2路由下,各专家被激活的概率是多少? 2. 若当前批次有100个token,理想负载下每个专家应处理多少token? 3. 计算此门控分布的负载不均衡程度 **解答**: 1. **Top-2激活概率**: Top-2选择专家0和1(概率最高的两个)。 归一化门控权重: - 专家0:$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$ - 专家1:$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$ - 专家2,3:0(不被激活) 2. **理想负载**: 100个token,4个专家,理想情况下每个专家处理$100/4 = 25$个token。 3. **负载不均衡度**: 实际token分配(期望): - 专家0:$100 \times 0.57 = 57$ token - 专家1:$100 \times 0.43 = 43$ token - 专家2,3:0 token 负载均衡损失(简化版): 使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。 实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$ $H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$ $= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$ $= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$ 相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。 ===== 14.6 训练题 ===== ==== 14.6.1 选择题 ==== 1. 以下哪项不是大语言模型涌现能力的例子? A) 上下文学习 B) 思维链推理 C) 梯度下降优化 D) 指令遵循 2. RLHF中的奖励模型学习的是: A) 生成文本的困惑度 B) 人类对不同响应的偏好 C) 任务的正确答案 D) 语言模型的参数 3. 扩散模型的前向过程是: A) 从数据到噪声的确定性映射 B) 从噪声到数据的生成过程 C) 逐步添加噪声的随机过程 D) 一次性添加全部噪声 4. MoE模型的主要优势是: A) 减少总参数量 B) 每次推理只激活部分参数,降低计算成本 C) 提高训练稳定性 D) 消除过拟合 5. 状态空间模型(SSM)相比于Transformer的主要优势是: A) 更好的并行训练 B) 线性计算复杂度和常数级推理内存 C) 更强的表达能力 D) 更容易解释 ==== 14.6.2 填空题 ==== 1. 规模化定律表明,语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。 2. 在RLHF中,SFT阶段使用$\_\_\_\_$数据进行训练,RL阶段使用$\_\_\_\_$信号优化。 3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布,传递更多类别相似性信息。 4. 扩散模型的反向过程学习一个$\_\_\_\_$网络,用于逐步去除噪声。 5. 因果推理的三个层次是:关联、$\_\_\_\_$和$\_\_\_\_$。 ==== 14.6.3 简答题 ==== 1. 解释为什么扩散模型需要多步生成,而一致性模型可以实现单步生成。 2. 对比CLIP和DALL-E在多模态学习中的不同作用。 3. 说明MoE负载均衡损失的必要性,以及如何实现负载均衡。 ==== 14.6.4 计算题 ==== 1. 某扩散模型的噪声调度为$\beta_t = 0.02t/T$,$T=1000$。计算$\bar{\alpha}_{500}$和$\bar{\alpha}_{1000}$(提示:$\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$,可用近似$\ln(1-x) \approx -x$当$x$较小时)。 2. 在上下文学习中,提示包含3个示例,每个示例平均20个token,任务描述10个token,输入问题15个token。若模型最大上下文长度为2048,最多还能添加多少个示例? ===== 14.7 答案与解析 ===== ==== 14.7.1 选择题答案 ==== 1. **C**。梯度下降优化是训练过程,不是模型涌现的能力。涌现能力指模型在规模扩大后自发出现的能力,如上下文学习、思维链推理等。 2. **B**。奖励模型从人类偏好数据学习,预测人类对响应的相对偏好(哪个更好)。 3. **C**。前向扩散是马尔可夫链,逐步添加高斯噪声,将数据分布转化为简单分布。 4. **B**。MoE每次只激活Top-k专家,用更少的计算获得更大的模型容量。 5. **B**。SSM具有$O(n)$训练和$O(1)$推理内存复杂度,而Transformer注意力为$O(n^2)$。 ==== 14.7.2 填空题答案 ==== 1. **幂律(Power Law)** 2. **高质量指令-响应对(或标注数据)**、**奖励模型评分(或人类反馈)** 3. **软化(或平滑)** 4. **去噪(或噪声预测)** 5. **干预(Intervention)**、**反事实(Counterfactual)** ==== 14.7.3 简答题答案 ==== 1. **扩散模型vs一致性模型**: 扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。 一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。 2. **CLIP与DALL-E对比**: | 方面 | CLIP | DALL-E | | 方向 | 文本↔图像(对齐) | 文本→图像(生成) | | 架构 | 双编码器(对比学习) | 自回归/扩散生成 | | 输出 | 相似度分数 | 图像 | | 应用 | 检索、分类、作为条件 | 文本到图像生成 | CLIP学习共享的文本-图像表示空间,DALL-E学习从文本生成图像。CLIP可用于指导DALL-E的生成(如通过对比损失)。 3. **MoE负载均衡**: **必要性**:没有负载均衡时,门控网络可能将所有token路由到少数"容易"的专家,导致: - 专家使用不均衡,部分专家过载 - 其他专家不被训练,容量浪费 - 推理时某些专家成为瓶颈 **实现方法**: - 负载均衡损失:$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$,惩罚不均衡分配 - 容量限制:限制每个专家处理的token数量 - 专家选择:使用Top-k和噪声门控 ==== 14.7.4 计算题答案 ==== 1. **扩散模型噪声调度计算**: 给定$\beta_t = 0.02t/T = 0.00002t$ $\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$ 当$t=500$: $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$ 当$t=1000$: $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$ **答案**:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$ 2. **上下文长度计算**: 已用token: - 3个示例:$3 \times 20 = 60$ - 任务描述:$10$ - 输入问题:$15$ - 总计:$85$ 剩余token:$2048 - 85 = 1963$ 每个新示例约20个token,因此: $$\lfloor 1963 / 20 \rfloor = 98$$ **答案**:最多还能添加98个示例 登录 Detach Close 该主题尚不存在 您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。 深度学习/深度学习前沿.txt 最后更改: 2026/03/03 13:24由 张叶安 登录