第十四章深度学习前沿

14.1 大语言模型与基础模型

14.1.1 从预训练到基础模型

基础模型（Foundation Models）是指在大规模无标注数据上进行预训练，能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出，标志着人工智能研究范式的重大转变。

基础模型的核心特征是涌现能力（Emergent Abilities）：当模型规模达到一定阈值时，会突然展现出小型模型所不具备的能力。这些能力并非显式训练的结果，而是在大规模预训练过程中自发涌现的。例如，大型语言模型（LLM）在参数规模超过100B后，展现出上下文学习（In-Context Learning）、思维链推理（Chain-of-Thought Reasoning）等能力。

规模化定律（Scaling Laws）研究模型性能与规模（参数数量、数据量、计算量）之间的关系。研究表明，语言模型的测试损失$L$与模型参数$N$、训练token数$D$之间存在幂律关系：

$$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$

其中$\alpha \approx 0.34$，$\beta \approx 0.28$，$L_{\infty}$是不可约误差。这一规律表明，在合理范围内，增加模型规模和数据量可以持续提高性能。

计算最优训练（Chinchilla Optimal Training）研究表明，模型参数和训练token数应该以相同比例扩展。DeepMind的Chinchilla模型证明，在相同计算预算下，较小但训练更充分的模型（70B参数，1.4T tokens）可以超越更大但训练不足的模型（280B参数，300B tokens）。

14.1.2 GPT系列与自回归语言建模

GPT（Generative Pre-trained Transformer）系列是推动大语言模型发展的核心力量，采用自回归（Autoregressive）方式进行语言建模。

GPT架构演进：

GPT-1（2018，1.17亿参数）：证明预训练+微调的通用范式
GPT-2（2019，15亿参数）：展现零样本能力，提出“无监督多任务学习”
GPT-3（2020，1750亿参数）：开启大模型时代，展现惊人的少样本学习能力
GPT-4（2023，估计万亿级参数）：多模态能力，接近人类水平的通用智能

自回归语言建模的目标是最大化序列的联合概率：

$$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$

模型通过预测下一个token来学习语言的统计规律。这种训练目标简单但强大，使得模型能够学习语法、语义、常识和世界知识。

上下文学习（In-Context Learning）是大语言模型的革命性能力。通过在提示（Prompt）中提供示例，模型无需参数更新就能学习任务。包括：

零样本（Zero-shot）：直接描述任务，无示例
少样本（Few-shot）：提供少量示例（通常3-10个）
思维链（Chain-of-Thought）：引导模型展示推理过程

14.1.3 对齐技术与RLHF

预训练语言模型从海量互联网数据学习，可能产生有害、偏见或不真实的输出。对齐（Alignment）技术旨在使模型行为符合人类价值观和意图。

RLHF（Reinforcement Learning from Human Feedback）是OpenAI和Anthropic开发的对齐技术，包含三个阶段：

阶段1：监督微调（SFT）

收集高质量的指令-响应对，对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。

阶段2：奖励模型训练

训练一个奖励模型（Reward Model, RM）来评估响应质量。收集人类偏好数据：对于同一输入的两个不同响应，标注者选择更好的一个。奖励模型学习预测人类偏好：

$$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$

其中$y_w$是偏好的响应（win），$y_l$是不偏好的响应（loss）。

阶段3：强化学习优化

使用PPO算法优化语言模型策略，最大化奖励模型的评分：

$$\max_{\pi} \mathbb{E}_{x \sim D, y \sim \pi} [r_{\phi}(x, y)] - \beta \mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)]$$

KL散度约束防止策略偏离太远，保持语言能力。

RLHF的改进方向：

DPO（Direct Preference Optimization）：直接优化策略，无需显式训练奖励模型
RLAIF（RL from AI Feedback）：使用AI而非人类生成偏好数据
Constitutional AI：让AI根据原则自我修正

14.1.4 多模态大模型

多模态大模型（Multimodal Large Models）能够理解和生成多种模态（文本、图像、音频、视频）的内容，是实现通用人工智能的关键一步。

视觉-语言模型：

CLIP（Contrastive Language-Image Pre-training）：通过对比学习将图像和文本映射到共享嵌入空间
DALL-E系列：文本到图像生成，DALL-E 3结合ChatGPT实现精确控制
GPT-4V：具备视觉理解能力的大语言模型
LLaVA、MiniGPT-4：开源视觉-语言助手

统一架构：

多模态模型通常采用编码器-投影器-LLM架构：

1. 使用专门的编码器（如ViT用于图像）提取模态特征

2. 通过投影层（线性层或轻量级网络）将特征对齐到语言空间

3. 大语言模型进行统一的理解和生成

14.2 高效模型架构

14.2.1 模型压缩与量化

大模型的部署面临计算资源、内存和延迟的挑战。模型压缩技术旨在减小模型体积和计算需求，同时保持性能。

知识蒸馏（Knowledge Distillation）：

让小模型（学生）学习大模型（教师）的行为。不仅学习硬标签，还学习软标签（概率分布）：

$$\mathcal{L}_{KD} = \alpha \mathcal{L}_{CE}(y_{student}, y_{true}) + (1-\alpha) \mathcal{L}_{KL}(y_{student}/T, y_{teacher}/T)$$

温度参数$T$软化概率分布，传递更多关于类别相似性的信息。

量化（Quantization）：

将浮点权重转换为低精度表示（如INT8、INT4）。量化方法包括：

训练后量化（PTQ）：直接对训练好的模型量化
量化感知训练（QAT）：在训练中模拟量化效应
LLM.int8()、GPTQ：针对大模型的专用量化方法

剪枝（Pruning）：

移除不重要的权重或神经元。分为：

非结构化剪枝：移除单个权重，需要硬件支持
结构化剪枝：移除整个通道或层，更易部署

14.2.2 高效注意力机制

标准自注意力的计算复杂度为$O(n^2)$，成为长序列处理的瓶颈。

稀疏注意力：

局部注意力（Local Attention）：只关注邻近位置
稀疏模式（Sparse Patterns）：固定稀疏模式如Longformer的“全局+滑动窗口”
随机注意力（Random Attention）：随机选择部分位置关注

线性注意力：

将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax：

$$\text{softmax}(\frac{QK^T}{\sqrt{d}})V \approx \phi(Q)(\phi(K)^TV)$$

代表性方法：Performer、Linear Transformer、RWKV。

硬件感知注意力：

FlashAttention：通过IO感知的分块计算，减少GPU内存访问
FlashAttention-2：进一步优化warps级并行

14.2.3 状态空间模型与RNN复兴

状态空间模型（State Space Models, SSM）是Transformer的新兴替代方案，具有线性复杂度。

S4（Structured State Space for Sequence Modeling）：

将序列建模视为连续系统的离散化：

$$\dot{h}(t) = Ah(t) + Bx(t), \quad y(t) = Ch(t)$$

其中$A$是结构化矩阵（HiPPO初始化保证长程记忆）。离散化后：

$$h_k = \bar{A}h_{k-1} + \bar{B}x_k, \quad y_k = \bar{C}h_k$$

通过特定的结构化矩阵，可以实现$O(n)$训练和$O(1)$推理。

Mamba：

选择性状态空间模型，引入输入依赖的选择机制：

$$h_k = \bar{A}_k h_{k-1} + \bar{B}_k x_k$$

参数$\bar{A}_k$和$\bar{B}_k$根据输入动态选择，使模型能聚焦于相关信息。Mamba在长序列任务上匹敌Transformer，同时保持线性复杂度。

14.2.4 Mixture of Experts

混合专家模型（Mixture of Experts, MoE）通过条件计算扩展模型容量，每次只激活部分参数。

MoE层结构：

多个专家网络（通常是FFN）
门控网络（Gating Network）决定激活哪些专家

$$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$

其中$G(x) = \text{Softmax}(W_g \cdot x)$，通常只选择top-$k$专家。

负载均衡：

为避免所有输入都路由到少数专家，引入负载均衡损失：

$$\mathcal{L}_{balance} = \alpha N \sum_{i=1}^{N} f_i \cdot P_i$$

其中$f_i$是分配给专家$i$的token比例，$P_i$是门控分配给专家$i$的平均概率。

代表性模型：

Switch Transformer：每个token激活1个专家，简单高效
GLaM、PaLM-E：大规模MoE语言模型
Mixtral 8x7B：开源MoE模型，性能超越更大稠密模型

14.3 生成模型新进展

14.3.1 扩散模型

扩散模型（Diffusion Models）是当前最先进的图像生成技术，也被应用于音频、视频和分子生成。

前向扩散过程：

逐步向数据添加高斯噪声，经过$T$步后数据接近纯噪声：

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$$

累积形式：$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$

反向去噪过程：

学习神经网络逆转扩散过程：

$$p_{\theta}(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$$

训练目标通常简化为预测噪声：

$$\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_{\theta}(x_t, t)||^2 \right]$$

条件生成：

类别条件：通过类别嵌入或分类器引导
文本条件：使用CLIP或T5编码文本，通过cross-attention注入
Classifier-Free Guidance（CFG）：同时训练条件和无条件生成，推理时插值

代表性模型：

DDPM、DDIM：基础扩散模型
Stable Diffusion、DALL-E 2/3、Midjourney：图像生成
Imagen Video、Make-A-Video：视频生成
AudioLDM：音频生成

14.3.2 流模型与一致性模型

流模型（Flow-based Models）通过可逆变换学习精确的数据分布。

连续正规化流（Continuous Normalizing Flows, CNF）：

用神经网络参数化的常微分方程描述概率流：

$$\frac{dx}{dt} = f_{\theta}(x_t, t), \quad x_0 \sim p_0$$

通过瞬时变化公式计算密度：

$$\frac{d \log p(x_t)}{dt} = -\text{tr}\left(\frac{\partial f}{\partial x_t}\right)$$

流匹配（Flow Matching）：

直接回归条件概率路径，避免求解ODE。训练目标为：

$$\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1} ||u_t(x_t) - v_{\theta}(x_t, t)||^2$$

其中$u_t$是条件向量场，$v_{\theta}$是神经网络。

Rectified Flow：

学习将噪声直接映射到数据的直线路径，实现一步或少步生成。

一致性模型（Consistency Models）：

学习将任意时间步的噪声直接映射回数据空间，实现单步生成。一致性函数$f_{\theta}$满足：

$$f_{\theta}(x_t, t) = f_{\theta}(x_{t'}, t') \quad \text{for all } t, t'$$

特别地，$f_{\theta}(x_T, T) = x_0$。训练后的模型可以单步生成高质量样本。

14.3.3 神经辐射场与3D生成

神经辐射场（Neural Radiance Fields, NeRF）使用神经网络表示3D场景，实现了照片级的新视角合成。

NeRF表示：

场景由MLP参数化，输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$，输出体密度$\sigma$和RGB颜色$c$：

$$(\sigma, \mathbf{c}) = \text{MLP}(\gamma(\mathbf{x}), \gamma(\mathbf{d}))$$

其中$\gamma$是位置编码：$\gamma(p) = [\sin(2^0 \pi p), \cos(2^0 \pi p), ..., \sin(2^{L-1} \pi p), \cos(2^{L-1} \pi p)]$

体积渲染：

通过沿光线积分计算像素颜色：

$$\hat{C}(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$$

其中$T(t) = \exp(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) ds)$是透射率。

3D生成模型：

DreamFusion、Magic3D：文本到3D生成，使用分数蒸馏采样（SDS）
Point-E：基于点云的文本到3D生成
Gaussian Splatting：使用3D高斯表示，实现实时渲染

14.4 可解释性与安全

14.4.1 模型可解释性

深度学习模型的“黑盒”特性阻碍了其在高风险领域的应用。可解释性研究旨在理解模型的决策机制。

mechanistic interpretability（机械可解释性）：

试图逆向工程神经网络，理解其内部表示和计算。

探测（Probing）：

训练简单分类器探测模型内部表示是否包含特定信息：

$$\text{Probe}(h_l) \rightarrow \text{linguistic property}$$

如果探测分类器能准确预测语言学属性，说明该层表示编码了该信息。

注意力可视化：

可视化Transformer的注意力权重，观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。

归因方法：

Integrated Gradients：计算输入特征对输出的积分梯度
SHAP：基于博弈论的特征重要性
LIME：局部线性近似解释

14.4.2 大模型安全与对抗攻击

越狱攻击（Jailbreaking）：

通过精心设计的提示绕过模型的安全限制。常见技术：

角色扮演：让模型扮演无道德约束的角色
间接注入：通过外部内容（如网页）注入恶意指令
编码绕过：使用Base64、翻译等方式编码有害内容

对抗性攻击：

在输入中添加人眼不可见的扰动，导致模型产生错误输出：

$$x_{adv} = x + \epsilon \cdot \text{sign}(\nabla_x \mathcal{L}(f(x), y))$$

防御技术：

对抗训练：在训练中加入对抗样本
输入净化：检测并移除对抗扰动
红队测试：系统性寻找模型弱点

14.4.3 机器学习的因果推理

因果推理（Causal Inference）旨在超越相关性，建立变量间的因果关系。

因果层次：

关联（Association）：$P(Y|X)$，看到X时Y的概率
干预（Intervention）：$P(Y|do(X))$，改变X时Y的概率
反事实（Counterfactual）：$P(Y_{X=x}|X=x', Y=y')$，如果当初做了不同选择会怎样

因果发现：

从观测数据中识别因果图结构。常用方法包括：

PC算法：基于条件独立性测试
GES（Greedy Equivalence Search）：基于评分搜索
NOTEARS：连续优化方法

因果推断方法：

工具变量（IV）：利用外生变量识别因果效应
双重机器学习：结合ML与Neyman正交化
因果贝叶斯网络：显式建模因果结构

14.5 例题分析

例题1：大语言模型的上下文学习

给定提示模板：

将以下中文翻译成英文：
中文：苹果
英文：apple

中文：香蕉
英文：banana

中文：橘子
英文：

问题：

1. 这是哪种上下文学习类型？

2. 解释为什么大语言模型能够进行上下文学习

3. 与微调相比，上下文学习的优缺点是什么？

解答：

1. 类型识别：这是少样本学习（Few-shot Learning），提供了2个示例（2-shot）。

2. 上下文学习机制：

隐式梯度下降：研究表明，上下文学习在数学上等价于在元层面进行梯度下降
注意力机制：Transformer的注意力允许模型直接“复制”和“参考”提示中的示例
预训练任务匹配：预训练中的语言建模任务要求预测下一个token，与给定示例后预测目标类似
任务识别：模型从示例中识别出“翻译”这一任务类型

3. 优缺点分析：

方面	上下文学习	微调
训练成本	无需训练，即时适应	需要额外训练
数据需求	少量示例即可	需要较多标注数据
灵活性	任务切换灵活	模型专用于特定任务
性能	通常低于微调	通常更高
上下文长度	受限于模型窗口	无此限制

例题2：扩散模型的数学推导

扩散模型中，给定$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$，其中$\epsilon \sim \mathcal{N}(0, I)$。

问题：

1. 推导给定$x_0$时$x_t$的条件分布

2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列

3. 若$\bar{\alpha}_T \approx 0$，说明$x_T$的分布

解答：

1. 条件分布推导：

给定$x_0$，$x_t$是$x_0$的线性变换加上高斯噪声：

$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$

这是高斯分布的仿射变换，因此：

$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$

均值：$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$

方差：$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$

2. $\bar{\alpha}_t$递减的原因：

$\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$，其中$\beta_s \in (0, 1)$是噪声调度参数。

$t=0$：$\bar{\alpha}_0 = 1$，$x_0$是纯数据
$t$增加：$\bar{\alpha}_t$减小，数据信号衰减
$t=T$：$\bar{\alpha}_T \approx 0$，$x_T$接近纯噪声

这种设计确保前向过程逐步破坏数据结构，最终达到易采样的先验分布（标准高斯）。

3. $x_T$的分布：

当$\bar{\alpha}_T \approx 0$：

$$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$

因此$x_T \sim \mathcal{N}(0, I)$，与数据分布无关。这保证了反向过程可以从标准高斯噪声开始，逐步恢复数据。

例题3：MoE负载均衡分析

假设MoE层有$N=4$个专家，门控网络输出为$g = [0.4, 0.3, 0.2, 0.1]$，Top-2路由（选择概率最高的2个专家）。

问题：

1. 在Top-2路由下，各专家被激活的概率是多少？

2. 若当前批次有100个token，理想负载下每个专家应处理多少token？

3. 计算此门控分布的负载不均衡程度

解答：

1. Top-2激活概率：

Top-2选择专家0和1（概率最高的两个）。

归一化门控权重：

专家0：$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$
专家1：$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$
专家2,3：0（不被激活）

2. 理想负载：

100个token，4个专家，理想情况下每个专家处理$100/4 = 25$个token。

3. 负载不均衡度：

实际token分配（期望）：

专家0：$100 \times 0.57 = 57$ token
专家1：$100 \times 0.43 = 43$ token
专家2,3：0 token

负载均衡损失（简化版）：

使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$，理想均匀分布的熵为$\log 4 \approx 1.39$。

实际概率分布（按门控）：$p = [0.4, 0.3, 0.2, 0.1]$

$H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$

$= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$

$= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$

相对理想熵的比例：$1.28 / 1.39 \approx 0.92$，说明有轻微不均衡。

14.6 训练题

14.6.1 选择题

1. 以下哪项不是大语言模型涌现能力的例子？

 A) 上下文学习
 B) 思维链推理
 C) 梯度下降优化
 D) 指令遵循

2. RLHF中的奖励模型学习的是：

 A) 生成文本的困惑度
 B) 人类对不同响应的偏好
 C) 任务的正确答案
 D) 语言模型的参数

3. 扩散模型的前向过程是：

 A) 从数据到噪声的确定性映射
 B) 从噪声到数据的生成过程
 C) 逐步添加噪声的随机过程
 D) 一次性添加全部噪声

4. MoE模型的主要优势是：

 A) 减少总参数量
 B) 每次推理只激活部分参数，降低计算成本
 C) 提高训练稳定性
 D) 消除过拟合

5. 状态空间模型（SSM）相比于Transformer的主要优势是：

 A) 更好的并行训练
 B) 线性计算复杂度和常数级推理内存
 C) 更强的表达能力
 D) 更容易解释

14.6.2 填空题

1. 规模化定律表明，语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。

2. 在RLHF中，SFT阶段使用$\_\_\_\_$数据进行训练，RL阶段使用$\_\_\_\_$信号优化。

3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布，传递更多类别相似性信息。

4. 扩散模型的反向过程学习一个$\_\_\_\_$网络，用于逐步去除噪声。

5. 因果推理的三个层次是：关联、$\_\_\_\_$和$\_\_\_\_$。

14.6.3 简答题

1. 解释为什么扩散模型需要多步生成，而一致性模型可以实现单步生成。

2. 对比CLIP和DALL-E在多模态学习中的不同作用。

3. 说明MoE负载均衡损失的必要性，以及如何实现负载均衡。

14.6.4 计算题

1. 某扩散模型的噪声调度为$\beta_t = 0.02t/T$，$T=1000$。计算$\bar{\alpha}_{500}$和$\bar{\alpha}_{1000}$（提示：$\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$，可用近似$\ln(1-x) \approx -x$当$x$较小时）。

2. 在上下文学习中，提示包含3个示例，每个示例平均20个token，任务描述10个token，输入问题15个token。若模型最大上下文长度为2048，最多还能添加多少个示例？

14.7 答案与解析

14.7.1 选择题答案

1. C。梯度下降优化是训练过程，不是模型涌现的能力。涌现能力指模型在规模扩大后自发出现的能力，如上下文学习、思维链推理等。

2. B。奖励模型从人类偏好数据学习，预测人类对响应的相对偏好（哪个更好）。

3. C。前向扩散是马尔可夫链，逐步添加高斯噪声，将数据分布转化为简单分布。

4. B。MoE每次只激活Top-k专家，用更少的计算获得更大的模型容量。

5. B。SSM具有$O(n)$训练和$O(1)$推理内存复杂度，而Transformer注意力为$O(n^2)$。

14.7.2 填空题答案

1. 幂律（Power Law）

2. 高质量指令-响应对（或标注数据）、奖励模型评分（或人类反馈）

3. 软化（或平滑）

4. 去噪（或噪声预测）

5. 干预（Intervention）、反事实（Counterfactual）

14.7.3 简答题答案

1. 扩散模型vs一致性模型：

扩散模型通过迭代去噪生成样本，每一步只进行小幅度的噪声去除，需要多步（通常20-1000步）才能从纯噪声生成高质量图像。

一致性模型训练一个直接映射函数，将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致，因此推理时可以单步完成，或仅用几步精炼。

2. CLIP与DALL-E对比：

方面	CLIP	DALL-E
方向	文本↔图像（对齐）	文本→图像（生成）
架构	双编码器（对比学习）	自回归/扩散生成
输出	相似度分数	图像
应用	检索、分类、作为条件	文本到图像生成

3. MoE负载均衡：

必要性：没有负载均衡时，门控网络可能将所有token路由到少数“容易”的专家，导致：

专家使用不均衡，部分专家过载
其他专家不被训练，容量浪费
推理时某些专家成为瓶颈

实现方法：

负载均衡损失：$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$，惩罚不均衡分配
容量限制：限制每个专家处理的token数量
专家选择：使用Top-k和噪声门控

14.7.4 计算题答案

1. 扩散模型噪声调度计算：

给定$\beta_t = 0.02t/T = 0.00002t$

$\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$

当$t=500$： $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$

当$t=1000$： $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$

答案：$\bar{\alpha}_{500} \approx 0.082$，$\bar{\alpha}_{1000} \approx 0$

2. 上下文长度计算：

已用token： - 3个示例：$3 \times 20 = 60$ - 任务描述：$10$ - 输入问题：$15$ - 总计：$85$

剩余token：$2048 - 85 = 1963$

每个新示例约20个token，因此： $$\lfloor 1963 / 20 \rfloor = 98$$

答案：最多还能添加98个示例

目录

第十四章 深度学习前沿