深度学习:深度学习前沿

第十四章 深度学习前沿

基础模型(Foundation Models)是指在大规模无标注数据上进行预训练,能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出,标志着人工智能研究范式的重大转变。

基础模型的核心特征是涌现能力(Emergent Abilities):当模型规模达到一定阈值时,会突然展现出小型模型所不具备的能力。这些能力并非显式训练的结果,而是在大规模预训练过程中自发涌现的。例如,大型语言模型(LLM)在参数规模超过100B后,展现出上下文学习(In-Context Learning)、思维链推理(Chain-of-Thought Reasoning)等能力。

规模化定律(Scaling Laws)研究模型性能与规模(参数数量、数据量、计算量)之间的关系。研究表明,语言模型的测试损失$L$与模型参数$N$、训练token数$D$之间存在幂律关系:

$$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$

其中$\alpha \approx 0.34$,$\beta \approx 0.28$,$L_{\infty}$是不可约误差。这一规律表明,在合理范围内,增加模型规模和数据量可以持续提高性能。

计算最优训练(Chinchilla Optimal Training)研究表明,模型参数和训练token数应该以相同比例扩展。DeepMind的Chinchilla模型证明,在相同计算预算下,较小但训练更充分的模型(70B参数,1.4T tokens)可以超越更大但训练不足的模型(280B参数,300B tokens)。

GPT(Generative Pre-trained Transformer)系列是推动大语言模型发展的核心力量,采用自回归(Autoregressive)方式进行语言建模。

GPT架构演进

  1. GPT-1(2018,1.17亿参数):证明预训练+微调的通用范式
  2. GPT-2(2019,15亿参数):展现零样本能力,提出“无监督多任务学习”
  3. GPT-3(2020,1750亿参数):开启大模型时代,展现惊人的少样本学习能力
  4. GPT-4(2023,估计万亿级参数):多模态能力,接近人类水平的通用智能

自回归语言建模的目标是最大化序列的联合概率:

$$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$

模型通过预测下一个token来学习语言的统计规律。这种训练目标简单但强大,使得模型能够学习语法、语义、常识和世界知识。

上下文学习(In-Context Learning)是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括:

  1. 零样本(Zero-shot):直接描述任务,无示例
  2. 少样本(Few-shot):提供少量示例(通常3-10个)
  3. 思维链(Chain-of-Thought):引导模型展示推理过程

预训练语言模型从海量互联网数据学习,可能产生有害、偏见或不真实的输出。对齐(Alignment)技术旨在使模型行为符合人类价值观和意图。

RLHF(Reinforcement Learning from Human Feedback)是OpenAI和Anthropic开发的对齐技术,包含三个阶段:

阶段1:监督微调(SFT)

收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。

阶段2:奖励模型训练

训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好:

$$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$

其中$y_w$是偏好的响应(win),$y_l$是不偏好的响应(loss)。

阶段3:强化学习优化

使用PPO算法优化语言模型策略,最大化奖励模型的评分:

$$\max_{\pi} \mathbb{E}_{x \sim D, y \sim \pi} [r_{\phi}(x, y)] - \beta \mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)]$$

KL散度约束防止策略偏离太远,保持语言能力。

RLHF的改进方向

  1. DPO(Direct Preference Optimization):直接优化策略,无需显式训练奖励模型
  2. RLAIF(RL from AI Feedback):使用AI而非人类生成偏好数据
  3. Constitutional AI:让AI根据原则自我修正

多模态大模型(Multimodal Large Models)能够理解和生成多种模态(文本、图像、音频、视频)的内容,是实现通用人工智能的关键一步。

视觉-语言模型

  1. CLIP(Contrastive Language-Image Pre-training):通过对比学习将图像和文本映射到共享嵌入空间
  2. DALL-E系列:文本到图像生成,DALL-E 3结合ChatGPT实现精确控制
  3. GPT-4V:具备视觉理解能力的大语言模型
  4. LLaVA、MiniGPT-4:开源视觉-语言助手

统一架构

多模态模型通常采用编码器-投影器-LLM架构:

1. 使用专门的编码器(如ViT用于图像)提取模态特征

2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间

3. 大语言模型进行统一的理解和生成

大模型的部署面临计算资源、内存和延迟的挑战。模型压缩技术旨在减小模型体积和计算需求,同时保持性能。

知识蒸馏(Knowledge Distillation)

让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布):

$$\mathcal{L}_{KD} = \alpha \mathcal{L}_{CE}(y_{student}, y_{true}) + (1-\alpha) \mathcal{L}_{KL}(y_{student}/T, y_{teacher}/T)$$

温度参数$T$软化概率分布,传递更多关于类别相似性的信息。

量化(Quantization)

将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括:

  1. 训练后量化(PTQ):直接对训练好的模型量化
  2. 量化感知训练(QAT):在训练中模拟量化效应
  3. LLM.int8()、GPTQ:针对大模型的专用量化方法

剪枝(Pruning)

移除不重要的权重或神经元。分为:

  1. 非结构化剪枝:移除单个权重,需要硬件支持
  2. 结构化剪枝:移除整个通道或层,更易部署

标准自注意力的计算复杂度为$O(n^2)$,成为长序列处理的瓶颈。

稀疏注意力

  1. 局部注意力(Local Attention):只关注邻近位置
  2. 稀疏模式(Sparse Patterns):固定稀疏模式如Longformer的“全局+滑动窗口”
  3. 随机注意力(Random Attention):随机选择部分位置关注

线性注意力

将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax:

$$\text{softmax}(\frac{QK^T}{\sqrt{d}})V \approx \phi(Q)(\phi(K)^TV)$$

代表性方法:Performer、Linear Transformer、RWKV。

硬件感知注意力

  1. FlashAttention:通过IO感知的分块计算,减少GPU内存访问
  2. FlashAttention-2:进一步优化warps级并行

状态空间模型(State Space Models, SSM)是Transformer的新兴替代方案,具有线性复杂度。

S4(Structured State Space for Sequence Modeling)

将序列建模视为连续系统的离散化:

$$\dot{h}(t) = Ah(t) + Bx(t), \quad y(t) = Ch(t)$$

其中$A$是结构化矩阵(HiPPO初始化保证长程记忆)。离散化后:

$$h_k = \bar{A}h_{k-1} + \bar{B}x_k, \quad y_k = \bar{C}h_k$$

通过特定的结构化矩阵,可以实现$O(n)$训练和$O(1)$推理。

Mamba

选择性状态空间模型,引入输入依赖的选择机制:

$$h_k = \bar{A}_k h_{k-1} + \bar{B}_k x_k$$

参数$\bar{A}_k$和$\bar{B}_k$根据输入动态选择,使模型能聚焦于相关信息。Mamba在长序列任务上匹敌Transformer,同时保持线性复杂度。

混合专家模型(Mixture of Experts, MoE)通过条件计算扩展模型容量,每次只激活部分参数。

MoE层结构

  1. 多个专家网络(通常是FFN)
  2. 门控网络(Gating Network)决定激活哪些专家

$$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$

其中$G(x) = \text{Softmax}(W_g \cdot x)$,通常只选择top-$k$专家。

负载均衡

为避免所有输入都路由到少数专家,引入负载均衡损失:

$$\mathcal{L}_{balance} = \alpha N \sum_{i=1}^{N} f_i \cdot P_i$$

其中$f_i$是分配给专家$i$的token比例,$P_i$是门控分配给专家$i$的平均概率。

代表性模型

  1. Switch Transformer:每个token激活1个专家,简单高效
  2. GLaM、PaLM-E:大规模MoE语言模型
  3. Mixtral 8x7B:开源MoE模型,性能超越更大稠密模型

扩散模型(Diffusion Models)是当前最先进的图像生成技术,也被应用于音频、视频和分子生成。

前向扩散过程

逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声:

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$$

累积形式:$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$

反向去噪过程

学习神经网络逆转扩散过程:

$$p_{\theta}(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$$

训练目标通常简化为预测噪声:

$$\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_{\theta}(x_t, t)||^2 \right]$$

条件生成

  1. 类别条件:通过类别嵌入或分类器引导
  2. 文本条件:使用CLIP或T5编码文本,通过cross-attention注入
  3. Classifier-Free Guidance(CFG):同时训练条件和无条件生成,推理时插值

代表性模型

  1. DDPM、DDIM:基础扩散模型
  2. Stable Diffusion、DALL-E 2/3、Midjourney:图像生成
  3. Imagen Video、Make-A-Video:视频生成
  4. AudioLDM:音频生成

流模型(Flow-based Models)通过可逆变换学习精确的数据分布。

连续正规化流(Continuous Normalizing Flows, CNF)

用神经网络参数化的常微分方程描述概率流:

$$\frac{dx}{dt} = f_{\theta}(x_t, t), \quad x_0 \sim p_0$$

通过瞬时变化公式计算密度:

$$\frac{d \log p(x_t)}{dt} = -\text{tr}\left(\frac{\partial f}{\partial x_t}\right)$$

流匹配(Flow Matching)

直接回归条件概率路径,避免求解ODE。训练目标为:

$$\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1} ||u_t(x_t) - v_{\theta}(x_t, t)||^2$$

其中$u_t$是条件向量场,$v_{\theta}$是神经网络。

Rectified Flow

学习将噪声直接映射到数据的直线路径,实现一步或少步生成。

一致性模型(Consistency Models)

学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足:

$$f_{\theta}(x_t, t) = f_{\theta}(x_{t'}, t') \quad \text{for all } t, t'$$

特别地,$f_{\theta}(x_T, T) = x_0$。训练后的模型可以单步生成高质量样本。

神经辐射场(Neural Radiance Fields, NeRF)使用神经网络表示3D场景,实现了照片级的新视角合成。

NeRF表示

场景由MLP参数化,输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$,输出体密度$\sigma$和RGB颜色$c$:

$$(\sigma, \mathbf{c}) = \text{MLP}(\gamma(\mathbf{x}), \gamma(\mathbf{d}))$$

其中$\gamma$是位置编码:$\gamma(p) = [\sin(2^0 \pi p), \cos(2^0 \pi p), ..., \sin(2^{L-1} \pi p), \cos(2^{L-1} \pi p)]$

体积渲染

通过沿光线积分计算像素颜色:

$$\hat{C}(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$$

其中$T(t) = \exp(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) ds)$是透射率。

3D生成模型

  1. DreamFusion、Magic3D:文本到3D生成,使用分数蒸馏采样(SDS)
  2. Point-E:基于点云的文本到3D生成
  3. Gaussian Splatting:使用3D高斯表示,实现实时渲染

深度学习模型的“黑盒”特性阻碍了其在高风险领域的应用。可解释性研究旨在理解模型的决策机制。

mechanistic interpretability(机械可解释性)

试图逆向工程神经网络,理解其内部表示和计算。

探测(Probing)

训练简单分类器探测模型内部表示是否包含特定信息:

$$\text{Probe}(h_l) \rightarrow \text{linguistic property}$$

如果探测分类器能准确预测语言学属性,说明该层表示编码了该信息。

注意力可视化

可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。

归因方法

  1. Integrated Gradients:计算输入特征对输出的积分梯度
  2. SHAP:基于博弈论的特征重要性
  3. LIME:局部线性近似解释

越狱攻击(Jailbreaking)

通过精心设计的提示绕过模型的安全限制。常见技术:

  1. 角色扮演:让模型扮演无道德约束的角色
  2. 间接注入:通过外部内容(如网页)注入恶意指令
  3. 编码绕过:使用Base64、翻译等方式编码有害内容

对抗性攻击

在输入中添加人眼不可见的扰动,导致模型产生错误输出:

$$x_{adv} = x + \epsilon \cdot \text{sign}(\nabla_x \mathcal{L}(f(x), y))$$

防御技术

  1. 对抗训练:在训练中加入对抗样本
  2. 输入净化:检测并移除对抗扰动
  3. 红队测试:系统性寻找模型弱点

因果推理(Causal Inference)旨在超越相关性,建立变量间的因果关系。

因果层次

  1. 关联(Association):$P(Y|X)$,看到X时Y的概率
  2. 干预(Intervention):$P(Y|do(X))$,改变X时Y的概率
  3. 反事实(Counterfactual):$P(Y_{X=x}|X=x', Y=y')$,如果当初做了不同选择会怎样

因果发现

从观测数据中识别因果图结构。常用方法包括:

  1. PC算法:基于条件独立性测试
  2. GES(Greedy Equivalence Search):基于评分搜索
  3. NOTEARS:连续优化方法

因果推断方法

  1. 工具变量(IV):利用外生变量识别因果效应
  2. 双重机器学习:结合ML与Neyman正交化
  3. 因果贝叶斯网络:显式建模因果结构

例题1:大语言模型的上下文学习

给定提示模板:

将以下中文翻译成英文:
中文:苹果
英文:apple

中文:香蕉
英文:banana

中文:橘子
英文:

问题

1. 这是哪种上下文学习类型?

2. 解释为什么大语言模型能够进行上下文学习

3. 与微调相比,上下文学习的优缺点是什么?

解答

1. 类型识别:这是少样本学习(Few-shot Learning),提供了2个示例(2-shot)。

2. 上下文学习机制

  1. 隐式梯度下降:研究表明,上下文学习在数学上等价于在元层面进行梯度下降
  2. 注意力机制:Transformer的注意力允许模型直接“复制”和“参考”提示中的示例
  3. 预训练任务匹配:预训练中的语言建模任务要求预测下一个token,与给定示例后预测目标类似
  4. 任务识别:模型从示例中识别出“翻译”这一任务类型

3. 优缺点分析

方面 上下文学习 微调
训练成本 无需训练,即时适应 需要额外训练
数据需求 少量示例即可 需要较多标注数据
灵活性 任务切换灵活 模型专用于特定任务
性能 通常低于微调 通常更高
上下文长度 受限于模型窗口 无此限制

例题2:扩散模型的数学推导

扩散模型中,给定$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$,其中$\epsilon \sim \mathcal{N}(0, I)$。

问题

1. 推导给定$x_0$时$x_t$的条件分布

2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列

3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布

解答

1. 条件分布推导

给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声:

$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$

这是高斯分布的仿射变换,因此:

$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$

均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$

方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$

2. $\bar{\alpha}_t$递减的原因

$\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。

  1. $t=0$:$\bar{\alpha}_0 = 1$,$x_0$是纯数据
  2. $t$增加:$\bar{\alpha}_t$减小,数据信号衰减
  3. $t=T$:$\bar{\alpha}_T \approx 0$,$x_T$接近纯噪声

这种设计确保前向过程逐步破坏数据结构,最终达到易采样的先验分布(标准高斯)。

3. $x_T$的分布

当$\bar{\alpha}_T \approx 0$:

$$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$

因此$x_T \sim \mathcal{N}(0, I)$,与数据分布无关。这保证了反向过程可以从标准高斯噪声开始,逐步恢复数据。

例题3:MoE负载均衡分析

假设MoE层有$N=4$个专家,门控网络输出为$g = [0.4, 0.3, 0.2, 0.1]$,Top-2路由(选择概率最高的2个专家)。

问题

1. 在Top-2路由下,各专家被激活的概率是多少?

2. 若当前批次有100个token,理想负载下每个专家应处理多少token?

3. 计算此门控分布的负载不均衡程度

解答

1. Top-2激活概率

Top-2选择专家0和1(概率最高的两个)。

归一化门控权重:

  1. 专家0:$0.4 / (0.4 + 0.3) = 0.4/0.7 \approx 0.57$
  2. 专家1:$0.3 / (0.4 + 0.3) = 0.3/0.7 \approx 0.43$
  3. 专家2,3:0(不被激活)

2. 理想负载

100个token,4个专家,理想情况下每个专家处理$100/4 = 25$个token。

3. 负载不均衡度

实际token分配(期望):

  1. 专家0:$100 \times 0.57 = 57$ token
  2. 专家1:$100 \times 0.43 = 43$ token
  3. 专家2,3:0 token

负载均衡损失(简化版):

使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。

实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$

$H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$

$= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$

$= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$

相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。

1. 以下哪项不是大语言模型涌现能力的例子?

 A) 上下文学习
 B) 思维链推理
 C) 梯度下降优化
 D) 指令遵循

2. RLHF中的奖励模型学习的是:

 A) 生成文本的困惑度
 B) 人类对不同响应的偏好
 C) 任务的正确答案
 D) 语言模型的参数

3. 扩散模型的前向过程是:

 A) 从数据到噪声的确定性映射
 B) 从噪声到数据的生成过程
 C) 逐步添加噪声的随机过程
 D) 一次性添加全部噪声

4. MoE模型的主要优势是:

 A) 减少总参数量
 B) 每次推理只激活部分参数,降低计算成本
 C) 提高训练稳定性
 D) 消除过拟合

5. 状态空间模型(SSM)相比于Transformer的主要优势是:

 A) 更好的并行训练
 B) 线性计算复杂度和常数级推理内存
 C) 更强的表达能力
 D) 更容易解释

1. 规模化定律表明,语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。

2. 在RLHF中,SFT阶段使用$\_\_\_\_$数据进行训练,RL阶段使用$\_\_\_\_$信号优化。

3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布,传递更多类别相似性信息。

4. 扩散模型的反向过程学习一个$\_\_\_\_$网络,用于逐步去除噪声。

5. 因果推理的三个层次是:关联、$\_\_\_\_$和$\_\_\_\_$。

1. 解释为什么扩散模型需要多步生成,而一致性模型可以实现单步生成。

2. 对比CLIP和DALL-E在多模态学习中的不同作用。

3. 说明MoE负载均衡损失的必要性,以及如何实现负载均衡。

1. 某扩散模型的噪声调度为$\beta_t = 0.02t/T$,$T=1000$。计算$\bar{\alpha}_{500}$和$\bar{\alpha}_{1000}$(提示:$\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$,可用近似$\ln(1-x) \approx -x$当$x$较小时)。

2. 在上下文学习中,提示包含3个示例,每个示例平均20个token,任务描述10个token,输入问题15个token。若模型最大上下文长度为2048,最多还能添加多少个示例?

1. C。梯度下降优化是训练过程,不是模型涌现的能力。涌现能力指模型在规模扩大后自发出现的能力,如上下文学习、思维链推理等。

2. B。奖励模型从人类偏好数据学习,预测人类对响应的相对偏好(哪个更好)。

3. C。前向扩散是马尔可夫链,逐步添加高斯噪声,将数据分布转化为简单分布。

4. B。MoE每次只激活Top-k专家,用更少的计算获得更大的模型容量。

5. B。SSM具有$O(n)$训练和$O(1)$推理内存复杂度,而Transformer注意力为$O(n^2)$。

1. 幂律(Power Law)

2. 高质量指令-响应对(或标注数据)奖励模型评分(或人类反馈)

3. 软化(或平滑)

4. 去噪(或噪声预测)

5. 干预(Intervention)反事实(Counterfactual)

1. 扩散模型vs一致性模型

扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。

一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。

2. CLIP与DALL-E对比

方面 CLIP DALL-E
方向 文本↔图像(对齐) 文本→图像(生成)
架构 双编码器(对比学习) 自回归/扩散生成
输出 相似度分数 图像
应用 检索、分类、作为条件 文本到图像生成

3. MoE负载均衡

必要性:没有负载均衡时,门控网络可能将所有token路由到少数“容易”的专家,导致:

  1. 专家使用不均衡,部分专家过载
  2. 其他专家不被训练,容量浪费
  3. 推理时某些专家成为瓶颈

实现方法

  1. 负载均衡损失:$\mathcal{L}_{balance} = \alpha \sum_i f_i \cdot P_i$,惩罚不均衡分配
  2. 容量限制:限制每个专家处理的token数量
  3. 专家选择:使用Top-k和噪声门控

1. 扩散模型噪声调度计算

给定$\beta_t = 0.02t/T = 0.00002t$

$\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$

当$t=500$: $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$

当$t=1000$: $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$

答案:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$

2. 上下文长度计算

已用token: - 3个示例:$3 \times 20 = 60$ - 任务描述:$10$ - 输入问题:$15$ - 总计:$85$

剩余token:$2048 - 85 = 1963$

每个新示例约20个token,因此: $$\lfloor 1963 / 20 \rfloor = 98$$

答案:最多还能添加98个示例

该主题尚不存在

您访问的页面并不存在。如果允许,您可以使用创建该页面按钮来创建它。

  • 深度学习/深度学习前沿.txt
  • 最后更改: 2026/03/03 13:24
  • 张叶安