基础模型(Foundation Models)是指在大规模无标注数据上进行预训练,能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出,标志着人工智能研究范式的重大转变。
基础模型的核心特征是涌现能力(Emergent Abilities):当模型规模达到一定阈值时,会突然展现出小型模型所不具备的能力。这些能力并非显式训练的结果,而是在大规模预训练过程中自发涌现的。例如,大型语言模型(LLM)在参数规模超过100B后,展现出上下文学习(In-Context Learning)、思维链推理(Chain-of-Thought Reasoning)等能力。
规模化定律(Scaling Laws)研究模型性能与规模(参数数量、数据量、计算量)之间的关系。研究表明,语言模型的测试损失$L$与模型参数$N$、训练token数$D$之间存在幂律关系:
$$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$
其中$\alpha \approx 0.34$,$\beta \approx 0.28$,$L_{\infty}$是不可约误差。这一规律表明,在合理范围内,增加模型规模和数据量可以持续提高性能。
计算最优训练(Chinchilla Optimal Training)研究表明,模型参数和训练token数应该以相同比例扩展。DeepMind的Chinchilla模型证明,在相同计算预算下,较小但训练更充分的模型(70B参数,1.4T tokens)可以超越更大但训练不足的模型(280B参数,300B tokens)。
GPT(Generative Pre-trained Transformer)系列是推动大语言模型发展的核心力量,采用自回归(Autoregressive)方式进行语言建模。
GPT架构演进:
自回归语言建模的目标是最大化序列的联合概率:
$$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$
模型通过预测下一个token来学习语言的统计规律。这种训练目标简单但强大,使得模型能够学习语法、语义、常识和世界知识。
上下文学习(In-Context Learning)是大语言模型的革命性能力。通过在提示(Prompt)中提供示例,模型无需参数更新就能学习任务。包括:
预训练语言模型从海量互联网数据学习,可能产生有害、偏见或不真实的输出。对齐(Alignment)技术旨在使模型行为符合人类价值观和意图。
RLHF(Reinforcement Learning from Human Feedback)是OpenAI和Anthropic开发的对齐技术,包含三个阶段:
阶段1:监督微调(SFT)
收集高质量的指令-响应对,对预训练模型进行监督微调。这使模型学习遵循指令的格式和风格。
阶段2:奖励模型训练
训练一个奖励模型(Reward Model, RM)来评估响应质量。收集人类偏好数据:对于同一输入的两个不同响应,标注者选择更好的一个。奖励模型学习预测人类偏好:
$$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$
其中$y_w$是偏好的响应(win),$y_l$是不偏好的响应(loss)。
阶段3:强化学习优化
使用PPO算法优化语言模型策略,最大化奖励模型的评分:
$$\max_{\pi} \mathbb{E}_{x \sim D, y \sim \pi} [r_{\phi}(x, y)] - \beta \mathbb{D}_{KL}[\pi(y|x) || \pi_{ref}(y|x)]$$
KL散度约束防止策略偏离太远,保持语言能力。
RLHF的改进方向:
多模态大模型(Multimodal Large Models)能够理解和生成多种模态(文本、图像、音频、视频)的内容,是实现通用人工智能的关键一步。
视觉-语言模型:
统一架构:
多模态模型通常采用编码器-投影器-LLM架构:
1. 使用专门的编码器(如ViT用于图像)提取模态特征
2. 通过投影层(线性层或轻量级网络)将特征对齐到语言空间
3. 大语言模型进行统一的理解和生成
大模型的部署面临计算资源、内存和延迟的挑战。模型压缩技术旨在减小模型体积和计算需求,同时保持性能。
知识蒸馏(Knowledge Distillation):
让小模型(学生)学习大模型(教师)的行为。不仅学习硬标签,还学习软标签(概率分布):
$$\mathcal{L}_{KD} = \alpha \mathcal{L}_{CE}(y_{student}, y_{true}) + (1-\alpha) \mathcal{L}_{KL}(y_{student}/T, y_{teacher}/T)$$
温度参数$T$软化概率分布,传递更多关于类别相似性的信息。
量化(Quantization):
将浮点权重转换为低精度表示(如INT8、INT4)。量化方法包括:
剪枝(Pruning):
移除不重要的权重或神经元。分为:
标准自注意力的计算复杂度为$O(n^2)$,成为长序列处理的瓶颈。
稀疏注意力:
线性注意力:
将注意力复杂度降至$O(n)$。核心思想是用核技巧近似softmax:
$$\text{softmax}(\frac{QK^T}{\sqrt{d}})V \approx \phi(Q)(\phi(K)^TV)$$
代表性方法:Performer、Linear Transformer、RWKV。
硬件感知注意力:
状态空间模型(State Space Models, SSM)是Transformer的新兴替代方案,具有线性复杂度。
S4(Structured State Space for Sequence Modeling):
将序列建模视为连续系统的离散化:
$$\dot{h}(t) = Ah(t) + Bx(t), \quad y(t) = Ch(t)$$
其中$A$是结构化矩阵(HiPPO初始化保证长程记忆)。离散化后:
$$h_k = \bar{A}h_{k-1} + \bar{B}x_k, \quad y_k = \bar{C}h_k$$
通过特定的结构化矩阵,可以实现$O(n)$训练和$O(1)$推理。
Mamba:
选择性状态空间模型,引入输入依赖的选择机制:
$$h_k = \bar{A}_k h_{k-1} + \bar{B}_k x_k$$
参数$\bar{A}_k$和$\bar{B}_k$根据输入动态选择,使模型能聚焦于相关信息。Mamba在长序列任务上匹敌Transformer,同时保持线性复杂度。
混合专家模型(Mixture of Experts, MoE)通过条件计算扩展模型容量,每次只激活部分参数。
MoE层结构:
$$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$
其中$G(x) = \text{Softmax}(W_g \cdot x)$,通常只选择top-$k$专家。
负载均衡:
为避免所有输入都路由到少数专家,引入负载均衡损失:
$$\mathcal{L}_{balance} = \alpha N \sum_{i=1}^{N} f_i \cdot P_i$$
其中$f_i$是分配给专家$i$的token比例,$P_i$是门控分配给专家$i$的平均概率。
代表性模型:
扩散模型(Diffusion Models)是当前最先进的图像生成技术,也被应用于音频、视频和分子生成。
前向扩散过程:
逐步向数据添加高斯噪声,经过$T$步后数据接近纯噪声:
$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$$
累积形式:$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$
反向去噪过程:
学习神经网络逆转扩散过程:
$$p_{\theta}(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$$
训练目标通常简化为预测噪声:
$$\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_{\theta}(x_t, t)||^2 \right]$$
条件生成:
代表性模型:
流模型(Flow-based Models)通过可逆变换学习精确的数据分布。
连续正规化流(Continuous Normalizing Flows, CNF):
用神经网络参数化的常微分方程描述概率流:
$$\frac{dx}{dt} = f_{\theta}(x_t, t), \quad x_0 \sim p_0$$
通过瞬时变化公式计算密度:
$$\frac{d \log p(x_t)}{dt} = -\text{tr}\left(\frac{\partial f}{\partial x_t}\right)$$
流匹配(Flow Matching):
直接回归条件概率路径,避免求解ODE。训练目标为:
$$\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1} ||u_t(x_t) - v_{\theta}(x_t, t)||^2$$
其中$u_t$是条件向量场,$v_{\theta}$是神经网络。
Rectified Flow:
学习将噪声直接映射到数据的直线路径,实现一步或少步生成。
一致性模型(Consistency Models):
学习将任意时间步的噪声直接映射回数据空间,实现单步生成。一致性函数$f_{\theta}$满足:
$$f_{\theta}(x_t, t) = f_{\theta}(x_{t'}, t') \quad \text{for all } t, t'$$
特别地,$f_{\theta}(x_T, T) = x_0$。训练后的模型可以单步生成高质量样本。
神经辐射场(Neural Radiance Fields, NeRF)使用神经网络表示3D场景,实现了照片级的新视角合成。
NeRF表示:
场景由MLP参数化,输入3D坐标$\mathbf{x} = (x,y,z)$和视角方向$\mathbf{d} = (\theta, \phi)$,输出体密度$\sigma$和RGB颜色$c$:
$$(\sigma, \mathbf{c}) = \text{MLP}(\gamma(\mathbf{x}), \gamma(\mathbf{d}))$$
其中$\gamma$是位置编码:$\gamma(p) = [\sin(2^0 \pi p), \cos(2^0 \pi p), ..., \sin(2^{L-1} \pi p), \cos(2^{L-1} \pi p)]$
体积渲染:
通过沿光线积分计算像素颜色:
$$\hat{C}(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$$
其中$T(t) = \exp(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) ds)$是透射率。
3D生成模型:
深度学习模型的“黑盒”特性阻碍了其在高风险领域的应用。可解释性研究旨在理解模型的决策机制。
mechanistic interpretability(机械可解释性):
试图逆向工程神经网络,理解其内部表示和计算。
探测(Probing):
训练简单分类器探测模型内部表示是否包含特定信息:
$$\text{Probe}(h_l) \rightarrow \text{linguistic property}$$
如果探测分类器能准确预测语言学属性,说明该层表示编码了该信息。
注意力可视化:
可视化Transformer的注意力权重,观察模型关注输入的哪些部分。但注意力权重不完全等同于重要性。
归因方法:
越狱攻击(Jailbreaking):
通过精心设计的提示绕过模型的安全限制。常见技术:
对抗性攻击:
在输入中添加人眼不可见的扰动,导致模型产生错误输出:
$$x_{adv} = x + \epsilon \cdot \text{sign}(\nabla_x \mathcal{L}(f(x), y))$$
防御技术:
因果推理(Causal Inference)旨在超越相关性,建立变量间的因果关系。
因果层次:
因果发现:
从观测数据中识别因果图结构。常用方法包括:
因果推断方法:
例题1:大语言模型的上下文学习
给定提示模板:
将以下中文翻译成英文: 中文:苹果 英文:apple 中文:香蕉 英文:banana 中文:橘子 英文:
问题:
1. 这是哪种上下文学习类型?
2. 解释为什么大语言模型能够进行上下文学习
3. 与微调相比,上下文学习的优缺点是什么?
解答:
1. 类型识别:这是少样本学习(Few-shot Learning),提供了2个示例(2-shot)。
2. 上下文学习机制:
3. 优缺点分析:
| 方面 | 上下文学习 | 微调 |
| 训练成本 | 无需训练,即时适应 | 需要额外训练 |
| 数据需求 | 少量示例即可 | 需要较多标注数据 |
| 灵活性 | 任务切换灵活 | 模型专用于特定任务 |
| 性能 | 通常低于微调 | 通常更高 |
| 上下文长度 | 受限于模型窗口 | 无此限制 |
例题2:扩散模型的数学推导
扩散模型中,给定$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$,其中$\epsilon \sim \mathcal{N}(0, I)$。
问题:
1. 推导给定$x_0$时$x_t$的条件分布
2. 解释为什么$\bar{\alpha}_t$需要设计为递减序列
3. 若$\bar{\alpha}_T \approx 0$,说明$x_T$的分布
解答:
1. 条件分布推导:
给定$x_0$,$x_t$是$x_0$的线性变换加上高斯噪声:
$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$$
这是高斯分布的仿射变换,因此:
$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t)I)$$
均值:$\mathbb{E}[x_t | x_0] = \sqrt{\bar{\alpha}_t} x_0$
方差:$\text{Var}[x_t | x_0] = (1-\bar{\alpha}_t)I$
2. $\bar{\alpha}_t$递减的原因:
$\bar{\alpha}_t = \prod_{s=1}^{t} (1-\beta_s)$,其中$\beta_s \in (0, 1)$是噪声调度参数。
这种设计确保前向过程逐步破坏数据结构,最终达到易采样的先验分布(标准高斯)。
3. $x_T$的分布:
当$\bar{\alpha}_T \approx 0$:
$$x_T = \sqrt{\bar{\alpha}_T} x_0 + \sqrt{1-\bar{\alpha}_T} \epsilon \approx 0 \cdot x_0 + 1 \cdot \epsilon = \epsilon$$
因此$x_T \sim \mathcal{N}(0, I)$,与数据分布无关。这保证了反向过程可以从标准高斯噪声开始,逐步恢复数据。
例题3:MoE负载均衡分析
假设MoE层有$N=4$个专家,门控网络输出为$g = [0.4, 0.3, 0.2, 0.1]$,Top-2路由(选择概率最高的2个专家)。
问题:
1. 在Top-2路由下,各专家被激活的概率是多少?
2. 若当前批次有100个token,理想负载下每个专家应处理多少token?
3. 计算此门控分布的负载不均衡程度
解答:
1. Top-2激活概率:
Top-2选择专家0和1(概率最高的两个)。
归一化门控权重:
2. 理想负载:
100个token,4个专家,理想情况下每个专家处理$100/4 = 25$个token。
3. 负载不均衡度:
实际token分配(期望):
负载均衡损失(简化版):
使用变异系数或熵衡量。熵$H = -\sum_i p_i \log p_i$,理想均匀分布的熵为$\log 4 \approx 1.39$。
实际概率分布(按门控):$p = [0.4, 0.3, 0.2, 0.1]$
$H = -(0.4\log 0.4 + 0.3\log 0.3 + 0.2\log 0.2 + 0.1\log 0.1)$
$= -(0.4 \times -0.92 + 0.3 \times -1.20 + 0.2 \times -1.61 + 0.1 \times -2.30)$
$= 0.37 + 0.36 + 0.32 + 0.23 = 1.28$
相对理想熵的比例:$1.28 / 1.39 \approx 0.92$,说明有轻微不均衡。
1. 以下哪项不是大语言模型涌现能力的例子?
A) 上下文学习 B) 思维链推理 C) 梯度下降优化 D) 指令遵循
2. RLHF中的奖励模型学习的是:
A) 生成文本的困惑度 B) 人类对不同响应的偏好 C) 任务的正确答案 D) 语言模型的参数
3. 扩散模型的前向过程是:
A) 从数据到噪声的确定性映射 B) 从噪声到数据的生成过程 C) 逐步添加噪声的随机过程 D) 一次性添加全部噪声
4. MoE模型的主要优势是:
A) 减少总参数量 B) 每次推理只激活部分参数,降低计算成本 C) 提高训练稳定性 D) 消除过拟合
5. 状态空间模型(SSM)相比于Transformer的主要优势是:
A) 更好的并行训练 B) 线性计算复杂度和常数级推理内存 C) 更强的表达能力 D) 更容易解释
1. 规模化定律表明,语言模型性能与模型参数和数据量呈$\_\_\_\_$关系。
2. 在RLHF中,SFT阶段使用$\_\_\_\_$数据进行训练,RL阶段使用$\_\_\_\_$信号优化。
3. 知识蒸馏中的温度参数$T$用于$\_\_\_\_$概率分布,传递更多类别相似性信息。
4. 扩散模型的反向过程学习一个$\_\_\_\_$网络,用于逐步去除噪声。
5. 因果推理的三个层次是:关联、$\_\_\_\_$和$\_\_\_\_$。
1. 解释为什么扩散模型需要多步生成,而一致性模型可以实现单步生成。
2. 对比CLIP和DALL-E在多模态学习中的不同作用。
3. 说明MoE负载均衡损失的必要性,以及如何实现负载均衡。
1. 某扩散模型的噪声调度为$\beta_t = 0.02t/T$,$T=1000$。计算$\bar{\alpha}_{500}$和$\bar{\alpha}_{1000}$(提示:$\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$,可用近似$\ln(1-x) \approx -x$当$x$较小时)。
2. 在上下文学习中,提示包含3个示例,每个示例平均20个token,任务描述10个token,输入问题15个token。若模型最大上下文长度为2048,最多还能添加多少个示例?
1. C。梯度下降优化是训练过程,不是模型涌现的能力。涌现能力指模型在规模扩大后自发出现的能力,如上下文学习、思维链推理等。
2. B。奖励模型从人类偏好数据学习,预测人类对响应的相对偏好(哪个更好)。
3. C。前向扩散是马尔可夫链,逐步添加高斯噪声,将数据分布转化为简单分布。
4. B。MoE每次只激活Top-k专家,用更少的计算获得更大的模型容量。
5. B。SSM具有$O(n)$训练和$O(1)$推理内存复杂度,而Transformer注意力为$O(n^2)$。
1. 幂律(Power Law)
2. 高质量指令-响应对(或标注数据)、奖励模型评分(或人类反馈)
3. 软化(或平滑)
4. 去噪(或噪声预测)
5. 干预(Intervention)、反事实(Counterfactual)
1. 扩散模型vs一致性模型:
扩散模型通过迭代去噪生成样本,每一步只进行小幅度的噪声去除,需要多步(通常20-1000步)才能从纯噪声生成高质量图像。
一致性模型训练一个直接映射函数,将任意噪声级别的样本直接映射到数据空间。训练时强制不同时间步的映射结果一致,因此推理时可以单步完成,或仅用几步精炼。
2. CLIP与DALL-E对比:
| 方面 | CLIP | DALL-E |
| 方向 | 文本↔图像(对齐) | 文本→图像(生成) |
| 架构 | 双编码器(对比学习) | 自回归/扩散生成 |
| 输出 | 相似度分数 | 图像 |
| 应用 | 检索、分类、作为条件 | 文本到图像生成 |
3. MoE负载均衡:
必要性:没有负载均衡时,门控网络可能将所有token路由到少数“容易”的专家,导致:
实现方法:
1. 扩散模型噪声调度计算:
给定$\beta_t = 0.02t/T = 0.00002t$
$\ln(\bar{\alpha}_t) = \sum_{s=1}^{t} \ln(1-\beta_s) \approx \sum_{s=1}^{t} (-\beta_s) = -0.00002 \sum_{s=1}^{t} s = -0.00002 \cdot \frac{t(t+1)}{2}$
当$t=500$: $$\ln(\bar{\alpha}_{500}) \approx -0.00002 \times \frac{500 \times 501}{2} = -0.00002 \times 125250 = -2.505$$ $$\bar{\alpha}_{500} \approx e^{-2.505} \approx 0.082$$
当$t=1000$: $$\ln(\bar{\alpha}_{1000}) \approx -0.00002 \times \frac{1000 \times 1001}{2} = -0.00002 \times 500500 = -10.01$$ $$\bar{\alpha}_{1000} \approx e^{-10.01} \approx 4.5 \times 10^{-5} \approx 0$$
答案:$\bar{\alpha}_{500} \approx 0.082$,$\bar{\alpha}_{1000} \approx 0$
2. 上下文长度计算:
已用token: - 3个示例:$3 \times 20 = 60$ - 任务描述:$10$ - 输入问题:$15$ - 总计:$85$
剩余token:$2048 - 85 = 1963$
每个新示例约20个token,因此: $$\lfloor 1963 / 20 \rfloor = 98$$
答案:最多还能添加98个示例