张叶安的博客 - 深度学习

反向传播算法

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T13:37:30+00:00

第三章反向传播算法 3.1 梯度下降基础 3.1.1 优化问题概述神经网络的训练本质上是一个优化问题：寻找一组最优参数$\theta$，使得损失函数$\mathcal{L}(\theta)$最小化。 $$\theta^* = \arg\min_{\theta} \mathcal{L}(\theta)$$ 其中，$\theta$包含网络中的所有权重和偏置，$\mathcal{L}$是衡量模型预测与真实值差异的损失函数。$$\theta_{t+1} = \theta_t - \eta \nabla_{\theta} \mathcal{L}(\theta_t)$$$\eta$$$\nabla_{\theta} \mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \nabla_{\theta} \mathcal{L}(\mathbf{x}_i, y_i)$$$$\theta_{t+1} = \theta_t - \eta \nabla_{\theta} \mathcal{L}(\mathbf{x}_i, y_i)$$$$\nabla_{\theta}…

计算机视觉

Anonymous (anonymous@undisclosed.example.com) — 2026-03-03T04:55:11+00:00

第十一章计算机视觉 1. 概念定义与原理讲解 1.1 计算机视觉概述什么是计算机视觉计算机视觉（Computer Vision, CV）是人工智能的一个重要分支，旨在使计算机能够从图像或多维数据中“理解$(x, y, w, h, class, confidence)$$(x, y)$$(w, h)$$class$$confidence$$S \times S$$B$$$\mathcal{L} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum_{k} \exp(sim(z_i, z_k)/\tau)}$$$z_i, z_j$$\tau$$$\mathbf{c}, \sigma = \text{MLP}(\mathbf{x}, \mathbf{d})$$$\mathbf{x}$$\mathbf{d}$$\mathbf{c}$$\sigma$$(0, 0)$$(4, 4)$$(2, 2)$$(6, 6)$$(0, 0)$$(4, 4)$$w_A = 4$$h_A = 4$$Area_A = 4 \times 4 = 16$$(2, 2)$…

卷积神经网络

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:15:35+00:00

第六章卷积神经网络 1. 概念定义与原理讲解 1.1 卷积神经网络概述卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种专门为处理具有网格结构数据（如图像）而设计的深度学习模型。CNN通过局部连接、权值共享和池化操作，大大减少了参数数量，同时保持了对空间层次结构的建模能力。$$y[n] = \sum_{m=0}^{M-1} x[n-m] \cdot h[m]$$$x$$h$$M$$$Y[i, j] = \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i+m, j+n] \cdot W[m, n] + b$$$X$$H \times W$$W$$k \times k$$b$$Y$$3 \times 3$$5 \times 5$$7 \times 7$$$H_{out} = \left\lfloor \frac{H_{in} + 2P - K}{S} \right\rfloor + 1$$$P$$K$$S$$$Y[i, j] = \sum_{c=0}^{C_{in}-1} \sum_{m=0}^{k-1}…

扩散模型

Anonymous (anonymous@undisclosed.example.com) — 2026-03-11T05:49:55+00:00

课程1: class1

强化学习

Anonymous (anonymous@undisclosed.example.com) — 2026-03-03T05:15:10+00:00

第十三章强化学习 13.1 强化学习概述 13.1.1 什么是强化学习强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，研究智能体（Agent）如何在环境中通过试错学习最优行为策略，以最大化累积奖励。与监督学习需要标注数据不同，强化学习通过与环境的交互获取反馈信号（奖励或惩罚），逐步学习最优决策策略。$t$$s_t$$a_t$$s_{t+1}$$r_{t+1}$$s_0, a_0, r_1, s_1, a_1, r_2, s_2, ...$$$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$$$\gamma \in [0,1]$$\gamma$$\gamma$$10^{170}$$\langle S, A, P, R, \gamma \rangle$$s_t \in S$$P(s'|s,a)$$s$$a$$s'$$P$$R(s,a,s')$$R(s,a)$$s$$a$$s'$$\gamma \i…

深度学习概述

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T13:00:27+00:00

第一章深度学习概述 1.1 人工智能、机器学习与深度学习 1.1.1 人工智能的定义与发展历程人工智能（Artificial Intelligence, AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能才能完成的任务的系统。这些任务包括视觉感知、语音识别、决策制定和自然语言理解等。$x_1, x_2, ..., x_n$$w_1, w_2, ..., w_n$$b$$z = \sum_{i=1}^{n} w_i x_i + b$$f(z)$$y = f(z)$$l$$$a^{(l)} = f(W^{(l)} a^{(l-1)} + b^{(l)})$$$W^{(l)}$$b^{(l)}$$f$$a^{(l-1)}$$$\sigma(x) = \frac{1}{1 + e^{-x}}$$$$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$$$\text{ReLU}(x) = \max(0, x)$$$$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$$$x_…

深度学习前沿

Anonymous (anonymous@undisclosed.example.com) — 2026-03-03T05:24:27+00:00

第十四章深度学习前沿 14.1 大语言模型与基础模型 14.1.1 从预训练到基础模型基础模型（Foundation Models）是指在大规模无标注数据上进行预训练，能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出，标志着人工智能研究范式的重大转变。$L$$N$$D$$$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$$\alpha \approx 0.34$$\beta \approx 0.28$$L_{\infty}$$$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$$$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$$y_w$$y_l$$$\max_{\pi} \math…

神经网络基础

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T13:18:16+00:00

第二章神经网络基础 2.1 神经网络的基本结构 2.1.1 神经元与网络层神经网络是由大量相互连接的神经元组成的计算模型。每个神经元接收来自其他神经元或外部输入的信号，进行加权求和并通过激活函数产生输出。大量神经元按照层次结构组织，形成强大的信息处理能力。$x_1, x_2, ..., x_n$$w_1, w_2, ..., w_n$$$z = \sum_{i=1}^{n} w_i x_i + b$$$b$$f$$$a = f(z)$$$a$$l$$$\mathbf{a}^{(l)} = f(\mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)})$$$\mathbf{a}^{(l)}$$l$$\mathbf{W}^{(l)}$$[n_l \times n_{l-1}]$$\mathbf{b}^{(l)}$$f$$\mathbf{x}$$\mathbf{a}^{(0)} = \mathbf{x}$$l = 1, 2, ..., L$$\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a…

生成模型

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:41:33+00:00

第九章生成模型 1. 概念定义与原理讲解 1.1 生成模型概述判别模型与生成模型机器学习模型可以分为两大类：判别模型（Discriminative Models）： * 学习目标：$P(Y|X)$，即在给定输入$X$条件下输出$Y$$P(X)$$P(X|Y)$$P(X)$$$P(x_1, x_2, ..., x_n) = P(x_1) \prod_{i=2}^n P(x_i | x_1, ..., x_{i-1})$$$$p(x_i | x_1, ..., x_{i-1}) = \text{softmax}(f_i(x_1, ..., x_{i-1}))$$$$P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, ..., w_{i-1})$$$q_\phi(z|x)$$x$$z$$q_\phi(z|x) = \mathcal{N}(z; \mu_\phi(x), \sigma_\phi^2(x)I)$$\mu$$\sigma^2$$p_\theta(x|z)$$z$$x$$P(z|x)$$$\mathcal{L}…

图神经网络

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:51:57+00:00

第十章图神经网络 1. 概念定义与原理讲解 1.1 图结构数据为什么需要图神经网络传统深度学习主要处理规则结构的数据： * 图像：规则的2D网格，可以使用CNN * 文本：一维序列，可以使用RNN或Transformer$G$$$G = (V, E)$$$V = \{v_1, v_2, ..., v_n\}$$|V| = n$$E \subseteq V \times V$$|E| = m$$A \in \{0, 1\}^{n \times n}$$A_{ij} = 1$$(v_i, v_j)$$X \in \mathbb{R}^{n \times d}$$d$$E_{feat} \in \mathbb{R}^{m \times d_e}$$f(PAP^T, PX) = f(A, X)$$P$$$L = I_n - D^{-1/2}AD^{-1/2}$$$D$$D_{ii} = \sum_j A_{ij}$$L$$L = U\Lambda U^T$$U$$\hat{x} = U^T x$$$x *_{G} g = U((U^T g) \odot (U^T x))…

循环神经网络

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:23:38+00:00

第七章循环神经网络 1. 概念定义与原理讲解 1.1 序列数据与循环神经网络序列数据的特性：序列数据是指数据点之间存在时间或顺序依赖关系的数据，与自然语言、时间序列、音频、视频等密切相关。序列数据的核心特点是：$h_t$$x_t$$h_{t-1}$$$h_t = f(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$$$$y_t = g(W_{hy} h_t + b_y)$$$x_t$$t$$h_t$$t$$y_t$$t$$W_{hh}, W_{xh}, W_{hy}$$b_h, b_y$$f, g$$f$$g$$W_{hh}, W_{xh}, W_{hy}$$$\overrightarrow{h}_t = f(W_{xh}^f x_t + W_{hh}^f \overrightarrow{h}_{t-1} + b_h^f)$$$$\overleftarrow{h}_t = f(W_{xh}^b x_t + W_{hh}^b \overleftarrow{h}_{t+1} + b_h^b)$$$$h_t = [\overrightarrow{h}_t;…

优化算法

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T13:49:49+00:00

第四章优化算法 4.1 优化理论基础 4.1.1 凸优化与非凸优化凸集与凸函数集合$C$是凸集，如果对于任意$\mathbf{x}, \mathbf{y} \in C$和$\theta \in [0, 1]$，有： $$\theta \mathbf{x} + (1-\theta) \mathbf{y} \in C$$ 函数$f$是凸函数，如果对于任意$\mathbf{x}, \mathbf{y}$和$\theta \in [0, 1]$，有： $$f(\theta \mathbf{x} + (1-\theta) \mathbf{y}) \leq \theta f(\mathbf{x}) + (1-\theta) f(\mathbf{y})$$ 凸优化问题具有良好的性质： * $O(\frac{1}{t})$$O(\rho^t)$$\rho < 1$$O(\frac{1}{t^2})$$$\mathbf{v}_t = \gamma \mathbf{v}_{t-1} + \eta \nabla_{\theta} \mathcal{L}(\theta_t)$$$$\…

正则化技术

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:00:51+00:00

第五章正则化技术 1. 概念定义与原理讲解 1.1 正则化的基本概念正则化（Regularization）是机器学习中用于防止模型过拟合（Overfitting）的一系列技术。过拟合是指模型在训练数据上表现良好，但在未见过的测试数据上表现较差的现象。正则化通过在损失函数中添加惩罚项，限制模型复杂度，从而提高模型的泛化能力。$$\tilde{J}(\theta; X, y) = J(\theta; X, y) + \lambda \Omega(\theta)$$$J(\theta; X, y)$$\Omega(\theta)$$\lambda$$\theta$$$\Omega(\theta) = ||\theta||_1 = \sum_{i} |\theta_i|$$$$\tilde{J}(\theta) = J(\theta) + \lambda \sum_{i} |\theta_i|$$$$\frac{\partial |\theta_i|}{\partial \theta_i} = \text{sign}(\theta_i) = \begin{cases} 1 & \te…

注意力机制与transformer

Anonymous (anonymous@undisclosed.example.com) — 2026-03-02T14:33:03+00:00

第八章注意力机制与Transformer 1. 概念定义与原理讲解 1.1 注意力机制的动机与起源从RNN到注意力的演进循环神经网络（RNN）及其变体LSTM、GRU在处理序列数据方面取得了显著成功，但它们存在几个根本性局限：$Q$$K$$V$$Q \in \mathbb{R}^{d_q}$$K \in \mathbb{R}^{n \times d_k}$$V \in \mathbb{R}^{n \times d_v}$$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$$QK^T$$\sqrt{d_k}$$$e_{ij} = v_a^T \tanh(W_s s_{i-1} + W_h h_j)$$$$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^n \exp(e_{ik})}$$$W_s, W_h, v_a$$$e_{ij} = s_{i-1}^T h_j$$$$\text{Attention}(Q, K, V) …

自然语言处理

Anonymous (anonymous@undisclosed.example.com) — 2026-03-03T05:05:37+00:00

第十二章自然语言处理 12.1 自然语言处理概述 12.1.1 什么是自然语言处理自然语言处理（Natural Language Processing，NLP）是人工智能和计算机科学的一个分支领域，致力于让计算机理解、解释和生成人类语言。作为深度学习最重要的应用领域之一，NLP涵盖了从文本分类、机器翻译到问答系统、文本生成等广泛任务。$w_{i-c}, ..., w_{i-1}, w_{i+1}, ..., w_{i+c}$$w_i$$w_i$$w_{i-c}, ..., w_{i-1}, w_{i+1}, ..., w_{i+c}$$X_{ij}$$j$$i$$$w_i^T \tilde{w}_j + b_i + \tilde{b}_j = \log(X_{ij})$$$w_i$$\tilde{w}_j$$i$$j$$b_i$$\tilde{b}_j$$$J = \sum_{i,j} f(X_{ij})(w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2$$$f(X_{ij})$$X = (x_1, x_2, ...…