<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="FeedCreator 1.8" -->
<?xml-stylesheet href="https://www.zhuzhugst.com/lib/exe/css.php?s=feed" type="text/css"?>
<rdf:RDF
    xmlns="http://purl.org/rss/1.0/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
    xmlns:dc="http://purl.org/dc/elements/1.1/">
    <channel rdf:about="https://www.zhuzhugst.com/feed.php">
        <title>张叶安的博客 - 深度学习</title>
        <description></description>
        <link>https://www.zhuzhugst.com/</link>
        <image rdf:resource="https://www.zhuzhugst.com/lib/exe/fetch.php?media=logo.png" />
       <dc:date>2026-04-21T22:57:46+00:00</dc:date>
        <items>
            <rdf:Seq>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95&amp;rev=1772458650&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89&amp;rev=1772513711&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772460935&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B&amp;rev=1773208195&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0&amp;rev=1772514910&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%A6%82%E8%BF%B0&amp;rev=1772456427&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%89%8D%E6%B2%BF&amp;rev=1772515467&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E7%A1%80&amp;rev=1772457496&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B&amp;rev=1772462493&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%9B%BE%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772463117&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772461418&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95&amp;rev=1772459389&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%AD%A3%E5%88%99%E5%8C%96%E6%8A%80%E6%9C%AF&amp;rev=1772460051&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer&amp;rev=1772461983&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;rev=1772514337&amp;do=diff"/>
            </rdf:Seq>
        </items>
    </channel>
    <image rdf:about="https://www.zhuzhugst.com/lib/exe/fetch.php?media=logo.png">
        <title>张叶安的博客</title>
        <link>https://www.zhuzhugst.com/</link>
        <url>https://www.zhuzhugst.com/lib/exe/fetch.php?media=logo.png</url>
    </image>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95&amp;rev=1772458650&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T13:37:30+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>反向传播算法</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95&amp;rev=1772458650&amp;do=diff</link>
        <description>第三章 反向传播算法

3.1 梯度下降基础

3.1.1 优化问题概述

神经网络的训练本质上是一个优化问题：寻找一组最优参数$\theta$，使得损失函数$\mathcal{L}(\theta)$最小化。

$$\theta^* = \arg\min_{\theta} \mathcal{L}(\theta)$$

其中，$\theta$包含网络中的所有权重和偏置，$\mathcal{L}$是衡量模型预测与真实值差异的损失函数。$$\theta_{t+1} = \theta_t - \eta \nabla_{\theta} \mathcal{L}(\theta_t)$$$\eta$$$\nabla_{\theta} \mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \nabla_{\theta} \mathcal{L}(\mathbf{x}_i, y_i)$$$$\theta_{t+1} = \theta_t - \eta \nabla_{\theta} \mathcal{L}(\mathbf{x}_i, y_i)$$$$\nabla_{\theta}…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89&amp;rev=1772513711&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-03T04:55:11+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>计算机视觉</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89&amp;rev=1772513711&amp;do=diff</link>
        <description>第十一章 计算机视觉

1. 概念定义与原理讲解

1.1 计算机视觉概述

什么是计算机视觉

计算机视觉（Computer Vision, CV）是人工智能的一个重要分支，旨在使计算机能够从图像或多维数据中“理解$(x, y, w, h, class, confidence)$$(x, y)$$(w, h)$$class$$confidence$$S \times S$$B$$$\mathcal{L} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum_{k} \exp(sim(z_i, z_k)/\tau)}$$$z_i, z_j$$\tau$$$\mathbf{c}, \sigma = \text{MLP}(\mathbf{x}, \mathbf{d})$$$\mathbf{x}$$\mathbf{d}$$\mathbf{c}$$\sigma$$(0, 0)$$(4, 4)$$(2, 2)$$(6, 6)$$(0, 0)$$(4, 4)$$w_A = 4$$h_A = 4$$Area_A = 4 \times 4 = 16$$(2, 2)$…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772460935&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:15:35+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>卷积神经网络</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772460935&amp;do=diff</link>
        <description>第六章 卷积神经网络

1. 概念定义与原理讲解

1.1 卷积神经网络概述

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种专门为处理具有网格结构数据（如图像）而设计的深度学习模型。CNN通过局部连接、权值共享和池化操作，大大减少了参数数量，同时保持了对空间层次结构的建模能力。$$y[n] = \sum_{m=0}^{M-1} x[n-m] \cdot h[m]$$$x$$h$$M$$$Y[i, j] = \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} X[i+m, j+n] \cdot W[m, n] + b$$$X$$H \times W$$W$$k \times k$$b$$Y$$3 \times 3$$5 \times 5$$7 \times 7$$$H_{out} = \left\lfloor \frac{H_{in} + 2P - K}{S} \right\rfloor + 1$$$P$$K$$S$$$Y[i, j] = \sum_{c=0}^{C_{in}-1} \sum_{m=0}^{k-1}…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B&amp;rev=1773208195&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-11T05:49:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>扩散模型</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B&amp;rev=1773208195&amp;do=diff</link>
        <description>课程1:

&lt;https://github.com/mikonvergence/DiffusionFastForward&gt;

class1</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0&amp;rev=1772514910&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-03T05:15:10+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>强化学习</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0&amp;rev=1772514910&amp;do=diff</link>
        <description>第十三章 强化学习

13.1 强化学习概述

13.1.1 什么是强化学习

强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，研究智能体（Agent）如何在环境中通过试错学习最优行为策略，以最大化累积奖励。与监督学习需要标注数据不同，强化学习通过与环境的交互获取反馈信号（奖励或惩罚），逐步学习最优决策策略。$t$$s_t$$a_t$$s_{t+1}$$r_{t+1}$$s_0, a_0, r_1, s_1, a_1, r_2, s_2, ...$$$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$$$\gamma \in [0,1]$$\gamma$$\gamma$$10^{170}$$\langle S, A, P, R, \gamma \rangle$$s_t \in S$$P(s&#039;|s,a)$$s$$a$$s&#039;$$P$$R(s,a,s&#039;)$$R(s,a)$$s$$a$$s&#039;$$\gamma \i…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%A6%82%E8%BF%B0&amp;rev=1772456427&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T13:00:27+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>深度学习概述</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%A6%82%E8%BF%B0&amp;rev=1772456427&amp;do=diff</link>
        <description>第一章 深度学习概述

1.1 人工智能、机器学习与深度学习

1.1.1 人工智能的定义与发展历程

人工智能（Artificial Intelligence, AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能才能完成的任务的系统。这些任务包括视觉感知、语音识别、决策制定和自然语言理解等。$x_1, x_2, ..., x_n$$w_1, w_2, ..., w_n$$b$$z = \sum_{i=1}^{n} w_i x_i + b$$f(z)$$y = f(z)$$l$$$a^{(l)} = f(W^{(l)} a^{(l-1)} + b^{(l)})$$$W^{(l)}$$b^{(l)}$$f$$a^{(l-1)}$$$\sigma(x) = \frac{1}{1 + e^{-x}}$$$$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$$$\text{ReLU}(x) = \max(0, x)$$$$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$$$x_…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%89%8D%E6%B2%BF&amp;rev=1772515467&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-03T05:24:27+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>深度学习前沿</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%89%8D%E6%B2%BF&amp;rev=1772515467&amp;do=diff</link>
        <description>第十四章 深度学习前沿

14.1 大语言模型与基础模型

14.1.1 从预训练到基础模型

基础模型（Foundation Models）是指在大规模无标注数据上进行预训练，能够适应各种下游任务的模型。这一概念由斯坦福大学人工智能实验室于2021年提出，标志着人工智能研究范式的重大转变。$L$$N$$D$$$L(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + L_{\infty}$$$\alpha \approx 0.34$$\beta \approx 0.28$$L_{\infty}$$$P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})$$$$\mathcal{L}_{RM} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_{\theta}(x, y_w) - r_{\theta}(x, y_l)) \right]$$$y_w$$y_l$$$\max_{\pi} \math…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E7%A1%80&amp;rev=1772457496&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T13:18:16+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>神经网络基础</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9F%BA%E7%A1%80&amp;rev=1772457496&amp;do=diff</link>
        <description>第二章 神经网络基础

2.1 神经网络的基本结构

2.1.1 神经元与网络层

神经网络是由大量相互连接的神经元组成的计算模型。每个神经元接收来自其他神经元或外部输入的信号，进行加权求和并通过激活函数产生输出。大量神经元按照层次结构组织，形成强大的信息处理能力。$x_1, x_2, ..., x_n$$w_1, w_2, ..., w_n$$$z = \sum_{i=1}^{n} w_i x_i + b$$$b$$f$$$a = f(z)$$$a$$l$$$\mathbf{a}^{(l)} = f(\mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)})$$$\mathbf{a}^{(l)}$$l$$\mathbf{W}^{(l)}$$[n_l \times n_{l-1}]$$\mathbf{b}^{(l)}$$f$$\mathbf{x}$$\mathbf{a}^{(0)} = \mathbf{x}$$l = 1, 2, ..., L$$\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B&amp;rev=1772462493&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:41:33+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>生成模型</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B&amp;rev=1772462493&amp;do=diff</link>
        <description>第九章 生成模型

1. 概念定义与原理讲解

1.1 生成模型概述

判别模型与生成模型

机器学习模型可以分为两大类：

判别模型（Discriminative Models）：

	*  学习目标：$P(Y|X)$，即在给定输入$X$条件下输出$Y$$P(X)$$P(X|Y)$$P(X)$$$P(x_1, x_2, ..., x_n) = P(x_1) \prod_{i=2}^n P(x_i | x_1, ..., x_{i-1})$$$$p(x_i | x_1, ..., x_{i-1}) = \text{softmax}(f_i(x_1, ..., x_{i-1}))$$$$P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, ..., w_{i-1})$$$q_\phi(z|x)$$x$$z$$q_\phi(z|x) = \mathcal{N}(z; \mu_\phi(x), \sigma_\phi^2(x)I)$$\mu$$\sigma^2$$p_\theta(x|z)$$z$$x$$P(z|x)$$$\mathcal{L}…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%9B%BE%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772463117&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:51:57+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>图神经网络</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%9B%BE%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772463117&amp;do=diff</link>
        <description>第十章 图神经网络

1. 概念定义与原理讲解

1.1 图结构数据

为什么需要图神经网络

传统深度学习主要处理规则结构的数据：

	*  图像：规则的2D网格，可以使用CNN
	*  文本：一维序列，可以使用RNN或Transformer$G$$$G = (V, E)$$$V = \{v_1, v_2, ..., v_n\}$$|V| = n$$E \subseteq V \times V$$|E| = m$$A \in \{0, 1\}^{n \times n}$$A_{ij} = 1$$(v_i, v_j)$$X \in \mathbb{R}^{n \times d}$$d$$E_{feat} \in \mathbb{R}^{m \times d_e}$$f(PAP^T, PX) = f(A, X)$$P$$$L = I_n - D^{-1/2}AD^{-1/2}$$$D$$D_{ii} = \sum_j A_{ij}$$L$$L = U\Lambda U^T$$U$$\hat{x} = U^T x$$$x *_{G} g = U((U^T g) \odot (U^T x))…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772461418&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:23:38+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>循环神经网络</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&amp;rev=1772461418&amp;do=diff</link>
        <description>第七章 循环神经网络

1. 概念定义与原理讲解

1.1 序列数据与循环神经网络

序列数据的特性：

序列数据是指数据点之间存在时间或顺序依赖关系的数据，与自然语言、时间序列、音频、视频等密切相关。序列数据的核心特点是：$h_t$$x_t$$h_{t-1}$$$h_t = f(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$$$$y_t = g(W_{hy} h_t + b_y)$$$x_t$$t$$h_t$$t$$y_t$$t$$W_{hh}, W_{xh}, W_{hy}$$b_h, b_y$$f, g$$f$$g$$W_{hh}, W_{xh}, W_{hy}$$$\overrightarrow{h}_t = f(W_{xh}^f x_t + W_{hh}^f \overrightarrow{h}_{t-1} + b_h^f)$$$$\overleftarrow{h}_t = f(W_{xh}^b x_t + W_{hh}^b \overleftarrow{h}_{t+1} + b_h^b)$$$$h_t = [\overrightarrow{h}_t;…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95&amp;rev=1772459389&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T13:49:49+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>优化算法</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95&amp;rev=1772459389&amp;do=diff</link>
        <description>第四章 优化算法

4.1 优化理论基础

4.1.1 凸优化与非凸优化

凸集与凸函数

集合$C$是凸集，如果对于任意$\mathbf{x}, \mathbf{y} \in C$和$\theta \in [0, 1]$，有：

$$\theta \mathbf{x} + (1-\theta) \mathbf{y} \in C$$

函数$f$是凸函数，如果对于任意$\mathbf{x}, \mathbf{y}$和$\theta \in [0, 1]$，有：

$$f(\theta \mathbf{x} + (1-\theta) \mathbf{y}) \leq \theta f(\mathbf{x}) + (1-\theta) f(\mathbf{y})$$

凸优化问题具有良好的性质：

	* $O(\frac{1}{t})$$O(\rho^t)$$\rho &lt; 1$$O(\frac{1}{t^2})$$$\mathbf{v}_t = \gamma \mathbf{v}_{t-1} + \eta \nabla_{\theta} \mathcal{L}(\theta_t)$$$$\…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%AD%A3%E5%88%99%E5%8C%96%E6%8A%80%E6%9C%AF&amp;rev=1772460051&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:00:51+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>正则化技术</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%AD%A3%E5%88%99%E5%8C%96%E6%8A%80%E6%9C%AF&amp;rev=1772460051&amp;do=diff</link>
        <description>第五章 正则化技术

1. 概念定义与原理讲解

1.1 正则化的基本概念

正则化（Regularization）是机器学习中用于防止模型过拟合（Overfitting）的一系列技术。过拟合是指模型在训练数据上表现良好，但在未见过的测试数据上表现较差的现象。正则化通过在损失函数中添加惩罚项，限制模型复杂度，从而提高模型的泛化能力。$$\tilde{J}(\theta; X, y) = J(\theta; X, y) + \lambda \Omega(\theta)$$$J(\theta; X, y)$$\Omega(\theta)$$\lambda$$\theta$$$\Omega(\theta) = ||\theta||_1 = \sum_{i} |\theta_i|$$$$\tilde{J}(\theta) = J(\theta) + \lambda \sum_{i} |\theta_i|$$$$\frac{\partial |\theta_i|}{\partial \theta_i} = \text{sign}(\theta_i) = \begin{cases} 1 &amp; \te…</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer&amp;rev=1772461983&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-02T14:33:03+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>注意力机制与transformer</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer&amp;rev=1772461983&amp;do=diff</link>
        <description>第八章 注意力机制与Transformer

1. 概念定义与原理讲解

1.1 注意力机制的动机与起源

从RNN到注意力的演进

循环神经网络（RNN）及其变体LSTM、GRU在处理序列数据方面取得了显著成功，但它们存在几个根本性局限：$Q$$K$$V$$Q \in \mathbb{R}^{d_q}$$K \in \mathbb{R}^{n \times d_k}$$V \in \mathbb{R}^{n \times d_v}$$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$$QK^T$$\sqrt{d_k}$$$e_{ij} = v_a^T \tanh(W_s s_{i-1} + W_h h_j)$$$$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^n \exp(e_{ik})}$$$W_s, W_h, v_a$$$e_{ij} = s_{i-1}^T h_j$$$$\text{Attention}(Q, K, V) …</description>
    </item>
    <item rdf:about="https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;rev=1772514337&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2026-03-03T05:05:37+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>自然语言处理</title>
        <link>https://www.zhuzhugst.com/doku.php?id=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0:%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;rev=1772514337&amp;do=diff</link>
        <description>第十二章 自然语言处理

12.1 自然语言处理概述

12.1.1 什么是自然语言处理

自然语言处理（Natural Language Processing，NLP）是人工智能和计算机科学的一个分支领域，致力于让计算机理解、解释和生成人类语言。作为深度学习最重要的应用领域之一，NLP涵盖了从文本分类、机器翻译到问答系统、文本生成等广泛任务。$w_{i-c}, ..., w_{i-1}, w_{i+1}, ..., w_{i+c}$$w_i$$w_i$$w_{i-c}, ..., w_{i-1}, w_{i+1}, ..., w_{i+c}$$X_{ij}$$j$$i$$$w_i^T \tilde{w}_j + b_i + \tilde{b}_j = \log(X_{ij})$$$w_i$$\tilde{w}_j$$i$$j$$b_i$$\tilde{b}_j$$$J = \sum_{i,j} f(X_{ij})(w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2$$$f(X_{ij})$$X = (x_1, x_2, ...…</description>
    </item>
</rdf:RDF>
