<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LDM on WhateverZ</title><link>https://whateverzpy.github.io/Zlog/tags/ldm/</link><description>Recent content in LDM on WhateverZ</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Sun, 12 Apr 2026 14:54:00 +0800</lastBuildDate><atom:link href="https://whateverzpy.github.io/Zlog/tags/ldm/index.xml" rel="self" type="application/rss+xml"/><item><title>图像生成（三）——潜空间扩散模型（LDM）</title><link>https://whateverzpy.github.io/Zlog/post/11-ldm/</link><pubDate>Sun, 12 Apr 2026 13:27:47 +0800</pubDate><guid>https://whateverzpy.github.io/Zlog/post/11-ldm/</guid><description>&lt;img src="https://whateverzpy.github.io/Zlog/post/11-ldm/LDM_Architecture.png" alt="Featured image of post 图像生成（三）——潜空间扩散模型（LDM）" /&gt;&lt;h2 id="1-ldm-之前的前夜-传统模型有什么问题为什么会有问题"&gt;1. LDM 之前的“前夜”—— 传统模型有什么问题？为什么会有问题？
&lt;/h2&gt;&lt;p&gt;在 LDM 出现之前，图像生成领域主要由 GAN、VAE 以及早期的像素级扩散模型（如 DDPM）占据主导。但它们各自面临着难以逾越的瓶颈：&lt;/p&gt;
&lt;h3 id="11-gan-与-vae-的两难困境"&gt;1.1 GAN 与 VAE 的两难困境
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GAN（生成对抗网络）：&lt;/strong&gt; 能够生成极其锐利的图像，但由于缺乏明确的似然函数，训练过程极度不稳定，且容易陷入“模式崩溃”（Mode Collapse），无法覆盖完整的数据分布。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;a class="link" href="../9-vae" &gt;VAE（变分自编码器）&lt;/a&gt;：&lt;/strong&gt; 拥有优美的数学概率基础和稳定的训练过程。&lt;strong&gt;为什么 VAE 生成的图像总是很模糊？&lt;/strong&gt; 因为传统 VAE 为了强迫潜空间服从简单的标准高斯先验，施加了极其强烈的 KL 散度惩罚，这导致重构误差与先验匹配产生严重冲突，模型只能输出平滑、缺乏高频细节的模糊图像。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="12-像素级扩散模型pixel-dms的算力黑洞"&gt;1.2 像素级扩散模型（Pixel-DMs）的“算力黑洞”
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="../10-ddpm-ddim" &gt;DDPM&lt;/a&gt; 成功解决了 GAN 的不稳定和 VAE 的模糊问题，但它带来了新的问题：&lt;strong&gt;极其缓慢的训练与推理速度&lt;/strong&gt;。&lt;br&gt;
&lt;strong&gt;为什么像素级扩散模型会有这个问题？&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;在像素空间中挣扎：&lt;/strong&gt; 数字图像中包含了大量人类视觉根本无法察觉的高频细节（Imperceptible details）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;资源的巨大浪费：&lt;/strong&gt; 传统的扩散模型直接在极高维度的 RGB 像素空间中进行马尔可夫加噪和去噪。虽然模型可以通过优化损失函数来抑制这些无意义的细节，但&lt;strong&gt;神经网络的每一次前向传播、梯度的每一次反向计算，都必须在数以百万计的像素上进行&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;结果：&lt;/strong&gt; 优化一个强大的像素级扩散模型通常需要消耗数百个 GPU days，且由于去噪过程的序列化特性，生成一张图像的成本极高。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="2-ldm-的核心哲学--将感知压缩与语义生成彻底解耦"&gt;2. LDM 的核心哲学 —— 将“感知压缩”与“语义生成”彻底解耦
&lt;/h2&gt;&lt;p&gt;为了解决上述问题，&lt;a class="link" href="https://arxiv.org/abs/2112.10752" target="_blank" rel="noopener"
&gt;LDM（Latent Diffusion Models）&lt;/a&gt;的作者提出了一个极其深刻的洞察：&lt;strong&gt;图像的生成过程可以被分为两个截然不同的阶段&lt;/strong&gt;。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;感知压缩（Perceptual Compression）：&lt;/strong&gt; 剔除图像中对人类视觉无意义的高频细节，将高维像素压缩为低维特征。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;语义压缩与生成（Semantic Compression）：&lt;/strong&gt; 学习图像中物体的高层语义、概念组合及其全局概率分布。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;LDM 是如何解决传统模型问题的？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;LDM 放弃了在像素空间直接训练扩散模型。它首先训练一个强大的&lt;strong&gt;自编码器（Autoencoder）&lt;/strong&gt;，将图像压缩到一个低维但信息高度浓缩的&lt;strong&gt;潜空间（Latent Space）&lt;strong&gt;中。然后，它在这个低维的潜空间里训练&lt;/strong&gt;扩散模型&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;为什么 LDM 能够解决问题？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;因为低维潜空间屏蔽了高频噪声，扩散模型可以 100% 专注于学习图像的语义结构；同时，维度的呈几何级数降低，使得训练和推理的计算成本呈指数级下降，完美实现了“降维打击”。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="3-ldm-的第一阶段--极致的感知压缩自编码器"&gt;3. LDM 的第一阶段 —— 极致的感知压缩（自编码器）
&lt;/h2&gt;&lt;p&gt;LDM 的第一步，是独立训练一个感知压缩自编码器，包含编码器 $E$ 和解码器 $D$。&lt;/p&gt;
&lt;h3 id="31-网络架构与下采样"&gt;3.1 网络架构与下采样
&lt;/h3&gt;&lt;p&gt;给定一张 RGB 图像 $x \in \mathbb{R}^{H \times W \times 3}$，编码器 $E$ 将其映射为潜变量表示 $z = E(x)$，解码器 $D$ 再将其重构为 $\tilde{x} = D(z)$。
这里潜变量 $z \in \mathbb{R}^{h \times w \times c}$ 保留了二维的网格结构。相比于原图，它在空间维度上下采样了 $f$ 倍，即 $f = H/h = W/w$。作者实验了 $f \in \{1, 2, 4, 8, 16, 32\}$，最终发现 &lt;strong&gt;$f=4$ 和 $f=8$ 能够达到效率与质量的最佳平衡&lt;/strong&gt;。过小的 $f$ 依然计算缓慢，而过大的 $f$（如 32）会导致信息丢失，限制了最终的生成质量。&lt;/p&gt;
&lt;h3 id="32-避免方差爆炸微小正则化的精妙设计"&gt;3.2 避免方差爆炸：微小正则化的精妙设计
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;为什么这里不能直接用普通的自编码器（AE）？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果不对潜空间施加任何约束，AE 会通过“尺度作弊”让潜空间的方差任意膨胀。扩散模型对数据的方差极为敏感，方差爆炸的潜空间会彻底摧毁扩散过程的信噪比。&lt;/p&gt;
&lt;p&gt;为了解决这个问题，LDM 引入了两种微度的正则化方案：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;KL-reg：&lt;/strong&gt; 对潜变量施加一个权重极其微小（如 $10^{-6}$）的 KL 惩罚，使其轻微向标准正态分布靠拢。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;VQ-reg：&lt;/strong&gt; 在解码器内部引入向量量化（Vector Quantization）层，利用离散密码本限制数值范围。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;为什么这种“微弱惩罚”没有导致传统 VAE 的模糊问题？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;因为 LDM 的自编码器结合了&lt;strong&gt;感知损失（Perceptual Loss）&lt;/strong&gt; 和基于 Patch 的&lt;strong&gt;对抗损失（PatchGAN）&lt;/strong&gt;，这强迫模型在局部纹理上保持极高的逼真度。&lt;/p&gt;
&lt;h3 id="33-第一阶段目标函数"&gt;3.3 第一阶段目标函数
&lt;/h3&gt;&lt;p&gt;自编码器的完整优化目标是一个最小-最大博弈问题（原始论文附录公式 25）：&lt;/p&gt;
$$L_{Autoencoder} = \min_{E,D} \max_{\psi} \left( L_{rec}(x, D(E(x))) - L_{adv}(D(E(x))) + \log D_\psi(x) + L_{reg}(x; E, D) \right)$$&lt;ul&gt;
&lt;li&gt;$L_{rec}$：结合了感知损失的重构误差，保证语义还原。&lt;/li&gt;
&lt;li&gt;$L_{adv}, \log D_\psi$：对抗损失，对抗模糊，保证细节锐利。&lt;/li&gt;
&lt;li&gt;$L_{reg}$：极微小的 KL 或 VQ 正则化，锁住潜空间的尺度边界。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="4-ldm-的第二阶段--潜空间中的扩散魔法"&gt;4. LDM 的第二阶段 —— 潜空间中的扩散魔法
&lt;/h2&gt;&lt;p&gt;在自编码器训练完毕并冻结权重后，LDM 开始在低维潜空间 $z$ 中训练扩散模型。&lt;/p&gt;
&lt;h3 id="41-尺度缩放rescaling的必要性"&gt;4.1 尺度缩放（Rescaling）的必要性
&lt;/h3&gt;&lt;p&gt;即便有微弱的 KL 正则化，提取出的 $z$ 的方差依然不为 1。为了匹配扩散模型对信噪比的严苛要求，LDM 会估算出潜变量的逐分量标准差 $\hat{\sigma}$，并在前向加噪前强制进行缩放：$z \leftarrow z / \hat{\sigma}$。&lt;/p&gt;
&lt;h3 id="42-潜空间的去噪目标函数"&gt;4.2 潜空间的去噪目标函数
&lt;/h3&gt;&lt;p&gt;在像素空间的传统扩散模型，其简化目标函数为：&lt;/p&gt;
$$L_{DM} = \mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||_2^2 \right]$$&lt;p&gt;而 LDM 将这一过程无缝迁移到了潜空间。它采用带有二维空间归纳偏置的 U-Net（$\epsilon_\theta$）作为骨干网络。由于脱离了高频像素的干扰，模型现在可以专注于最重要的“语义位（Semantic bits）”。无条件 LDM 的目标函数被改写为（原始论文公式 2）：&lt;/p&gt;
$$L_{LDM} := \mathbb{E}_{\mathcal{E}(x),\epsilon\sim\mathcal{N}(0,1),t} \left[ ||\epsilon - \epsilon_\theta(z_t, t)||_2^2 \right]$$&lt;h3 id="43-解答核心疑问为什么-ldm-采样时不会像-ae-那样生成无意义的乱码"&gt;4.3 解答核心疑问：为什么 LDM 采样时不会像 AE 那样生成无意义的乱码？
&lt;/h3&gt;&lt;p&gt;由于 LDM 的第一阶段为了保留细节，几乎放任潜空间变成了充满“空洞”的不规则地形。如果你像传统 VAE 那样直接从 $\mathcal{N}(0,I)$ 盲目抽样并解码，注定会得到乱码。&lt;br&gt;
&lt;strong&gt;但 LDM 并不是在盲目抽样。&lt;/strong&gt;&lt;br&gt;
在生成阶段，起点确实是纯噪声 $z_T \sim \mathcal{N}(0, 1)$。但接下来，&lt;strong&gt;极其强大的扩散模型（U-Net）接管了导航任务&lt;/strong&gt;。在从 $t=T$ 到 $t=0$ 的多步去噪过程中，扩散模型凭借学习到的复杂流形梯度（Score Matching），精准地引导这个随机噪声避开所有的“无意义空洞”，一步步被拉扯回蕴含真实图像语义的合法区间 $z_0$。最后将这个合法的 $z_0$ 送入解码器 $D$，就能瞬间显影为极其清晰的高分辨率图像。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="5-ldm-的杀手锏--交叉注意力cross-attention条件机制"&gt;5. LDM 的“杀手锏” —— 交叉注意力（Cross-Attention）条件机制
&lt;/h2&gt;&lt;p&gt;LDM 之所以能成为通用生成框架（尤其是文本到图像生成的霸主），归功于它对 U-Net 骨干网络的巧妙改造：&lt;strong&gt;引入了交叉注意力机制&lt;/strong&gt;。这使得模型不仅能生成图像，还能精准听懂各种模态的条件指令 $y$（如文本、布局图）。&lt;/p&gt;
&lt;h3 id="51-领域特定编码器domain-specific-encoder"&gt;5.1 领域特定编码器（Domain Specific Encoder）
&lt;/h3&gt;&lt;p&gt;对于任意模态的输入 $y$，LDM 引入了一个特定的编码器 $\tau_\theta$（例如，处理文本时，$\tau_\theta$ 可以是未掩码的 Transformer）。它将条件 $y$ 映射为中间表示矩阵 $\tau_\theta(y) \in \mathbb{R}^{M \times d_\tau}$。&lt;/p&gt;
&lt;h3 id="52-交叉注意力的工作原理"&gt;5.2 交叉注意力的工作原理
&lt;/h3&gt;&lt;p&gt;在 U-Net 的各个网络层级中，潜变量图像的中间特征 $\phi_i(z_t) \in \mathbb{R}^{N \times d_\epsilon^i}$ 会与条件矩阵进行深度融合。&lt;br&gt;
模型引入了可学习的投影矩阵 $W_Q^{(i)}, W_K^{(i)}, W_V^{(i)}$。&lt;br&gt;
角色分配如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Query (Q) 来自图像：&lt;/strong&gt; $Q = W_Q^{(i)} \cdot \phi_i(z_t)$。（图像特征在询问：我这里该画什么？）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Key (K) 和 Value (V) 来自条件：&lt;/strong&gt; $K = W_K^{(i)} \cdot \tau_\theta(y)$， $V = W_V^{(i)} \cdot \tau_\theta(y)$。（文本指令在提供语义答复。）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;注意力计算公式为：&lt;/p&gt;
$$Attention(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V$$&lt;h3 id="53-条件-ldm-目标函数"&gt;5.3 条件 LDM 目标函数
&lt;/h3&gt;&lt;p&gt;在引入交叉注意力后，领域编码器 $\tau_\theta$ 和 U-Net 主干网络 $\epsilon_\theta$ 通过以下目标函数进行&lt;strong&gt;联合优化&lt;/strong&gt;（原始论文公式 3）：&lt;/p&gt;
$$L_{LDM} := \mathbb{E}_{\mathcal{E}(x), y, \epsilon\sim\mathcal{N}(0,1), t} \left[ ||\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y))||_2^2 \right]$$&lt;p&gt;在这个过程中，文本编码器不仅在学习语言，更是在学习“如何生成对扩散模型去噪最有利的条件向量”。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="6-结语ldm-的深远意义"&gt;6. 结语：LDM 的深远意义
&lt;/h2&gt;&lt;p&gt;《High-Resolution Image Synthesis with Latent Diffusion Models》这篇论文，其伟大之处不在于提出了全新的数学概率模型，而在于它极其精妙的&lt;strong&gt;工程直觉与架构解耦&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;它敏锐地察觉到“压缩”和“生成”是两件截然不同的事情。通过将感知压缩交给自编码器，将语义生成交给潜空间扩散模型，辅以灵活的交叉注意力机制，LDM（Latent Diffusion Models）不仅在训练效率和采样速度上实现了质的飞跃，更开启了多模态高分辨率图像生成的全新纪元。这正是我们今天能够轻松在消费级显卡上运行 Stable Diffusion 的基石。&lt;/p&gt;</description></item></channel></rss>