Lyirs的小屋

Flow Matching

Flow Matching 可以理解为一种训练连续生成过程的方法：先设定一条从简单分布到数据分布的概率路径，再训练一个速度场，让样本沿着这条路径移动。

设起点分布为 $p_{0}$ ，通常是高斯噪声；终点分布为 $p_{1}$ ，对应真实数据。Flow Matching 关注的是中间每个时刻 $t \in [0, 1]$ 的分布 $p_{t}$ ，以及能推动这族分布演化的速度场。

如果把样本看成一群粒子，那么模型要学的就是：粒子在时刻 $t$ 、位置 $x$ 时，应该朝哪个方向移动，移动得多快。

记号说明

不同论文会采用不同方向的记号。这里使用 CNF / Flow Matching 中比较自然的一套：

$x_{0} \sim p_{0}$ 表示起点，通常是高斯噪声；
$x_{1} \sim p_{1}$ 表示终点，通常是数据分布。

一些 diffusion 论文会把干净数据写成 $x_{0}$ ，这和本文的记号方向相反。阅读不同材料时要先确认时间方向。

从 CNF 开始：流是怎么定义的

Flow Matching 建立在 Continuous Normalizing Flow（CNF）的语言上。CNF 用一个连续时间 ODE 描述样本的运动：

\frac{d x_{t}}{d t} = v_{θ} (x_{t}, t), t \in [0, 1] .

这里， $x_{t}$ 是时刻 $t$ 的样本位置， $v_{θ} (x, t)$ 是模型学习到的速度场。它告诉我们：当前位置 $x$ 在时刻 $t$ 应该往哪里走。

如果从简单分布 $p_{0}$ 中采样

x_{0} \sim p_{0},

再按照上面的 ODE 从 $t = 0$ 积分到 $t = 1$ ，样本就会被连续地推向另一个分布。这个由 ODE 诱导的映射通常称为 flow map。

概率密度如何随流变化

单个样本沿 ODE 运动，一整群样本的密度 $p_{t} (x)$ 也会随时间变化。它满足连续性方程：

\partial_{t} p_{t} (x) + \nabla \cdot (p_{t} (x) v_{t} (x)) = 0.

这条方程表达的是概率质量守恒。取空间中的一个区域 $A$ ，区域内概率质量的变化率等于边界上的净流出量：

\frac{d}{d t} \int_{A} p_{t} (x) d x = - \int_{\partial A} p_{t} (x) v_{t} (x) \cdot n (x) d S .

由散度定理可得

\int_{\partial A} p_{t} (x) v_{t} (x) \cdot n (x) d S = \int_{A} \nabla \cdot (p_{t} (x) v_{t} (x)) d x .

代回上式：

\int_{A} [\partial_{t} p_{t} (x) + \nabla \cdot (p_{t} (x) v_{t} (x))] d x = 0.

由于区域 $A$ 可以任意选取，括号中的项应为零，于是得到连续性方程。

CNF 为什么适合生成建模

CNF 的好处在于，它同时给出了采样和密度变化的描述。沿着轨迹 $x_{t}$ ，对数密度满足瞬时变量替换公式：

\frac{d}{d t} \log p_{t} (x_{t}) = - \nabla \cdot v_{θ} (x_{t}, t) .

从 $0$ 积分到 $1$ ：

\log p_{1} (x_{1}) = \log p_{0} (x_{0}) - \int_{0}^{1} \nabla \cdot v_{θ} (x_{t}, t) d t .

因此，如果速度场足够好，模型既可以从噪声生成样本，也可以通过散度积分估计似然。实际训练里，直接用似然训练 CNF 往往需要反复求解 ODE，成本较高。Flow Matching 提供了一条更直接的训练路线。

Flow Matching 的目标

假设我们已经指定了一条概率路径 $p_{t}$ ，它满足：

$p_{0}$ 是容易采样的简单分布，例如标准高斯；
$p_{1}$ 是数据分布，或者至少接近数据分布。

如果存在一个速度场 $u_{t} (x)$ 能生成这条路径，也就是

\partial_{t} p_{t} (x) + \nabla \cdot (p_{t} (x) u_{t} (x)) = 0,

那么可以直接训练模型速度场 $v_{θ} (x, t)$ 去拟合它：

L_{FM} (θ) = E_{t \sim U [0, 1]} E_{x \sim p_{t}} [{‖ v_{θ} (x, t) - u_{t} (x) ‖}^{2}] .

这个损失的含义很清楚：随机取一个时间 $t$ ，再从当前分布 $p_{t}$ 中取一个点 $x$ ，让模型给出的速度接近目标速度 $u_{t} (x)$ 。

训练难点在于，真实情况下我们通常没有 $p_{t} (x)$ 的解析式，也不知道边缘速度场 $u_{t} (x)$ 。手里只有数据样本 $x_{1} \sim p_{1}$ ，以及一个容易采样的起点分布 $p_{0}$ 。Flow Matching 的关键步骤，是把边缘路径问题改写成条件路径问题。

Conditional Flow Matching

Conditional Flow Matching（CFM）从更容易构造的条件路径入手。

设 $c$ 是某个条件变量。它可以是一个数据样本 $x_{1}$ ，也可以是一对起点和终点 $(x_{0}, x_{1})$ ，还可以是其他帮助定义路径的随机变量。先定义条件路径 $p_{t} (x ∣ c)$ ，再把这些条件路径混合起来：

p_{t} (x) = \int p_{t} (x ∣ c) q (c) d c .

换句话说，整体路径由许多更小的条件路径平均得到。我们不必先写出完整的边缘分布，只要每条条件路径容易采样、速度场容易计算，就能训练。

边缘速度场的来源

假设每条条件路径都有对应的条件速度场 $u_{t} (x ∣ c)$ ，并满足

\partial_{t} p_{t} (x ∣ c) + \nabla \cdot (p_{t} (x ∣ c) u_{t} (x ∣ c)) = 0.

对 $c$ 积分：

\partial_{t} p_{t} (x) = \int \partial_{t} p_{t} (x ∣ c) q (c) d c = - \int \nabla \cdot (p_{t} (x ∣ c) u_{t} (x ∣ c)) q (c) d c .

交换积分和散度：

\partial_{t} p_{t} (x) = - \nabla \cdot (\int p_{t} (x ∣ c) u_{t} (x ∣ c) q (c) d c) .

于是可以定义边缘速度场：

u_{t} (x) = \frac{\int p_{t} (x ∣ c) u_{t} (x ∣ c) q (c) d c}{p_{t} (x)} .

这样就有

\partial_{t} p_{t} (x) + \nabla \cdot (p_{t} (x) u_{t} (x)) = 0.

也可以写成条件期望形式：

u_{t} (x) = E [u_{t} (X_{t} ∣ C) ∣ X_{t} = x] .

也就是说，某个时刻、某个位置上的边缘速度，是所有经过该位置的条件路径速度的平均。

CFM 损失

既然边缘速度场可以由条件速度场平均得到，训练时可以直接拟合条件速度：

L_{CFM} (θ) = E_{t \sim U [0, 1]} E_{c \sim q (c)} E_{x \sim p_{t} (\cdot ∣ c)} [{‖ v_{θ} (x, t) - u_{t} (x ∣ c) ‖}^{2}] .

这个目标看起来与原始 FM 损失不同，但它们的梯度一致；更具体地说，两者只差一个与 $θ$ 无关的常数项。

固定 $(x, t)$ ，记

Y = u_{t} (X_{t} ∣ C), a = v_{θ} (x, t) .

边缘速度场是条件期望：

u_{t} (x) = E [Y ∣ X_{t} = x] .

平方误差可以分解为

E [∥ a - Y ∥^{2} ∣ X_{t} = x] = ∥ a - u_{t} (x) ∥^{2} + E [∥ Y - u_{t} (x) ∥^{2} ∣ X_{t} = x] .

展开即可看到原因。把 $Y$ 写成

Y = u_{t} (x) + (Y - u_{t} (x)),

则

∥ a - Y ∥^{2} = ∥ a - u_{t} (x) ∥^{2} + ∥ Y - u_{t} (x) ∥^{2} - 2 (a - u_{t} (x))^{⊤} (Y - u_{t} (x)) .

对条件分布取期望时，交叉项消失，因为

E [Y - u_{t} (x) ∣ X_{t} = x] = 0.

再对 $(x, t)$ 取期望，就得到

L_{CFM} (θ) = L_{FM} (θ) + const,

因此

\nabla_{θ} L_{CFM} (θ) = \nabla_{θ} L_{FM} (θ) .

这解释了为什么训练时可以避开难算的边缘速度场，只回归条件速度场。

Gaussian 条件路径

一种常用选择是高斯条件路径。给定数据样本 $x_{1}$ ，定义

p_{t} (x ∣ x_{1}) = N (x ∣ μ_{t} (x_{1}), σ_{t}^{2} I) .

其中， $μ_{t} (x_{1})$ 是时间相关的均值， $σ_{t}$ 是时间相关的标准差。通常会设置类似的边界条件：

μ_{0} (x_{1}) = 0, σ_{0} = 1,

使 $t = 0$ 时接近标准高斯；并令

μ_{1} (x_{1}) = x_{1}, σ_{1} = σ_{min},

使 $t = 1$ 时分布收缩到数据点附近。

重参数化

高斯路径可以写成

x_{t} = μ_{t} (x_{1}) + σ_{t} ϵ, ϵ \sim N (0, I) .

这样可以直接采样训练点 $x_{t}$ 。

条件速度场

对上式按时间求导，保持 $x_{1}$ 和 $ϵ$ 固定：

\frac{d x_{t}}{d t} = {\dot{μ}}_{t} (x_{1}) + {\dot{σ}}_{t} ϵ .

训练时模型看到的是 $x_{t}$ ，所以把

ϵ = \frac{x_{t} - μ_{t} (x_{1})}{σ_{t}}

代回，得到

u_{t} (x_{t} ∣ x_{1}) = {\dot{μ}}_{t} (x_{1}) + \frac{{\dot{σ}}_{t}}{σ_{t}} (x_{t} - μ_{t} (x_{1})) .

其中， ${\dot{μ}}_{t} (x_{1})$ 描述均值的移动，第二项描述分布宽度的变化。

使用重参数化形式时，条件速度还可以写成

u_{t} (x_{t} ∣ x_{1}) = {\dot{μ}}_{t} (x_{1}) + {\dot{σ}}_{t} ϵ .

于是 CFM 目标可以写成

L_{CFM} (θ) = E_{t, x_{1}, ϵ} [{‖ v_{θ} (μ_{t} (x_{1}) + σ_{t} ϵ, t) - ({\dot{μ}}_{t} (x_{1}) + {\dot{σ}}_{t} ϵ) ‖}^{2}] .

这就是实际实现中常见的形式：采样 $x_{1}$ 、 $ϵ$ 和 $t$ ，构造 $x_{t}$ 与目标速度，再做一次均方误差回归。训练阶段不需要对模型自己的 ODE 做数值求解。

与 diffusion 的关系

Diffusion 中常见的加噪形式可以写成

x_{t} = α_{t} x_{1} + σ_{t} ϵ .

这也是一类高斯条件路径，对应

μ_{t} (x_{1}) = α_{t} x_{1} .

因此条件速度为

u_{t} (x_{t} ∣ x_{1}) = {\dot{α}}_{t} x_{1} + {\dot{σ}}_{t} ϵ,

也可以写成只依赖 $x_{t}$ 的形式：

u_{t} (x_{t} ∣ x_{1}) = {\dot{α}}_{t} x_{1} + \frac{{\dot{σ}}_{t}}{σ_{t}} (x_{t} - α_{t} x_{1}) .

对高斯条件分布

p_{t} (x ∣ x_{1}) = N (x ∣ μ_{t} (x_{1}), σ_{t}^{2} I),

条件 score 为

\nabla_{x} \log p_{t} (x ∣ x_{1}) = - \frac{x - μ_{t} (x_{1})}{σ_{t}^{2}} .

因此条件速度也能写成

u_{t} (x ∣ x_{1}) = {\dot{μ}}_{t} (x_{1}) - {\dot{σ}}_{t} σ_{t} \nabla_{x} \log p_{t} (x ∣ x_{1}) .

这个式子把 velocity matching 和 score matching 联系起来：对于高斯路径，速度与 score 之间存在直接的代数关系。Flow Matching 可以直接学习 ODE 速度场，而不必先训练 score 再转换为 ODE。

直线路径与 Optimal Transport

Flow Matching 的路径不必固定为 diffusion path。另一类常用路径是起点和终点之间的线性插值。

设 $(x_{0}, x_{1})$ 是起点分布 $p_{0}$ 和数据分布 $p_{1}$ 的一个 coupling，定义

x_{t} = (1 - t) x_{0} + t x_{1} .

对时间求导：

\frac{d x_{t}}{d t} = x_{1} - x_{0} .

所以条件速度场为

u_{t} (x_{t} ∣ x_{0}, x_{1}) = x_{1} - x_{0} .

对应的训练目标是

L_{CFM} (θ) = E_{t, (x_{0}, x_{1}) \sim π} [{‖ v_{θ} ((1 - t) x_{0} + t x_{1}, t) - (x_{1} - x_{0}) ‖}^{2}] .

如果 coupling $π (x_{0}, x_{1})$ 选成 Optimal Transport coupling，这条线性插值路径就是 OT displacement interpolation。此时可以理解为：先用整体搬运成本较小的方式匹配噪声点和数据点，再让每一对样本沿直线移动。

Rectified Flow 也使用类似的线性插值形式：

X_{t} = (1 - t) X_{0} + t X_{1},

并把边缘速度场写为

v_{t}^{X} (z) = E [X_{1} - X_{0} ∣ X_{t} = z] .

这和前面得到的条件平均形式一致。

训练与采样

训练时，Flow Matching 更像监督回归。给定一批数据，随机采样时间 $t$ ，再根据选定的条件路径构造中间点 $x_{t}$ 和目标速度 $u_{t}$ ，最后让模型输出 $v_{θ} (x_{t}, t)$ 去拟合这个速度。

以高斯条件路径为例：

x_{t} = μ_{t} (x_{1}) + σ_{t} ϵ, u_{t} = {\dot{μ}}_{t} (x_{1}) + {\dot{σ}}_{t} ϵ .

每一步训练只需要前向计算和均方误差损失。模型自己的 ODE 不参与训练阶段的数值求解。

采样阶段则需要解 ODE：

\frac{d x_{t}}{d t} = v_{θ} (x_{t}, t), x_{0} \sim p_{0} .

从 $t = 0$ 积分到 $t = 1$ 后，得到数据分布附近的样本。

因此，simulation-free training 指的是训练过程不需要模拟模型 ODE；生成样本时仍然要进行 ODE 积分。

Flow Matching 的特点

Flow Matching 的训练目标直接，形式上接近普通监督学习。它避免了 CNF 训练中反复通过 ODE 求解似然的成本，也允许研究者自由设计概率路径。Gaussian path、diffusion path、OT path 和直线路径都可以放进同一个框架里讨论。

这种自由度也带来新的选择问题。路径设计会影响训练难度、采样效率和生成质量。路径太曲折，模型需要学习更复杂的速度场；coupling 质量不好，线性路径也可能难以建模；速度场不够平滑，采样时的 ODE solver 可能需要更多步数。

Flow Matching 的价值不只在于一个新的损失函数，也在于它把生成建模重新表述为“设计一条合适的概率路径，并学习对应速度场”的问题。

总结

Flow Matching 为一条从噪声分布到数据分布的概率路径学习速度场。边缘形式的目标是

L_{FM} (θ) = E_{t, x \sim p_{t}} [∥ v_{θ} (x, t) - u_{t} (x) ∥^{2}] .

实践中常用条件路径训练：

L_{CFM} (θ) = E_{t, c, x \sim p_{t} (\cdot ∣ c)} [∥ v_{θ} (x, t) - u_{t} (x ∣ c) ∥^{2}] .

连接二者的关键关系是

u_{t} (x) = E [u_{t} (X_{t} ∣ C) ∣ X_{t} = x] .

边缘速度场是条件速度场在同一时空点上的条件平均，因此可以通过回归条件速度来学习整体流。Flow Matching 训练阶段通常不需要求解模型 ODE，采样阶段再沿学习到的速度场从噪声积分到数据。

Memory

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

高等数学

🧰 工具安装

🤖 Rasa

🥝 机器学习

🧠 LLM专题

🍿 强化学习

🍳 计算机视觉

🤖 智能体

🐬 mysql

🧪 jest

Flow Matching

从 CNF 开始：流是怎么定义的

概率密度如何随流变化

CNF 为什么适合生成建模

Flow Matching 的目标

Conditional Flow Matching

边缘速度场的来源

CFM 损失

Gaussian 条件路径

重参数化

条件速度场

与 diffusion 的关系

直线路径与 Optimal Transport

训练与采样

Flow Matching 的特点

总结

🤖 Rasa

Flow Matching ​

从 CNF 开始：流是怎么定义的 ​

概率密度如何随流变化 ​

CNF 为什么适合生成建模 ​

Flow Matching 的目标 ​

Conditional Flow Matching ​

边缘速度场的来源 ​

CFM 损失 ​

Gaussian 条件路径 ​

重参数化 ​

条件速度场 ​

与 diffusion 的关系 ​

直线路径与 Optimal Transport ​

训练与采样 ​

Flow Matching 的特点 ​

总结 ​

Flow Matching

从 CNF 开始：流是怎么定义的

概率密度如何随流变化

CNF 为什么适合生成建模

Flow Matching 的目标

Conditional Flow Matching

边缘速度场的来源

CFM 损失

Gaussian 条件路径

重参数化

条件速度场

与 diffusion 的关系

直线路径与 Optimal Transport

训练与采样

Flow Matching 的特点

总结