FASTER: Rethinking Real-Time Flow VLAs

Paper url: FASTER: Rethinking Real-Time Flow VLAs

Note

现有的基于流匹配的 VLA 将整个动作分块视作一个不可分割的单元，并在所有动作索引上应用恒定的时间步调度。

可以理解为，基于流匹配的模型在预测一个chunk size的时候，第一步和第chunk size步是同时同频变清晰的。如果第chunk size步没有清晰，那么第一步也没有清晰。这就造成了推理延迟的bottleneck。

然而，动作块表现出固有的时间结构：在给定当前观察结果和本体感受状态的情况下，与未来动作相比，处于早期的动作受到更强的因果约束，因此处于大幅缩窄的搜索空间之中。

此外，当异步方法将动作前缀作为输入结合进来时，这些额外的先验提供了进一步约束随后预测的条件。

越早的动作的可选择范围越小（从完成目标任务来看），越晚生成的动作当前状态对其约束越小（因为环境可能发生改变，或者突变）。当前的动作可以作为后面动作的约束条件（且时间距离越远按理说约束越小）。

在给定混合概率 $p$ 的情况下，训练批次中的每个动作样本有概率 $p$ 选用 HAS，并有 $1-p$ 的概率保留原有的恒定调度方案。

因为可能发生分布漂移和对动作的学习坍缩，所以采用这种策略。

他们称”所提议的调度方法可以毫不费力地合并到标准的基于流式 VLA 的微调管道中，而不需要任何的架构修改或者产生额外的训练开销“。

Streaming Client-Server Interface.

流式客户端-服务器接口 (Streaming Client-Server Interface)

在服务端生成动作，生成一个就发送一个。在客户端接收动作，只要接收动作的频率超过机器人的控制频率，机器人就可以无间断的进行运转。

Summary

基于流匹配模型，采取根据时间距离分配不同时间步调度的方法，从而加速了早期动作的生成速度，提高反应能力，并做一些适配（比如使用混合调度的微调方式，与动作条件协同）。

方法论 (Methodology)

有点数学，还没研究。

4.1 预备知识 (Preliminaries)

我们采用了被广泛使用的基于流匹配的 VLA 结构。
该模型由 VLM 主干网和动作专家模块组成，通过使用条件流匹配学习一个将噪声样本传送到目标动作分块的速度场。
训练过程遵循最优传输公式，其假设了高斯噪声 $\epsilon \sim \mathcal{N}(0, I)$ 与真实值动作 $A_t$ 之间存在线性插值路径 $A_t^\tau = \tau \epsilon + (1-\tau) A_t$，其中 $\tau \in (0,1)$ 是流匹配的连续时间步。
优化目标是利用网络 $v_\theta$ 回归沿该路径的速度场：$\mathcal{L}(\theta) = \mathbb{E}{\tau \sim \mathcal{U}(0,1)} ||v\theta (o_t, A_t^\tau, \tau) - (\epsilon - \hat{A}_t)||^2$ 。
在推理阶段，通过在 $\tau=1$ 处从高斯噪声 $A_t^1 \sim \mathcal{N}(0,I)$ 进行初始化，并使用欧拉法等 ODE 求解器逐步向 $\tau=0$ 积分学到的速度场来生成动作：$A_t^{\tau + \Delta \tau} = A_t^\tau + v_\theta (o_t, A_t^\tau, \tau) \Delta \tau$ 。
其中 $\Delta \tau = -1/N$ 与采样步数 $N$ 相关，在实践中的典型取值为 10 。

4.2 动作分块采样的初步研究 (Pilot Study on Action Chunk Sampling)

现有的基于流匹配的 VLA 将整个动作分块视作一个不可分割的单元，并在所有动作索引上应用恒定的时间步调度。
因此，在推理期间，动作块内的每一个动作都经历相同数量的去噪步骤。
执行所需的即刻下一个动作 $A_t$ 因此被迫与最遥远的未来动作 $A_{t+H-1}$ 共享同一个调度方案。
于是，在任何单体动作可以被发布之前，整个多步骤的去噪程序不得不被完整地走完，这构成了总体推理延迟的主要瓶颈。
然而，动作块表现出固有的时间结构：在给定当前观察结果和本体感受状态的情况下，与未来动作相比，处于早期的动作受到更强的因果约束，因此处于大幅缩窄的搜索空间之中。
从直觉上讲，这使得短期预测变得更容易且更具确定性。
此外，当异步方法将动作前缀作为输入结合进来时，这些额外的先验提供了进一步约束随后预测的条件。
这进一步降低了即时动作的不确定性，并降低了生成的复杂度。
我们通过对流式 VLA 中采样动态的定量分析验证了该假设。
具体来说，我们采用了直线性指标，这在我们的语境中，可以被离散化的 VLA 去噪过程表述为：$S(A) = \sum_{\tau=0}^1 \mathbb{E}t [||(A_t^1 - A_t^0) - v\theta(o_t, A_t^\tau, \tau)||^2] \Delta \tau$ 。
$S(A)=0$ 表示一条完美平直的路径。
更小的 $S(A)$ 值对应于更接近线性插值的路径，这转而可以用更少的步数进行精确的积分。
我们还研究了在各个去噪步骤估计得出的干净动作，我们用 $l_2$ 范数度量其与最终输出 $A_t^0$ 之间的偏差。
我们通过在我们真实世界的机器人任务中微调一个预训练的 $\pi_{0.5}$ 模型来进行初步研究。
如图 3 所示的可视化结果，我们发现直线性指标和估计偏差在动作块的时间维度（动作索引）上均表现出非均匀性。
特别是，早期的动作（大约前 1-10 帧）在整个采样迭代过程中展示出了更低的直线性指标值和更小的估计干净动作变化偏差。
这一实证观察为支持我们的假设提供了强有力的证据。