VLASH:Real-Time VLAs via Future-State-Aware Asynchronous Inference
VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
Note
The future-state-awareness assumes that the VLA is able to leverage the rolled-forward robot state.
前向推演:在训练的时候将提前录制好的视频数据作为一组时空数据(从头开始,就可以有现在和未来)输入。然后强迫模型学会使用当前图像和未来状态来预测未来动作。
Offset state and action together.
Fix the environment observation.
使用随机偏移$\delta$,从同一轨迹上的未来状态$s_{t+\delta}$和未来动作块$a_{(t+δ):(t+δ+H−1)}$来构建训练目标。但是给定的图像是相同的,也就是说,相同的图像可以根据机器人的不同的偏移状态预测不同的真实动作。
避免模型的死记硬背(从某一图像直接映射到某一动作,对视觉特征过拟合),如果说神经网络本质是概率预测,避免从某一特定输入到某一特定输出之间的映射概率太大。
1 | Thinking... |
在异步推理部署时,我们可以将向前推进的执行时刻状态与当前观察一起输入,微调后的VLA自然利用这个未来状态产生在执行区间上对齐且稳定的动作。
怪不得vlash可以提升性能,之前的异步推理的问题是,在推理结束输出动作的时候,推理所用的图像是过去状态的图像,所以可能会导致输出动作的状态与观察图像的状态不符合。但是vlash直接反过来,直接使用图像和未来的状态进行训练和预测动作,正好是异步推理的模式:过去的图像+现在的状态=现在的图像+未来的状态。
Action Quantization
将小动作量化成一个大动作(宏动作),可以减少执行的步数,加速机器人动作的执行。
meth
$$[o_t , (s_t , A_t ), (s_{t+1}, A_{t+1}), . . . , (s_{t+Δmax} , A_{t+Δmax} )]$$
将一个观察和多个偏移分支打包到一个序列中,其中每个$$(s_{t+δ}, A_{t+δ})$$对应一个时序偏移
We then apply a block-sparse self-attention mask with the following structure:
• All observation tokens (e.g., image tokens from two views and language prompt, about ∼700 tokens for π0.5) can attend to each other, as in standard VLA fine-tuning.
• For each offset branch, the state-action tokens (st+δ, At+δ) can attend to all observation tokens and to tokens within the same offset, but cannot attend to tokens from other offsets.
然后我们应用具有以下结构的块稀疏自注意力掩码:
• 所有观察标记(例如来自两个视角的图像标记和语言提示,对于π0.5约700个标记)可以相互关注,如同标准VLA微调中一样。
• 对于每个偏移分支,状态-动作标记(st+δ, At+δ)可以关注所有观察标记和同一偏移内的标记,但不能关注来自其他偏移的标记。
图所示的这种注意力图使不同偏移基于共享观察进行条件化,同时保持相互独立。
- 防止误差累积:
如果允许 t+2依赖 t+1的预测结果,那么一旦模型在 t+1 时刻预测错了(比如预测手会向左,实际向右),这个错误会像滚雪球一样传给 t+2 ,导致后面的预测全崩。让它们相互独立,意味着每个时间点的预测都是直接基于当前图像算出来的,互不干扰。 - 支持“异步推理”和“跳步”:
这是最关键的一点。在部署时,由于计算延迟,我们可能只需要预测 t+3 时刻的动作,而不需要 t+1或 t+2的。- 如果它们互相关联,你必须先算出 t+1才能算 t+3串行计算,很慢)。
- 因为它们是相互独立的(都只看图),你可以直接跳过中间步骤,瞬间算出 t+3的动作。这大大加快了机器人的反应速度。

