internal usage

Note

1.JEPA

JEPA的核心在于抛弃任务specific的像素级预测,把 observation 编码到一个统一的 latent representation space (z) 里面,然后在这个 (z) 空间里做 action-conditioned prediction。有了训练好的encoder和 latent predictor,下游就可以直接结合 motion planning techniques 来做 manipulation。举个最简单的例子: 比如给定当前观测的embedding (z_t),我们可以 rollout 不同 candidate actions,预测未来的 (z_{t+1}, z_{t+2}, ...),然后选择最接近 goal 的 action sequence。 代表性的工作就是V-JEPA + Planning的LeWorldModel (图1),它不是让模型直接 output action,而是让模型学一个 latent-space world model。这个 world model 可以理解为一种更 general、更高层、更 multimodal 的"物理仿真器",对于我们做manipulation 任务来说,模型能不能预测未来画面并不重要,关键点是它能不能支持 action evaluation 和 decision making。只要latent predictor 学到的 (z) 空间足够 meaningful,它就可以作为一个 learned forward model来帮助我们完成各级别的planning任务。

V-JEPA + Planning 架构
图1: V-JEPA + Planning 架构框图。当前时刻RGB观测经过encoder mapping到隐空间,通过action-conditioned prediction预测未来时刻隐空间状态,通过下一时刻真实RGB状态的ground truth 作自回归。

由于JEPA的输出预测空间没有显式监督,只是让 predictor 在 (z) 空间里面自回归预测,那么模型很容易出现 representation collapse。也就是所谓的 no loss but no information:loss 看起来很小,但是 (z) 空间已经塌缩了。所有 input 都被 encoder 映射到差不多的 constant embedding,predictor 预测near identity,整个 representation 对真实任务完全没用。

所以JEPA系列的近期文章在通过引入额外的spatial or temporal 上的regularization constraints来塑造Z空间流形,防止其崩塌为一团。代表方法有引入SIGReg loss, temporal strengthening, stop-gradient 和 EMA target encoder,或使用 pretrained visual foundation model比如 DINO,借助已训练好的视觉表征器。

从 Robotics 角度看,先学 world dynamics,再接 planning 决定 action,把 prediction 和 planning 分开。这样非常naturally的符合 robot manipulation 里面长期以来的 model-based planning 思路,能够build on我们在复杂交互动力学运控问题上的过往经验。配合上我们在各类操作规划任务层的积累,这类范式注定是未来替换当前以模仿学习为核心的直接让大模型output action的这类中间产物的一条可落实的泛化性路径。

2.可变性物体操作

JEPA虽然理论优美,泛化性潜力和确定性最强,但实际效果饱受争议。纯JEPA范式目前能做的Robot Planning Task都非常toy,类似于(图1)右上子图,实际落地依然停留在概念层面,常常接在其他大模型框架后面作为子模块。

在此note接下来的部分,我将以我们正在研究的可变形体操作问题(状态维度高、接触复杂、动力学强非线性,cloth 的初始状态变化会极大影响后续运动)切入,抛开任何对expert trajectory prior的依赖,来探究JEPA范式落地中的问题和我们为实现其泛化性潜力的核心insights和ingredients。

首先,我们测试现有纯JEPA范式在单一布料操作任务上的效果,如图2,它基于 RGB observation,在 (z) 空间预测 future embedding,并用这个 latent prediction 做 planning。经过大量实验发现:虽然 (z)-space prediction + 防崩塌loss联合训练能够得到具有一定时间/空间结构的z空间,在其中作planning也可以 tracking target embedding z,但对应到真实 cloth state 是 chaos 完全杂乱的。模型从RGB信息中学到了某种 weak representation。它可以满足训练 loss,但不包含足够的 cloth state information来支持该布料的下游manipulation tasks。单一布料的不同初始状态时,模型已无法正确推理,更不用说在不同布料资产上的泛化性了。

V-JEPA + Planning 架构
图2: V-JEPA + Planning 应用在cloth manipulation中的框架

RGB模态本是包含信息最丰富的,所以我认为问题并不在RGB信息本身,而是模型的隐空间中缺少了一层对布料状态的physical grounding,让表征空间Z具备解析布料状态中的信息。这层对Z空间的grounding或者说anchoring或许是对于不同初始状态,不同布料资产变形过程中的那层确定性区分和泛化性关键。

具体来说,如果你想让模型capture到布料变形essential的特性和规律,我认为我们需要在表征层中对RGB信息引入布料的几何拓扑信息和材料信息作为inductive bias。因为从客观事实思考角度来看,不管你布料初始在哪里,RGB从哪个角度拍摄,一旦它的zero-energy(静息状态)的拓扑和材料属性是确定的,那么这个布料接下来的变形都应当都是可以预测的。以拓扑为例,如果我们的JEPA范式能够学会基于布料的拓扑结构推理其变形规律,那么我们理论上单一模型可以学会任意初始状态,任意不同形状的布料的变形预测,以此模型作为predictor接入planning算法我们便可以实现任意下游布料操作任务。

带着这一核心insights,我的研究围绕着以下三个research questions: (i). 如何在表征层中注入额外信息? 此信息的作用并不是在预测输出层对模型进行显式监督,那样就脱离了JEPA只预测隐空间变化的本质。我们想要的是通过某种anchoring来在塑造表征空间本身。(ii). 这层grounding信息的注入是否可以直接解决JEPA表征崩塌问题? 虽然通过引入spatial/temporal regularization的方法的确可以让Z空间具备trackable流形,但这一manifold属于手动强制塑形手段,极容易让Z空间丢失它本该有的样子,丢失对planning重要的信息,所以在实操过程中,这类loss必定会和grouding信息的注入"打架"。(iii). 回归task本身,这层信息在表征层的注入是否能够augment纯RGB embedding 的weak representation,完成下游各类布料操作任务并验证JEPA的泛化性潜力。我的实验思路时按照从"单一布料资产,不同初始状态的预测+planning"到"不同布料资产,不同初始状态的预测+planning"的推演逻辑,逐步探索这一问题。

Method

我接下来简单介绍一下我们在表征层注入anchoring信息来引导隐空间流形的方式,以topology为例。

Ours
图3: 我们框架的简图

框架简图如图3,模型结构上:首先我们在布料静息状态下用furthest point sampling (fps) 在mesh上随机采样一定数量N个点,fps能保证这N个点扩散在布料mesh上,即使训练时每个episode都是随机采的但都能够代表布料大致拓扑形状。我们先对这N个点的三维坐标经过Fourier PE变换升维因为这些点很接近,需要先在频域空间做一次特征升维来更好区分这些点。随后用MLP投影到和RGB embedding同一dimension。这层信息表征的是该布料原始拓扑结构,它不随实际操作任务中布料初始状态以及RGB拍摄位置和噪声影响。接下来,我们用这个N个代表布料拓扑的token当作query和RGB embedding作cross attention,从RGB中提取信息,再接self attention让信息在N个token内部流动。这层我们叫做特征融合层(fusion transformer),整个fusion transformer 由多个这种layers拼接而成。融合后的特征Z经过Latent predictor预测未来Z的变化,prediction模块也是多层transformer架构,action以cross-attention形式inject,计算的是Z的残差,也就是未来Z相对于当前Z的变化。整个prediction保持Markov性质,即未来状态只跟上一步有关,与再之前的历史无关,这保留了motion planning中作为系统动力学方程的特性。网络其他细节就先不做展开。

训练时:除了预测输出层保留常规的隐空间自回归loss之外,我们会在表征层接一个Decoder,让其解析这N个点变形过程中的geometry,并和仿真器真值作topology deformation loss。无其他任何spatial/temporal loss引入。这两项loss依然以z自回归为主,topology deformation loss小权重起到geometry anchoring作用帮助共同塑造健康的Z空间。整个训练过程中,rgb encoder, fusion transformer,decoder,predictor以及其他各个mlp投影层联合训练。通过这种方式,我们expect Z空间的预测能够对应到布料真实states的变化,后续planning依然是在Z空间做。值得注意的是联合训练的时候,由于Z prediction loss和topology deformation loss空间尺度不同,过程中会有诸多工程和系统问题,这里也不过多赘述。

Results

第一个非常重要的发现是,这种做法有效的防止了Z空间坍缩,在不引入强制spatial/temporal正则的前提下,模型自然学会了将Z空间流形展开。第二点是联合训练的工程问题的解决之后,两类loss协同下降,即Z空间的预测也能有效解析到几何空间的拓扑变化。Planning模块在Z空间的追踪不再是毫无意义的,通过拓扑信息的注入,让整个范式成功应用到下游操作任务。第三点,通过这层grouding, 我们看到了不依靠任何专家数据,不同初始位置,不同布料拓扑之间的泛化性表现。接下来我们按实验阶段展示整个系统的实际结果。

Stage 1

同样的资产,基于训练好的encoder和predictor,不同的折叠任务只需要改变下游planning的目标函数。

demo live
fold towel
demo bi towel
fold 4 corner

Stage 2

同样资产,不同初始状态,Z空间tracking控制过程中,对布料状态的有效解析。下面视频内彩色的点是可视化的Z空间状态解析到几何空间的拓扑变形状态。我们的目标不是让隐空间状态Z无比精准的还原布料几何,而是成功完成任务。它提供的是一种对Z空间的physical grounding,让Z空间的追踪不再漫无目的。

初始状态 1
初始状态 2
初始状态 3
初始状态 4

Stage 3

不同布料拓扑,隐空间预测+planning皆可以完成折叠任务:

a. 不同rectangle拓扑的推理和规划

15×45cm
18×54cm
20×20cm
20×40cm
25×50cm
30×30cm
30×45cm
45×45cm
50×50cm

b. 从方形到类T-shirt形和pants拓扑的推理和规划

baseline VMPP
fold t-shirt
long sleeve
pants

以及real world中的表现:

real world 1
real world 2

结论

通过布料拓扑信息的注入以及联合训练时在表征层对拓扑变形Loss的引入,我们从RGB embedding中提取到了更适合下游planning的表征,这不仅在理论mitigate了隐空间崩塌问题,也在实际的操作任务中完成了纯JEPA+planning的有效验证。这是纯JEPA范式首次成功应用于复杂的manipulation任务,且提供给我们利用JEPA+Planning实现大规模任务泛化性的关键insights. We beleive that 模仿学习无法cover无限可能的初始状态和过程状态下的操作任务,它们仅会是一个中间阶段,或具身落地单个固定任务的方式。一个万能的forward model + robot motion planning才是未来终局, planning算法不仅能保证精度和节拍,也robust to 各种变化和噪声。在布料操作这个事上,接下来我们会采更大批量的data覆盖更多topology的布料变形数据,加大网络层数,来训练一个更general的隐空间cloth deformation predictor,来帮助我们泛化到更多的下游操作任务上。

回归到我们公司现在aim的开放场景的移动操作任务,整个系统(图4)会build on我们在处理复杂移动操作任务的planning层的深厚积累,我们会首先从环境信息中提取一层更高颗粒度的结构化交互数据,过滤无关信息干扰,构建任务导向的3D结构化场景表征。在预测层,我们采用JEPA范式,用批量交互因果数据将结构化场景表征注入模型的隐空间,让其具备推演任务导向的交互信息演化的能力,以此隐空间状态推演基础,接入我们的下游planning层,逐步实现高交互场景移动操作任务的泛化。对于我们来说,这也是一条确定性路径,是在开放场景移动操作人中我们自己的scaling law。

system
图4: 系统框架