全文约 3200 字,预计阅读时间 9 分钟
说在前面的话
以往real2sim2real的叙事方式和贡献方式都是通过摸索NeRF(神经辐射场)/3DGS(3D 高斯溅射)等高质量的稠密重建技术,更好地渲染仿真物品和环境,使得机器人可以在仿真的过程中克服真实环境和仿真器之间的visual gap。这种讲述贡献的方式极大的浪费了real2sim2real的宏观叙事,让读者一读就觉得仿佛在看一些解决sim2real gap的tricks,最后也失去了继续了解这个范式的兴趣。
因此,本文希望可以重新带大家开始思考real2sim2real真正需要探索和摸索的地方。先说结论,我认为real2sim2real本身应该是灵活和多变的,具有多样性和可拓展性,它的功能性取决于你使用它的方式。
Real2Sim2Real 视觉差异
大部分real2sim的深度玩家都会遇到这么一个问题,我重建出来的物体在仿真器中一放就倒,或者交互的过程中,一碰就飞。这其实多半是因为你重建出来的物体表面很不光滑,这种质量的重建虽然弥合了real2sim的visual gap,但是也引入了大量的交互问题,属于是得不偿失了。
之前的部分工作放弃解决这个问题,直接把视角切入了纯解决visual gap的问题上,在已知的mesh/usd文件上使用3DGS的方式进行渲染,以使得整个文件颜色饱和度,特征饱和度上更接近真实的场景。这其实一定程度在给自己挖坑,为了确保contribution的足量,我们需要大范围的实验(仿真、真机)去向我们的审稿人、我们的导师、我们的同行去证明visual gap是一个在机器人中很值得被解决的问题。这种找问题的方式就使得real2sim2real进入了自证陷阱,你会不段地在投稿会议的过程中遭到挫败,直到有那么几个很好的审稿人,他们来给你背书,给你accept。不过在这个过程中,real2sim2real的宏大叙事也将会被逐步拉低变成小众圈子的小众玩具。
Real2sim2Real 可交互
当然也有人提前预见到了这个问题,或者他们本身就是那批深耕physical simulation还有graphics领域的仿真大家,所以他们觉得仿真应该是更多强调除了真实视觉差以外的东西,比如更真实的交互。
首先要解决的就是重建质量低的问题
资产的质量是仿真能够站得住脚的基础,前面提到的表面粗糙是大部分采用3DGS进行重建的real2sim技术的一个关键技术难点。
不同重建思路的对比
如上图所示,SDF的表面重建技术、NeRF/3DGS的视觉重建技术,每一种技术都有自己的局限性,所以最好的方式是组合技术优势,而不依靠单一技术的。在 DRAWER[1] 中采用了SDF建表面,3DGS建外观的Dual scene representation的方式来缓解目前real2sim所带来的问题。而最近 SuGaR[2] 等表面视觉重建的复合型重建策略的出现也提供了一种全新的real2sim的发展思路,要把物体的表面质量和视觉质量统一构建,而不是只依赖一方的优势,进行单线叙事。
解决了重建质量的问题之后,我们去解决可微分的问题
我们重建出来的资产其实本身是不可微分的,但是要满足交互属性,就要做到可微分。URDFormer[3] 中其实用到一个很简单的策略,总结起来就是三步,先采用cv检测出image的每个part,预测出各个part的urdf,分配joint,通过这个urdf文件构建一个相同结构且带有铰链的3D的模板,最后按照这个Image的样子去给这个3D模板做贴图。这样就做到了从Image的级别到带有铰链的3D Asset的构建。
与URDFormer不同的是,ArtFormer[4] 这篇则是使用了一个端到端的方式直接从Text+3D点云生成可分离的SDF结构组合,这种方式减少了对于partnet此类数据集的显式依赖,也会是未来很有潜力的一种范式。
在 DRAWER(1) 因为之前就已经完成了3D结构的构建,相较于URDFormer自然省下了3D part模板构建的环节,但是多了一步3D 可微分的环节。鉴于此前2D上的成功,DRAWER使用了GroundSAM/3DoI的能力,标记了asset的功能和作用,之后通过大幅度的使用GPT4o的物理理解的common sense,给予asset更多的物理信息标注,包括了材质,摩擦等更为细粒度的仿真参数。未来使整个构建更加具备真实性,也采用了amodal shape completion的方式对内部结构进行了补全,解决了没有内部结构的bug,同时结合了GPT4-o的材质标记,位隐藏结构换上了更加真实的texture。
解决了重建质量和可微分的问题之后,我们去解决物理动力学的问题
在过去的7-8年间,各种游戏仿真公司,建立庞大的物理引擎库。 因此最近的real2sim的方案在motion上更多都是依赖此类的仿真引擎给出的仿真参数,来完成物理动力学的仿真。除此以外,在23-24年也有很多工作把3DGS和一些物理仿真的方法进行组合,简单的做一些motion。
Embodied-gaussain[5] 则利用了3DGS & PBD来完成机械臂的动力学重建的。PhyGaussian[6] 3DGS & MPM来完成这种复合形的Asset动力学的构建。这种采用物理模型或者是仿真来显著约束3DGS的motion在之后的4DGS的工作里面还有很多。此类的工作其实有一个很拧巴的点,其实就是在于如何做仿真细粒度和效率之间的trade-off。这种平衡在一定程度上也限制了它的scaling,无法被scaling的方式会自动被罚下具身智能的场。即使这种方式能带来效果很不错的物理模拟,但是依旧不被大主流所接受。
(一)视频输入的真实交互建立,世界模型代替simulation
PartRM[7] 则是一个4DGS的代表,它把整个柜子从施加力拉到完全拉开的过程视作一个4D的数据(3D + time traj),以及作为数据集训练去训练3DGS的deform的过程来生成高质量的可微分Asset,这里面就直接把动力过程当成一些隐式的内容去学习了。目前来说在动力学的表现上可能略逊于这种显著性约束构建的动力学,但是从learning base的发展历程来说会逐渐变成主流。
同时 Real2Render2Real[8] 和 EnerVerse[9]则更加粗暴,为了更好的与现阶段IL方式进行合并,把simulation直接抹掉,全转为隐式的内容,放弃所有的显式先验和显式约束。用真实的轨迹结合3DGS(mesh)的空间特性来做端到端的policy研究。这种方式会限制住轨迹增广的多样性,但是也一定程度的减少了很多由于转换,物理仿真所带来的误差的引入。这种直接E2E的方式也是大家更加愿意接受的"优雅"方式。因为此类方法并没有大家喜闻乐见的两阶段real-sim,sim-real,所以很多朋友其实并不把这种方式看成real2sim2real,所以我这里面其实也不会可以把这类方法分入列表里面。
(二)多模态(传感器)感知,引入触觉的信息,通过触觉的反馈,构建运动反馈
相关的触觉传感器的内容其实还没有完全普及开,主要是因为触觉传感器并不是EAI的标配。学术界经历了自动驾驶lidar从消失到回来的过程,对于传感器的引入是谨慎的,连depth sensor可能都是选装包的EAI产品,要想装一个touch sensor,多少有点强人所难了。但是触觉引入是关键的一环,image和depth都是视传感的一环,但是触觉传感器不一样,它是真实的交互式传感器。VLM所带来的物理仿真其实时比较依赖于视觉反馈的,最简单的一个例子时,当我想要机器人帮我拿一个外卖盒过来,可能它就会抓瞎了 (这个我没有实验过,下次试试给大家看) 。Touch-GS[10] 则给出了一些关于触觉Real-sim的优势所在在数据稀缺或视觉信息不足时,融合触觉能大幅提升3D重建效果。
最后想说的话
其实打开大部分在17-20年的ICRA去看,大部分的机器人上的工作都是设定问题解决问题的状态。然后再不断的细化设定好的问题,再去解决这样一些问题。当问题越具体的时候科研属性就会显著降低,工程属性也会显著提升。所以大家都会认为传统的robotic比较朴素,很少有宏观叙事。
最近随着LLM/VLM的能力显著提升,具身智能的概念走向台前。我们会觉得这样的宏观叙事更符合我们认知中的前沿技术,而且它的属性多样化,前可以冲击科研巅峰,退可以工程商业化落地走实体经济模式。同时大家认为,具身智能脱胎于大模型时代,身上的大模型血液很纯正,所以理所应当继承大模型一些发展的方法论,和发展模式。于是,具身一开场就是大数据集直出,上来就是数据工厂,E2E。但是显然,一个刚出生的孩子很难一下子学会走路的,超人不也多次训练才学会飞的吗?
如果没有算错的话real2sim2real应该是出生于"第三次ImageNet时刻",这个方式算是复杂工程和一定科研技术的集合体。大家对于real2sim2real不钟爱的点,还是在于它的工程属性浓厚,特别不像是一个具身智能模型该有的样子,所以大家开始想让这个范式变得更大模型一点,于是有了近期和IL进行耦合的诡异范式。大家不太好把real2sim2real的科研属性挖掘出来,于是把它悄悄隐藏了,转成了空间约束附加到模仿学习的范式上,有了4D-WorldModel。也有一部分直接把real2sim2real安排为了一个数据增广策略,用于少量轨迹快速work的小体量数据,轻量化模型的研究。还有一些工作会把这个范式当成验证EAI pre-trained的一个部分。要是让我下一个结论,我无论如何都下不了,虽然前面说这个工作可以展示它的多样性和可拓展性,其实也是因为目前这个范式的发展还很不明晰,即使是我上文所说的可微分物理仿真也没有能够完全串联这些内容,做成体系化研究的工作出现。最后只能说,这条路很难走,但是总有人要去走的。
参考资料[1]
DRAWER: Digital Reconstruction and Articulation With Environment Realism: https://arxiv.org/pdf/2504.15278
[2]
SuGaR Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction : https://openaccess.thecvf.com/content/CVPR2024/html/Guedon_SuGaR_Surface-Aligned_Gaussian_Splatting_for_Efficient_3D_Mesh_Reconstruction_and_CVPR_2024_paper.html
[3]
URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images: https://arxiv.org/pdf/2405.11656
[4]
ArtFormer: Controllable Generation of Diverse 3D Articulated Objects: https://arxiv.org/abs/2412.07237
[5]
Embodied-Gaussian: https://embodied-gaussians.github.io/
[6]
PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics: https://arxiv.org/pdf/2311.12198
[7]
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model: https://arxiv.org/pdf/2503.19913
[8]
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware: https://arxiv.org/pdf/2505.09601
[9]
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation: https://arxiv.org/abs/2501.01895
[10]
Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting: https://arxiv.org/pdf/2403.09875