剪辑:剪辑部 HXZ快播xx电影
在用模拟环境老到机器东说念主时,所用的数据与信得过天下存在着迢遥的各异。为此,李飞飞团队提倡「数字表亲」,这种捏造钞票既具备数字孪生的上风,还能补足泛化才略的不及,并大大缩小了资本。
若何有用地将信得过数据扩张到模拟数据,进行机器东说念主学习?
最近,李飞飞团队提倡一种「数字表亲」的新门径,不错同期缩小信得过到模拟生成的资本,同期普及学习的大齐性。
当今,论文已被CORL2024罗致。
你可能会问,什么是「数字表亲」,有啥用呢?
让咱们把它跟数字孪生比较一下。
果真,数字孪生不错准确地对场景进行建模,然则它的生成资本真实太不菲了,而且还无法提供泛化功能。
而另一方面,数字表亲天然莫得径直模拟施行天下的对应物,却仍然大概拿获相似的几何和语义功能。
这么,它就大大缩小了生成雷同捏造环境的资本,同期通过提供雷同老到场景的分裂,普及了从模拟到信得过域移动的鲁棒性。
共统一作Tianyuan Dai示意,既然有免费的「数字表亲」了,何苦再去手工假想数字孪生?
亮眼的是,「数字表亲」能同期完了——
单幅图像形成交互式场景
全自动(无需收敛)
机器东说念主战略在原始场景中的零样本部署
浮浅拍一张像片,就能贬责了
模拟数据艰苦:与施行环境各异过大
在施行天下中老到机器东说念主,存在战略不安全、资本感奋、难以扩张等问题;比拟之下,模拟数据是一种低价且潜在无尽的老到数据起首。
然则,模拟数据存在一个难以淡薄的问题——与施行环境之间的语义和物理各异。
这些各异不错通过在数字孪生中进行老到来最小化,但数字孪生当作信得过场景的捏造复成品,雷同资本感奋且无法跨域泛化。
恰是为了解决这些规则,论文提倡了「数字表亲」(digital cousion)的看法。
「数字表亲」是一种捏造钞票或场景,与数字孪生不同,它不解确模拟施行天下的对应物,但仍然展现雷同的几何和语义功能。
因此,数字表亲既具备了数字孪生的上风,大概补足施行数据的不及,同期缩小了生成雷同捏造环境的资本,并能更好地促进跨域泛化。
具体而言,论文引入了一种自动创建数字表亲(Automatic Creation of Digital Cousins,ACDC)的新门径,并提倡了一个实足自动化的,从信得过到模拟再到信得过的进程,用于生成交互式场景和老到战略。
实验效用发现,ACDC生成的数字表亲场景大概保留几何和语义功能,老到出的战略也优于数字孪生(90% vs. 25%),而且不错通过零样本学习径直部署在原始场景中。
门径综合
与数字孪生不同,数字表亲并不苛求在通盘轻微细节上齐要重建给定场景,而是专注于保留更高等别的细节,举例空间关系和语义。
ACDC是一个实足自动化的端到端进程,从单个RGB图像生成实足交互式的模拟场景,由三个连结要领构成:
信息索求:最初,从输入的RGB图像中索求对象信息。
数字表亲匹配:欺诈第一步索求的信息,接洽事前准备的3D模子钞票数据集,为检测到的每个对象匹配相应的数字表亲。
场景生成:对聘请的数字表亲进行后处理并编译在沿路,生成一个物理上合理且实足交互式的模拟场景。
通过这三个要领,ACDC大概自动创建与输入图像语义相似但虚假足相易的捏造场景,为机器东说念主战略老到提供万般化的环境。
战略学习
构建了一组数字表亲后,就不错这些环境中老到机器东说念主战略。
天然这种门径适用于多种老到范式,举例强化学习或效法学习,但本文聘请聚焦于于剧本演示(scripted demonstrations)的效法学习,因为这种范式不需要东说念主类演示,与实足自主化的ACDC进程愈加适配。
为了能在模拟环境中自动完了演示的收罗,作家最初实施了一组基于样本的技巧,包括Open(开)、 Close(关)、 Pick(拿)和Place(放)四种。
天然技巧的种类数仍然有限,但也曾填塞收罗万般日常任务的演示,举例对象重新摆列和居品铰接。
实验
通过实验,团队复兴了以下盘问问题:
Q1:ACDC能否生成高质地的数字表亲场景?给定单张RGB图像,ACDC能否捕捉原始场景中固有的高等语义和空间细节?
Q2:在原始的环境建立上评估时,在数字表亲上老到的战略能否匹配数字孪生的性能?
Q3:在分裂外建立上评估时快播xx电影,在数字表亲上老到的战略是否推崇出更强的郑重性?
Q4:在数字表亲上老到的战略能否完了零样本的sim2real战略移动?
通过ACDC进行场景重建
最初团队需要论证的最进攻的问题,即是ACDC能生成高质地的数字表亲场景吗?
从表格中的数据来看,效用十分令东说念主闲静。
以下是在sim-to-sim场景中对ABCD场景重建进行的定量和定性评估。
在sim2sim场景中对ACDC进行场景重建的定量和定性评估
评估方针包括:
「Scale」:输入场景中两个对象界限框之间的最大距离。
「Cat.」:正确分类对象占场景总对象总和的比例。
「Mod.」:正确建模对象占场景中对象总和的比例。
「L2 Dist.」:输入和重建场景中界限框中心间欧几里得距离的均值和标准差。
「Ori. Diff.」:每个中心对称对象标的幅度各异的均值和标准差。
「Bbox IoU」:钞票3D界限框的交并比(IoU)。
以下是ACDC实景到模拟场景的重建效用。
在给定场景中,会败露多个数字表亲。
ACDC信得过到模拟场景重建效用的定性评估,展示了为给定场景生成的多个数字表亲
基于这些效用,盘问者不错深信地复兴Q1了——
ACDC照实大概保留输入场景的语义和空间细节,从单张RGB图像生成信得过天下对象的数字表亲,并能准笃定位和缩放以匹配原始场景。
sim2sim的战略学习
这部分的实验主若是为了复兴上述盘问中的Q2和Q3,在3个任务上分析ACDC老到战略的才略,包括「开门」、「大开抽屉」和「收起碗」,每项任务齐与数字孪生建立进行了对比。
不同建立中的总体成效用如下图所示。
不错发现,在数字表亲上老到的战略广泛不错匹配,以至优于数字孪生的建立。
作家假定,由于数字表亲的战略是在不同环境建立的数据上进行老到的,因此不错袒护普通的景色空间,从而很好地实践到原始数字孪生建立。
然则,在另一个顶点,针对通盘可行钞票(All Assets)进行老到场的战略要比数字孪生差得多,这标明朴素的界限连忙化并不老是有用的。
此外,跟着DINO镶嵌距离的增多,即评估建立与原始建立的各异慢慢增大,数字孪生的战略性能广泛会出现成比例的显耀下落,但数字孪生战略举座推崇愈加沉稳,评释了在分裂外建立上的鲁棒性。
sim2real的战略学习
随后,盘问者对数字孪生和数字表亲战略进行了零样本施行天下评估。
任务是给宜家柜子上开门。
评估方针即是成效用。
效用败露,模拟效用平均超越50次考试,信得过效用平均超越20次考试。
real2sim2real的场景生成和战略学习
无论是数字孪生如故数字表亲,最终的落脚点如故要在信得过环境中对比性能。
因此实验的终末,团队在实足信得过(in-the-wild)的厨房场景中端到端地测试了完好的ACDC管说念和自动化战略学习框架。
在经过数字表亲的特意模拟老到后,机器东说念主不错成效大开厨房橱柜,评释了ACDC门径移动到信得过环境中的有用性。
以下Demo展示了实足自动化的数字表亲生成过程。
傍边滑动稽查
零样本的sim2real战略移动实验标明,仅从上述生成的四个数字表亲老到的模拟战略,不错径直移动到相应的信得过厨房场景。
基于这些效用,盘问者不错深信地复兴Q2、Q3和Q4了——
使用数字表亲老到的战略,推崇出了与在数字孪生上老到战略特地的分裂内性能,以及更强的分裂外鲁棒性,何况不错完了零样本从模拟到施行的战略移动。
失败案例
即使ACDC门径推崇出了举座上的优厚性能,盘问团队也在实验中不雅察到了几个失败案例,举例:在大开柜子的任务中,机器东说念主未能实足移动到把手场所位置——
或者转已而错过把手——
即使正确找到了把手场所位置,也有可妙手滑——
不错不雅察到,ACDC广泛在以下几种情况下堕入窘境:
a. 高频深度信息
b. 守密
c .语义类别各异
男同表情包d. 缺少相应类别的钞票
e. 除「位于顶部」除外的对象关系
前三个规则,与ACDC的参数化神态径直相干。
比如关于(a),由于ACDC依赖于相瞄准确的深度估量,来沟通揣度的对象3D界限框,因此不准确的深度图可能会导致ACDC对物体模子的估量相应较差。
原生深度传感器在物体界限隔邻可能难以产生准确的读数,这是因为深度图在这些区域可能出现不连结性。当物体具有好多清雅界限时(举例植物和栅栏),这个问题会变得愈加复杂。
此外,由于盘问者依赖现成的基础模子(DepthAnything-v2)来揣度合成深度图,因此也继承了模子自己的一系列规则,举例对罕见物体或在不利的视觉条款下的揣度较差。
论断
最终,盘问者得出了以下论断。
ACDC是一个全自动化管线,大概快速生成与单张信得过天下RGB图像相对应的实足交互式数字表亲场景。
盘问发现:
1. 鲁棒性
在这些数字表亲建立上老到的战略,比在数字孪生上老到的战略推崇出更强的鲁棒性。
为了进一步检讨数字表亲对朴素域连忙化的相对影响,盘问者左证其他基线在 DoorOpening任务上重新开动了sim2sim实验
2. 性能对比
界限内性能:数字表亲老到的战略与数字孪生老到的战略特地。
界限外泛化:数字表亲老到的战略展现出优厚的界限外泛化才略。
3. 零样本学习
数字表亲老到的战略大概完了零样本从模拟到施行的战略移动。
作家先容
Tianyuan Dai
Tianyuan Dai本科毕业于香港科技大学,获取了沟通机科学和数学学士学位,当今在斯坦福攻读硕士学位,隶属于斯坦福SVL实验室(Vision and Learning Lab)和PAIR盘问小组(People, AI & Robots Group),由李飞飞率领。
他的遥远愿景是将东说念主类对施行天下环境的交融融入到机器东说念主算法中,使用数据驱动的门径匡助东说念主们完成日常任务;最近盘问的要点是迷惑real2sim2real范式,以完了郑重的操控战略学习(manipulation policy learning)。
Josiah Wong
Josiah Wong当今在斯坦福大学攻读机械工程博士学位,导师是李飞飞,雷同在SVL和PAIR组责任。
此前,他在斯坦福大学获取硕士学位,在加利福尼亚大学圣迭戈分校获取学士学位。
他发奋于于欺诈仿真技能来拓展机器东说念主操作才略快播xx电影,主见是鼓动日常通用机器东说念主的发展,从而改善咱们的日常糊口。