输入“/”快速插入内容

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

2024年8月20日修改
机器之心|阅读原文
转载请联系原作者取得授权
在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创建初创公司
在此演讲中,曾提到斯坦福团队的一个研究成果 BEHAVIOR,这是他们「创建」的一个用来训练计算机和机器人如何在三维世界中行动的行为和动作数据集。
如今,吴佳俊带领团队发表了后续研究——「BEHAVIOR Vision Suite(BVS)」。论文也获得 CVPR 2024 Highlight。
在计算机视觉领域,系统评估和理解模型在不同条件下的表现需要⼤量数据和全⾯、定制的标签。然⽽,现实世界中的视觉数据集往往难以满⾜这些需求。尽管⽬前的合成数据⽣成器为具⾝ AI 任务提供了有前景的替代⽅案,但在资产和渲染质量、数据多样性及物理属性的真实性⽅⾯,仍存在诸多不⾜。
为了解决这些问题,研究团队推出了 「BEHAVIOR Vision Suite(BVS)」。
BVS 是⼀套专为系统评估计算机视觉模型⽽设计的⼯具和资源集。基于新开发的具⾝ AI 基准BEHAVIOR-1K,BVS ⽀持⼤量可调参数,涵盖场景级别(如光照、物体摆放)、物体级别(如关节配置、属性)和相机级别(如视野、焦距)。研究⼈员可以在数据⽣成过程中⾃由调整这些参数,以进⾏精确的控制实验。
此⼯作还展⽰了 BVS 在不同模型评估和训练应⽤中的优势,包括参数可控地评估视觉模型在环境参数连续变化时的鲁棒性,系统评估场景理解模型(丰富的视觉标注),以及对新视觉任务的模型训练。
BEHAVIOR Vision Suite
BVS 包括两⼤部分:数据部分和基于此的可定制数据⽣成器。
数据部分
BVS 的数据部分基于 BEHAVIOR-1K 的资产拓展⽽成,共包括 8841个 3D 物体模型和由 51 位艺术家设计的室内场景,扩充为 1000 个场景实例。这些模型和场景均具备逼真的外观,并涵盖了丰富的语义类别。研究团队同时提供了一个脚本,让用户可以自动生成更多的增强场景实例。
BEHAVIOR-1K的资产拓展
可定制数据⽣成器
可定制数据⽣成器可以让⽤户⽅便地利⽤ BVS 的数据部分来⽣成满⾜他们需求的图⽚数据集,例如暗光下的室内场景。
BVS 可以保证⽣成的数据集在满⾜需求的同时,具备较⾼的语义多样性,同时确保其逼真性和物理合理性。具体来说,⽤户可以控制以下五个⽅⾯:相机位置、光照、物体属性(如⼤⼩)、物体状态(如开、关)和物体之间的空间关系。
应⽤场景