输入“/”快速插入内容

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

2024年8月12日修改
机器之心|阅读原文
转载请联系原作者取得授权
具身智能是实现 通用人工智能 的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和 机器人技术 得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此, 鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员 ,对具身智能的最新进展进行了全面解析, 推出了多模态大模型时代的全球首篇具身智能综述。
该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的 具身机器人和具身仿真平台 ,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1) 具身 感知 ,2) 具身交互 ,3) 具身智能体 和 4) 虚拟到现实的迁移 ,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身智能的挑战和局限,并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考,并推动相关技术创新。此外,该综述还在 Github 发布了具身智能 paper list,相关的论文和代码仓库将持续更新,欢迎关注。
1. 具身智能的前世今生
具身智能的概念最初由艾伦・图灵在 1950 年建立的具身 图灵测试 中提出,旨在确定智能体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现 通用人工智能 的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了 计算机视觉 、 自然语言处理 和 机器人技术 等多个关键技术,其中最具代表性的是 具身 感知 、具身交互、具身智能体和虚拟到现实的迁移 。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面 感知 来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统 深度强化学习 方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面 感知 复杂和动态的环境。强大的大 语言模型 使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面 感知 复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。
具身智能体框架
在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1) 具身机器人 —— 具身智能在物理世界中的硬件方案;(2) 具身仿真平台 —— 高效且安全地训练具身智能体的数字空间;(3) 具身 感知 —— 主动 感知 3D 空间并综合多种感官模态;(4) 具身交互 —— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5) 具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6) 虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。
本综述整体架构
2. 具身机器人
具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。