输入“/”快速插入内容

一篇具身智能的最新全面综述!(下)

2024年11月1日修改
⏰ 时间:2024年10月28日 16:00 (UTC+8)
作者: 郑程睿 算法工程师
最近,具身智能的概念很火。
那什么是具身智能呢?它又有什么用?
一文带你了解。
今天是下篇,聚焦人机交互、未来发展。
本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》
具身智能的人机交互
在机器主动感知与认知的具身交互中,具身智能系统借鉴大脑记忆、自主学习与预测机制,结合感知器件的物理特性(材料、电子、电气机械结构)的新型传感器,解决跨模态数据、多时空异步模式、多异构信息深度融合认知、知识表征、进化学习等挑战性问题。探索自主概念生成、技能学习、利用与发现方法,使得 AI 系统具有 Learning to learn 的能力和问题求解的泛化能力,在开放、动态环境中自主完成复杂任务。
目前,人机混合智能技术正朝着一个新的发展方向迈进,即通过人、机器和环境之间的相互作用,形成一种新型的智能形态。这种新型智能形态旨在实现人类智慧与机器智能之间的双向交流和相互增强。
拟人化交互
在人机协同工作领域,研究人员正在探索更高层次的协作模式。这涉及到在多级人机协同系统中,人类在提供反馈、做出决策调整以及参与规划过程中的积极参与和互动。目标是使具身智能体能够通过类似人类的思维方式与人类进行交互,并能够产生符合人类期望的行为反馈。在人机交互的分工中,人的作用是引导思维过程的思路。
在拟人化交互中,核心挑战在于如何在人与机器之间合理分配认知负荷。认知负荷指的是在特定任务执行期间,对个体认知系统施加的心理活动总量。当认知负荷超过个体所能承受的认知资源时,就会产生超负荷现象,这会导致个体的认知能力显著下降。
交互式学习
通过交互式学习,机器人能够在与人类的互动中实现知识传递。在这一过程中,一个大型的模型作为基础,它优化了交互过程中的信息增益和累积的反馈奖励。这种学习方式结合了真实环境下的监督学习,使机器人能够从标注数据中学习,以及虚拟环境下的强化学习,让机器人从延迟的奖励中学习。这三种学习方式形成了一个三重闭环系统,使得机器人能够从交互数据中持续学习和改进。
人机决策柔性调节机制
在人机协同决策过程中,根据任务需求和环境变化,动态调整人和机器的决策权限和参与程度的机制。这种机制能够提高决策的灵活性和适应性,确保在不同的情境下都能做出最优的决策。
机器通常负责处理大量数据和执行复杂计算,而人类则提供直觉、经验和道德判断。柔性调节机制允许在决策过程中根据实际情况动态调整人机之间的协作关系,例如,在某些情况下可能需要更多地依赖机器的计算能力,在其他情况下则可能需要人类的直觉和判断。
安全性
具身智能人机交互中的安全性包括了 物理安全性 感知安全性 。物理安全指的是避免机器人对人类或环境造成伤害。感知安全性,即人类用户的安全感,是人机交互过程中的主观安全感,包含了交互过程中的舒适性、可预测性、控制感和信任感。
实现物理安全性涉及到机器人的设计、编程和操作,以确保在所有预期的使用场景中,机器人的行为都是安全的。物理安全的研究包括但不限于机器人的碰撞检测与反应、力控制和柔顺性设计、以及使用黏弹性材料来包裹机器人的连杆以减少撞击时的伤害。随着技术的发展,物理安全的研究也在不断进步,例如,通过仿真分析来预测和评估潜在的物理交互风险。
建立感知安全性是一个多层次、多维度的过程,涉及心理学、技术、设计、伦理等多个领域。人类的安全感不仅仅依赖于客观的安全标准,还受其主观感受、情感状态以及机器人行为表现的影响。以下是一些重要的指标:
1. 行为透明性: 机器人应尽可能清晰、透明地展示其意图和行为。这包括机器人在行动前给予足够的提示,尤其是在人类与机器人共享工作空间时。
2. 可预测性: 如果机器人的行为模式稳定并且符合人类的预期,人类会感到更加安全。机器人应避免突发的、令人无法预料的行为或动作,这会引发紧张感和不适。
3. 拟人化设计: 机器人设计应尽量模仿人类行为或符合人类习惯。例如,通过使用符合人类社交礼仪的动作与语言互动,可以使人类感到与机器人的互动更加自然和舒适。
4. 直观的交互界面: 机器人的操作界面应符合人类的认知模型,使其使用简单易懂。复杂、晦涩的操作可能会增加使用者的不确定性和恐惧感。
5. 速度控制: 机器人的速度和动作幅度需要与人类的感知速度相协调。如果机器人动作太快,可能会给人一种危险或攻击性的感觉。通过控制机器人的行动速度、柔和的启动和停止,人类可以感受到更强的掌控感。
6. 安全距离: 保持适当的物理距离有助于提升安全感。特别是在近距离交互的场景中,机器人应该尽量避免过于贴近人类,保持适当的个人空间。机器人应具备感知人类距离并自动调整的能力。
7. 及时反馈: 人类与机器人互动时,及时的反馈可以帮助使用者确认机器人的状态及其理解是否正确。无论是视觉、听觉还是触觉反馈,都应尽量即时有效,确保人类能清晰感知到机器的响应。
8. 人类控制权: 确保人类在互动过程中始终具有控制权,能随时终止或调整机器人的行为。机器人应提供易于使用的紧急停止功能,增强人类的掌控感和安全感。
智能时代的伦理学慎思也强调了人类对智能机器人进行设计、开发、应用与运营的伦理责任。人类对人工智能负有完全责任,而不仅仅是责任的分担者之一。这意味着在设计具身智能体时,我们必须考虑到它们可能带来的伦理风险,并采取措施以确保它们的行为符合人类的伦理标准。随着技术的发展,基于具身智能体有可能进化为超智能体,这要求我们在设计和开发过程中就考虑到安全性。有效的人机合作不仅能够使人类指导伦理和安全决策,还能确保基于具身智能体的目标与人类利益的一致性。
机器人的软硬件构成
机器人主要分为:机器人本体和控制装置。
本体
机器人的本体包括:机身、驱动器、机械臂、末端执行器、移动底盘,传感器等。
机身是机器人本体的主体,一般由高强度钢材制成,以支撑其他所有部件。其内部空间容纳着各种传感器、控制器和电源设备等。
机械臂通常由关节驱动,实现多自由度的运动。
末端执行器是连接在机器人边缘的工具,用于实现功能。最常见的通用的末端执行器就是灵巧手和夹具,也可以是清理工具、吸盘等特定功能的工具。
移动底盘可以是用于平地的轮式底盘,和用于不平整地面的双足、四足、轮足等。
控制装置
控制装置包括: 控制系统、伺服驱动系统、电源装置,交互设备。
控制系统负责处理传感器数据、规划路径、执行任务,并与其他子系统协作。控制系统通常由嵌入式计算设备或工业计算机组成,通过运行控制算法(如 PID 控制、深度学习模型等)来决定机器人如何运动和操作。
伺服驱动系统负责驱动机器人的关节和执行机构,实现精确的运动控制。伺服系统一般包括伺服电机、伺服驱动器和指令机构。伺服电机作为执行机构,负责实现运动;伺服驱动器作为功率电源,控制电机的运动;指令机构则负责发出脉冲或速度信号,配合伺服驱动器工作。伺服系统能够进行速度与转矩控制,还能进行精确、快速、稳定的位置控制。伺服系统的结构通常包括三个闭环控制:电流环、速度环和位置环。
常见的机器人交互装置有麦克风、遥控器等。尤其是带屏遥控器,集成了显示屏和控制功能的遥控器,允许用户直接在遥控器上查看实时图像和进行各种操作。
软件中间件