Agent AI:多模态+智能体,跨模态交互综述 Part 3

2024年8月19日修改
作者:北方的郎
7 Agent AI Across Modalities, Domains, and Realities
7.1 Agents for Cross-modal Understanding
多模态理解对于创建通用AI智能体来说是一个重要的挑战,因为缺乏包含视觉、语言和智能体行为的大规模数据集。更一般地说,用于AI智能体的训练数据通常是依赖于特定模态的。因此,目前大多数现代多模态系统使用一组固定的子模块。一些著名的例子包括Flamingo (Alayrac et al., 2022)、BLIP-2 (Li et al., 2023c)和LLaVA (Liuet al., 2023c),它们都使用了一个冻结的LLM和冻结的视觉编码器。这些子模块分别在不同的数据集上进行训练,然后训练适应层将视觉编码器编码为LLM嵌入空间。为了在AI智能体的跨模态理解方面取得进一步的进展,使用冻结的LLM和视觉编码器的策略可能需要改变。事实上,RT-2是一个最近的视觉-语言模型,它能够在机器人领域内采取行动,并且在机器人和视觉-语言任务中,通过联合调整视觉编码器和LLM,显示出明显的性能提升(Brohan et al., 2023)。
7.2 Agents for Cross-domain Understanding
创建通用型智能体面临的关键挑战在于不同领域具有独特的视觉外观和不同的行动空间。人类具备解读来自各种来源的图像和视频的能力,包括真实世界、电子游戏以及专门的领域,比如机器人技术和医疗保健,在熟悉这些领域的具体细节后。然而,现有的大规模语言模型(LLMs)和视觉-语言模型(VLMs)在它们所训练的数据和应用领域之间常常表现出显著差异。尤其值得注意的是,在尝试开发一种能够有效学习跨领域的多个控制系统的单一策略时,训练智能体模型以预测特定行动面临着相当大的挑战。通常,当在特定领域应用系统时,大多数现代作品采取的方法是从预训练的基础模型开始,然后为每个特定领域微调一个独立的模型。这样做无法捕捉领域间的任何共同点,导致训练时使用的数据集较小,无法充分利用每个领域的数据。
7.3 Interactive agent for cross-modality and cross-reality
开发能够在不同现实中成功理解并执行任务的人工智能智能体是一项持续挑战,近期在图像和场景生成方面已经取得了一些成功(Huang et al., 2023a)。特别地,由于视觉差异和不同的环境物理特性,使得智能体同时理解现实世界和虚拟现实环境变得具有挑战性。在跨现实的背景下,模拟到真实的转移是使用模拟训练策略处理真实世界数据的一个特别关键的问题,我们将在下一节中进行讨论。
7.4 Sim to Real Transfer
让在模拟中训练的模型能够在真实世界中应用的技术。身体化智能体,特别是基于强化学习策略的智能体,通常是在模拟环境中训练的。这些模拟环境无法完全复制真实世界的特征(如扰动、光线、重力和其他物理属性)。由于模拟与真实世界之间存在差异,模拟训练的模型在应用于真实世界时常常表现不佳。这个问题被称为“模拟到真实”问题。为了解决这个问题,可以采用几种方法:
●领域随机化: 领域随机化是一种技术,通过在仿真环境中随机变化参数(例如,物体外观、传感器噪音和光学属性),以预测真实世界中的不确定性和变化来训练模型 (Tobin et al., 2017)。例如,在训练基于强化学习的抓取技能的背景下,引入物体形状的随机性可以导致一种能够适应略有不同形状物体的策略 (Saito et al., 2022)。
●领域自适应: 领域自适应或领域转移是一种通过使用大量模拟图像和少量真实世界图像来训练模型的技术,以弥合模拟和真实世界领域之间的差距。在实际情况下,由于难以准备跨领域的成对图像,常常使用未配对的图像到图像翻译方法,例如CycleGAN (Zhu et al., 2017b)。针对强化学习,还存在一些改进版本,包括RL-CycleGAN (Rao et al., 2020);对于模仿学习,像RetinaGAN (Ho et al., 2021)等也有改进版本存在。
●模拟改进:逼真的模拟是实现从模拟到实际过程的关键。其中一部分工作是通过系统辨识技术 (Zhuet al., 2017c; Allevato et al., 2020)实现的,旨在识别模拟参数以模拟真实环境。此外,在基于图像的强化学习中使用逼真的模拟器也将非常有效 (Martinez-Gonzalez et al., 2020; Müller et al., 2018; Shah etal., 2018; Sasabuchi et al., 2023)。
在对具有实体特征的智能体系统研究中,模拟到现实的转化始终是一个核心问题,因为方法不断演进。理论和实证研究对于进一步推进这些技术至关重要。
8 Continuous and Self-improvement for Agent AI
目前,基于基础模型的人工智能智能体具备从多个不同数据源学习的能力,这为训练数据提供了更灵活的来源。这带来的两个关键结果是:(1)用户和人类交互数据可以用来进一步完善和改进智能体;(2)现有的基础模型和模型生成物可以用来生成训练数据。我们将在下面的各个部分详细讨论这些内容,但需要注意的是,由于当前的人工智能智能体主要依赖于现有预训练的基础模型,它们通常不会通过与环境的持续交互进行学习。我们认为这是一个令人激动的未来方向,Bousmalis等人的初步工作已经表明,用于机器人控制的自我改进智能体能够通过环境交互无监督地持续学习和提升(Bousmalis et al., 2023)。
8.1 Human-based Interaction Data