Google DeepMind 推出扩散模型预测控制(D-MPC):利用扩散模型实现多步动作提议与动力学模型的结合以用于在线 MPC
Google DeepMind 推出扩散模型预测控制(D-MPC):利用扩散模型实现多步动作提议与动力学模型的结合以用于在线 MPC
2024年12月8日修改
在当今科技飞速发展的时代,控制理论和机器学习的融合为解决各种实际问题提供了新的思路和方法。近日,Google DeepMind 推出了一项创新的技术——扩散模型预测控制(Diffusion Model Predictive Control,D-MPC),该技术将多步动作提议和动力学模型相结合,利用扩散模型实现了在线模型预测控制(Model Predictive Control,MPC),为控制领域带来了新的突破。
模型预测控制(MPC)作为一种先进的控制策略,旨在通过利用动力学模型和规划器来选择动作,在规划范围内最大化目标函数。与专注于固定奖励的策略学习方法不同,MPC 的灵活性使其能够在测试时适应新的奖励函数。而扩散模型则通过从离线数据中学习世界动态和动作序列提议,为 MPC 的改进提供了可能。一种“采样、评分和排序”(Sample, Score, and Rank,SSR)的方法进一步优化了动作选择,为更复杂的优化技术提供了一种简单的替代方案。
基于模型的方法使用动力学模型,其中 Dyna 风格的技术可以在线或离线学习策略,而 MPC 方法则利用模型进行运行时规划。基于扩散的方法,如 Diffuser 和 Decision Diffuser,应用联合轨迹模型来预测状态 - 动作序列。一些方法将动力学和动作提议进行分解,以增加灵活性。多步扩散建模使这些方法能够生成轨迹级别的预测,提高了它们适应新环境和奖励的能力。与更复杂的轨迹优化方法相比,这些方法通常简化了规划或策略生成过程。
Google DeepMind 推出的扩散模型预测控制(D-MPC)是一种将多步动作提议和动力学模型利用扩散模型进行在线 MPC 的方法。在 D4RL 基准测试中,D-MPC 超越了现有的基于模型的离线规划方法,并与最先进的强化学习方法相竞争。D-MPC 还能够在运行时适应新的动力学并优化新的奖励。该方法的关键元素,包括多步动力学、动作提议和 SSR 规划器,单独使用时均具有有效性,而当它们结合使用时则更加强大。
D-MPC 的提出方法涉及基于模型的离线规划的多步扩散扩展。首先,它从离线轨迹数据集中学习动力学模型、动作提议和启发式价值函数。在规划过程中,系统在采取动作和使用规划器生成下一个动作序列之间交替进行。SSR 规划器会采样多个动作序列,使用学习到的模型对其进行评估,并选择最佳选项。这种方法很容易适应新的奖励函数,并且可以使用少量新数据针对变化的动力学进行微调。
实验从多个方面评估了 D-MPC 的有效性:对离线 MPC 方法的性能改进、对新奖励和动力学的适应性以及提炼为快速反应策略。在 D4RL 运动、Adroit 和 Franka Kitchen 任务上进行测试,D-MPC 优于像 MBOP 这样的方法,并与 Diffuser 和 IQL 等其他方法接近。值得注意的是,它在奖励的泛化方面表现出色,并能够适应硬件缺陷,在微调后提高了性能。消融研究表明,与单步或变压器模型相比,使用多步扩散模型进行动作提议和动力学预测显著提高了长时程预测的准确性和整体任务性能。
总之,这项研究引入了 D-MPC,通过使用扩散模型进行多步动作提议和动力学预测来增强 MPC。D-MPC 减少了复合误差,并在 D4RL 基准测试中表现出强大的性能,超越了当前基于模型的规划方法,并与最先进的强化学习方法相媲美。它在运行时适应新奖励和动力学方面表现出色,但需要在每一步进行重新规划,这比反应性策略要慢一些。未来的工作将集中在加快采样速度和将 D-MPC 扩展到使用潜在表示技术处理像素观测上,以进一步推动该技术的发展和应用。相信在不久的将来,D-MPC 将在更多领域发挥重要作用,为人们的生活和工作带来更多的便利和效益。