输入“/”快速插入内容

MIT 研究人员开发高效训练方法,提升 AI 代理可靠性

2024年12月6日修改
在当今时代,从机器人学到医学再到政治学等各个领域,都在尝试训练人工智能系统,使其能够做出各种有意义的决策。例如,利用人工智能系统智能地控制拥堵城市的交通,有助于驾驶者更快地到达目的地,同时提高安全性或可持续性。然而,教导人工智能系统做出良好的决策并非易事。
MIT 的研究人员为解决这一问题,引入了一种更高效的算法来训练强化学习模型,以提高其在复杂且具有变异性任务中的可靠性。该算法能够策略性地选择最适合训练 AI 代理的任务,从而使其能够有效地执行相关任务集合中的所有任务。以交通信号控制为例,每个任务可以是城市中所有交叉口中的一个。通过专注于对算法整体有效性贡献最大的较少数量的交叉口,这种方法在保持训练成本低的同时,最大化了性能。
研究人员发现,他们的技术在一系列模拟任务中比标准方法效率高出 5 到 50 倍。这种效率的提升有助于算法以更快的方式学习到更好的解决方案,最终提高 AI 代理的性能。高级作者 Cathy Wu 表示:“通过跳出常规思维,我们能够看到令人难以置信的性能改进,而且这个算法并不复杂,这使得它更有可能被社区采用,因为它更容易实施,也更容易被其他人理解。”
在训练城市中多个交叉口的交通信号灯控制算法时,工程师通常会在两种主要方法之间进行选择。一种是为每个交叉口独立训练一个算法,仅使用该交叉口的数据;另一种是使用所有交叉口的数据训练一个更大的算法,然后将其应用于每个交叉口。但每种方法都有其不足之处。为每个任务(如给定的交叉口)单独训练一个算法是一个耗时的过程,需要大量的数据和计算,而为所有任务训练一个算法往往会导致性能不佳。
Wu 和她的合作者寻求在这两种方法之间找到一个平衡点。他们的方法是选择一部分任务,并为每个任务独立训练一个算法。重要的是,他们会策略性地选择最有可能提高算法在所有任务上的整体性能的个别任务。他们利用了强化学习领域中一种称为零样本迁移学习的常见技巧,即已训练的模型无需进一步训练即可应用于新任务,且该模型在新的相邻任务上往往表现出色。
为了确定应该选择哪些任务以最大化预期性能,研究人员开发了一种称为基于模型的迁移学习(MBTL)的算法。该算法有两个部分:一是对如果每个算法在一个任务上独立训练会表现得如何进行建模;二是对如果将每个算法转移到其他任务上其性能会下降多少进行建模,这一概念被称为泛化性能。通过明确建模泛化性能,MBTL 能够估计在新任务上训练的价值。MBTL 按顺序进行此操作,首先选择导致性能提升最高的任务,然后选择对整体性能提供最大后续边际改进的其他任务。由于 MBTL 只关注最有前途的任务,因此可以极大地提高训练过程的效率。
当研究人员在包括控制交通信号、管理实时速度建议和执行几个经典控制任务在内的模拟任务上测试该技术时,发现它比其他方法效率高出 5 到 50 倍。这意味着他们可以通过在少得多的数据上进行训练来达到相同的解决方案。例如,在效率提高 50 倍的情况下,MBTL 算法可以仅在两个任务上进行训练,并达到使用 100 个任务数据的标准方法的相同性能。
未来,研究人员计划设计能够扩展到更复杂问题(如高维任务空间)的 MBTL 算法。他们还对将其方法应用于现实世界问题,特别是下一代移动系统感兴趣。该研究部分由美国国家科学基金会职业奖、Kwanjeong 教育基金会博士奖学金计划和亚马逊机器人博士奖学金资助。
总之,MIT 研究人员的这项研究为提高 AI 系统在复杂任务中的可靠性和效率提供了新的思路和方法,有望在多个领域产生积极的影响。随着技术的不断发展,我们期待看到更多类似的创新研究,推动人工智能的发展和应用。