MIT 的研究人员为解决这一问题,引入了一种更高效的算法来训练强化学习模型,以提高其在复杂且具有变异性任务中的可靠性。该算法能够策略性地选择最适合训练 AI 代理的任务,从而使其能够有效地执行相关任务集合中的所有任务。以交通信号控制为例,每个任务可以是城市中所有交叉口中的一个。通过专注于对算法整体有效性贡献最大的较少数量的交叉口,这种方法在保持训练成本低的同时,最大化了性能。
研究人员发现,他们的技术在一系列模拟任务中比标准方法效率高出 5 到 50 倍。这种效率的提升有助于算法以更快的方式学习到更好的解决方案,最终提高 AI 代理的性能。高级作者 Cathy Wu 表示:“通过跳出常规思维,我们能够看到令人难以置信的性能改进,而且这个算法并不复杂,这使得它更有可能被社区采用,因为它更容易实施,也更容易被其他人理解。”