长提示自动化

2024年6月20日修改
本文为论文《Automatic Engineering of Long Prompts》的中文精校解读
Automatic Engineering of Long Prompts
长提示词的自动化工程
摘要
大型语言模型(LLMs)已在解决复杂的开放领域任务中展现出显著能力,这一成就得益于以提示词形式提供的全面指令和示范。然而,这些提示词往往很长,通常包含数百行、数千个词符,其设计通常需要大量人力投入。近期的研究探讨了短提示词的自动化工程,这些提示词通常由一句或几句话组成。然而,长提示词的自动设计仍是一个挑战性问题,原因在于其巨大的搜索空间。在本论文中,我们研究了贪婪算法和遗传算法在自动化长提示词工程中的表现。我们展示了一个简单的贪婪方法结合集束搜索在搜索效率上胜过其他方法。此外,我们引入了两种新技术,利用搜索历史记录来增强基于LLM的突变在搜索算法中的有效性。我们的结果表明,所提出的自动化长提示词工程算法在Big Bench Hard的八项任务中平均取得了9.2%的准确率提升,突显了自动化提示词设计对于充分利用LLMs能力的重要性。
1 引言
在大数据集上训练时,大型语言模型(LLMs)展现出了显著能力,证明了它们在不需要微调的情况下理解复杂和冗长指令的能力,这些指令适用于多种任务(Wei等,2022a; Brown等,2020; Chowdhery等,2022; Ouyang等,2022)。近年来,出现了几种提示词设计原则,表明将更复杂的指令、示范和思维链推理整合到提示词中可以提高在挑战性任务上的表现(Brown等,2020; Wei等,2022b),包括涉及数学问题解决(Cobbe等,2021)和推理(Suzgun等,2022; Srivastava等,2022)的任务。然而,解决复杂任务的有效提示词通常包含数千个词符,这在设计和优化它们时构成了挑战。图1展示了Big Bench Hard中一个任务的长提示词(Suzgun等,2022),其中包含一个指令和几个示例,每个示例都有人类编写的思维链。

加载失败,

图1:左侧:在训练集上进行3次运行,每次50次迭代的情况下,所提出方法的平均准确率提升。我们报告了整个集合(包括训练和测试集)上的准确率。更详细的结果可以在表2中找到。右侧面板:BBH(消歧任务)中的一个长提示示例,包括一条指令、几个示范例子和思维链推理。我们展示了通过用我们提出的方法重写这个长提示中的几个选定句子,我们可以将准确率提高10%以上。