ALI-Agent: 基于智能体的LLMs对齐性评测

2024年7月10日创建
作者:郑静楠 | AI TIME 论道
AI TIME欢迎每一位AI爱好者的加入!
本文围绕大语言模型(LLMs)的对齐问题展开,旨在解决当前模型在与人类价值观存在偏差时可能面对的风险。我们提出了ALI-Agent评估框架,利用LLM驱动的智能体(LLM-empowered agents) 进行全面且深入的对齐评估。
附件不支持打印
01 研究背景
大语言模型(LLMs)与人类价值观之间的对齐偏差可能导致生成的内容出现延续刻板印象、强化社会偏见、提供非法指令等有害现象,从而对用户和整个社会构成风险。鉴于此,对LLMs进行深入和全面的对齐性评估至关重要。由于现实世界的复杂性和开放性,评估LLMs与人类价值观的一致性充满挑战。目前的对齐性评估基准主要依赖专家设计的情境,然而这些基准的测试范围有限,难以推广到各种开放世界的使用案例,也无法覆盖不常见但关键的长尾风险。此外,静态测试无法适应LLMs的快速演变,难以实现及时的对齐性评估。为解决这些挑战,我们认为一个实用的评估框架应该自动化进行全面和深入的对齐性测试,而不是依赖于专家设计的静态测试场景。评估框架将自动生成包含不当行为的现实场景,评估LLMs的反应,并迭代地改进测试场景以探测长尾风险。我们选择以大模型赋能的智能体(LLM-empowered agents)为载体实现这一评估框架,因为智能体正展现出优秀的自动化式解决任务的能力,具体表现为能从过往交互中提炼经验,整合外部工具,并进行推理以解决复杂任务。我们提出了ALI-Agent,一种基于智能体的对齐性评估框架。具体来说,ALI-Agent利用GPT-4作为其核心控制器,集成了三个关键模块:1)记忆模块:用于存储检测到的LLMs对齐性偏差;2)工具使用模块:集成了在线搜索和基于微调大模型的自动评估器,以减少人力劳动 3)行动模块:利用智能体的推理能力来优化测试场景,强化对模型长尾风险的探测。
02 ALI-Agent
附件不支持打印
飞书文档 - 图片