输入“/”快速插入内容

AI智能体(Agent)能力定义与分级:L0-L5,揭秘AI智能体的进化之路

2024年7月9日创建
作者:张长旺 | 旺知识
AI智能体被定义为感知环境、做出决策和采取行动的人工实体。受到SAE(汽车工程师协会)定义的6个自动驾驶级别的启发, 我们将AI智能体能力分为: L0-没有人工智能;L1-规则符号智能;L2-推理决策智能;L3-记忆反思智能;L4-自主学习智能;L5-个性群体智能。后续会给出分级具体定义。
1 - 引言
任何能够感知其环境并执行行动的实体都可以被视为智能体。智能体可以分为五种类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体[1]。随着AI的发展,“智能体”一词被用来描述表现出智能行为并具有自主性、反应性、主动性和社交互动等能力的实体。在20世纪50年代,艾伦·图灵提出了著名的图灵测试[2]。它是AI的基石,旨在探索机器是否能够展示与人类相当或更好的智能行为。这些AI实体通常被称为“智能体”,构成了AI系统的基本构建块。基础模型[3]在NLP领域最为突出。从技术层面上,基础模型是通过迁移学习和规模实现的。迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中。基础模型通常遵循这样一个范式:一个模型在代理任务上预训练,然后通过微调适应感兴趣的下游任务。最近出现的大多数大型语言模型(LLMs)[4]都是基于或建立在基础模型之上的。由于最近展示的卓越能力,LLMs被视为AI向人工通用智能(AGI)渗透的潜在力量,为构建通用AI智能体提供了希望。
AI智能体通常指的是能够使用传感器感知周围环境、做出决策和使用执行器采取行动的人工实体[5]。根据世界范围(WS)[6]的概念,它通过包含从NLP到通用AI的5个级别(即语料库、互联网、感知、具体化和社会)来审计NLP的进展,纯基于LLM的智能体仅建立在从书面互联网世界的第二级。除此之外,LLMs在知识获取、指令解释、泛化、规划和推理方面证明了卓越的能力,同时展示了与人类的自然语言互动。从这个状态出发,LLM辅助的智能体具有扩大的感知空间和行动空间,有潜力达到世界范围的第三和第四级别,即感知AI和具体化AI。此外, 这些基于LLM的智能体可以通过协作或游戏处理更困难的任务,并且可以发现社会现象,实现世界范围的第五级别,即社会世界。 第2节中,简要回顾了LLMs;第3节详细阐述了各种AI智能体;第4节分析并定义了AI智能体的级别;最后给出结论。
2 - 大语言模型(LLMs)
LLMs[4]是基于Transformer的语言模型类别,其特点是拥有大量的参数,通常数以千亿计甚至更多。这些模型在庞大的文本数据集上进行训练,使它们能够理解自然语言并执行广泛的复杂任务,主要通过文本生成和理解。一些知名的LLMs示例包括GPT3/4、PaLM、OPT和LLaMA1/2。
广泛的研究表明,规模可以大大提高LLMs的模型容量。因此,建立一个定量方法来描述规模效应是有用的。有两种代表性的Transformer语言模型的规模定律:一种来自OpenAI[7],另一种来自Google DeepMind[8]。"预训练+微调"的过程被另一种称为"预训练+提示+预测"的过程所取代[9]。 在这个范式中,不是通过目标工程将预训练的语言模型(LM)适应到下游任务,而是将下游任务重新构建,使其看起来更像是在原始LM训练期间通过文本提示解决的问题。 通过选择适当的提示,可以操纵模型行为,以便预训练的LM本身可以用来预测所需的输出,有时甚至不需要任何额外的任务特定训练。
提示工程[10]的工作原理是找到最合适的提示,以允许语言模型解决手头的任务。LLMs的新兴能力是区分它们与较小语言模型的最重要特征之一。具体来说, 上下文学习(ICL)[11]、指令跟随[12]和思维链(CoT)推理[13]是LLMs的三种典型新兴能力。 参数高效微调(PEFT)[14]是一种关键技术,用于将预训练的语言模型(LLMs)适应到专门的下游应用中。PEFT可以细分为基于添加的、基于选择/规范的或基于重新参数化的。它只需要微调一小部分参数,使其方便用于边缘设备,并且可以有效缓解灾难性遗忘问题。由于LLMs被训练以捕获预训练语料库(包括高质量和低质量数据)的数据特征,它们可能会为人类生成有毒的、有偏见的甚至有害的内容。有必要使LLMs与人类价值观保持一致,例如,有帮助、诚实和无害。从人类反馈中进行强化学习(RLHF)[15]已成为微调LLM系统以更紧密地与人类偏好对齐的关键策略。
受到LLMs潜力的激励,提出了许多多模态LLMs(MLLMs)[16],以将LLMs扩展到多模态领域,即感知图像/视频输入,并在多轮对话中与用户交流。在大量图像/视频-文本对上预训练,上述模型只能处理图像级任务,如图像字幕和问题回答。在强大的预训练LLM权重的基础上,多模态LLMs旨在处理除文本之外的多种类型的输入。多模态LLMs已广泛应用于各种任务,如图像理解、视频理解、医学诊断和具体化AI等。人们认为LLMs配备了类似人类的智能和常识,保留了使我们更接近人工通用智能(AGI)领域的潜力。LLMs的出现可能是知识驱动智能体的里程碑,它们感知环境并积累知识[17-27]。
3 - AI智能体
AI智能体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到发展和改进的同时,了解它们的局限性以及它们所训练的基础数据的影响是很重要的。AI智能体系统有一些能力:1)感知和预测建模。2)规划和决策制定。3)自我学习和持续改进;4)执行和互动;5)个性化和协作。 具体化智能/AI的目标是构建智能体,例如机器人,它们通过智能体与环境之间的交互学习解决任务。
对于AI智能体来说,学习行动的有效方法,如RL,是通过与环境的交互进行试错体验。在物理环境中进行训练通常是不可行的,因此使用模拟器来学习策略是一种常见方法。
符号AI[17-18]应用逻辑规则和符号表示来封装知识和促进推理过程,在其中关键问题是转导和表示/推理。 一个经典的例子是知识型专家系统。符号智能体在不确定性和大规模问题上面临限制。它们主要依赖于固定的算法或规则集,在它们构建的任务中表现良好。然而,它们通常很难在面对OOD(分布外)任务时进行泛化和推理。
基于RL的智能体[19-24]通过与环境的交互进行累积奖励学习,以处理更困难的任务。 一个例子是使用Q学习的AlphaGo。尽管如此,RL的问题是长时间的训练、低样本效率和稳定性问题,特别是在现实世界环境中。
知识智能体可以隐式或显式地利用知识。 隐性知识通常是LLMs封装的,显性知识是结构化的,被查询以生成响应。隐性和显性知识的结合使AI智能体能够像人类智能一样在上下文中应用知识。基于LLM的智能体[25-35]将LLMs作为大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。它们可以通过思维链(CoT)和任务分割等技术启用推理和规划能力。
LLMs的出现对AI智能体设计产生了重大变化。这些LLM智能体不仅精通理解和生成自然语言,而且擅长泛化。这种能力使它们能够轻松地与各种工具集成,增强了它们的多功能性。 另一方面,LLMs的新兴能力在推理方面显示了优势。 具有预训练知识的LLM智能体即使没有特定任务的训练,也倾向于决策策略。 另一方面,RL智能体通常需要在看不见的情况下从头开始训练,使用交互来学习。
基于LLM的智能体可以相互交互,导致社会现象的出现。 在基于LLM的多智能体系统(MAS)中,智能体参与协作、竞争或层次平台来执行任务。 这些任务可以从搜索和优化、决策制定和资源分配到协作控制开始。 智能体之间的关系决定了它们之间的互动和合作状态。 情感推理和移情是许多人工智能-机器交互中智能体的重要技能。
4 - AI智能体级别
基于能力的范围(普遍性)和深度(性能),一种分类AGI的矩阵方法在[28]中给出,如下表1所示。其中 性能( Performance )指标 估计AGI与人类在给定任务上的性能水平的比较; 普遍性( Generality ) 指标 衡量AI达到目标性能阈值的任务范围。 性能和/或普遍性级别的进展速率可能是非线性的。