输入“/”快速插入内容

AI智能体(Agent)能力定义与分级：L0-L5，揭秘AI智能体的进化之路

2024年7月9日创建

作者：张长旺 | 旺知识

原文：https://mp.weixin.qq.com/s/R_Z5dUQKehQp9TSKTXcKlw

AI智能体被定义为感知环境、做出决策和采取行动的人工实体。受到SAE（汽车工程师协会）定义的6个自动驾驶级别的启发， 我们将AI智能体能力分为： L0-没有人工智能；L1-规则符号智能；L2-推理决策智能；L3-记忆反思智能；L4-自主学习智能；L5-个性群体智能。后续会给出分级具体定义。​

common.docs_name - LarkCCM_Docs_Menu_Image

1 - 引言

任何能够感知其环境并执行行动的实体都可以被视为智能体。智能体可以分为五种类型：简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体[1]。随着AI的发展，“智能体”一词被用来描述表现出智能行为并具有自主性、反应性、主动性和社交互动等能力的实体。在20世纪50年代，艾伦·图灵提出了著名的图灵测试[2]。它是AI的基石，旨在探索机器是否能够展示与人类相当或更好的智能行为。这些AI实体通常被称为“智能体”，构成了AI系统的基本构建块。基础模型[3]在NLP领域最为突出。从技术层面上，基础模型是通过迁移学习和规模实现的。迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中。基础模型通常遵循这样一个范式：一个模型在代理任务上预训练，然后通过微调适应感兴趣的下游任务。最近出现的大多数大型语言模型（LLMs）[4]都是基于或建立在基础模型之上的。由于最近展示的卓越能力，LLMs被视为AI向人工通用智能（AGI）渗透的潜在力量，为构建通用AI智能体提供了希望。​

AI智能体通常指的是能够使用传感器感知周围环境、做出决策和使用执行器采取行动的人工实体[5]。根据世界范围（WS）[6]的概念，它通过包含从NLP到通用AI的5个级别（即语料库、互联网、感知、具体化和社会）来审计NLP的进展，纯基于LLM的智能体仅建立在从书面互联网世界的第二级。除此之外，LLMs在知识获取、指令解释、泛化、规划和推理方面证明了卓越的能力，同时展示了与人类的自然语言互动。从这个状态出发，LLM辅助的智能体具有扩大的感知空间和行动空间，有潜力达到世界范围的第三和第四级别，即感知AI和具体化AI。此外， 这些基于LLM的智能体可以通过协作或游戏处理更困难的任务，并且可以发现社会现象，实现世界范围的第五级别，即社会世界。 第2节中，简要回顾了LLMs；第3节详细阐述了各种AI智能体；第4节分析并定义了AI智能体的级别；最后给出结论。​

2 - 大语言模型(LLMs)

LLMs[4]是基于Transformer的语言模型类别，其特点是拥有大量的参数，通常数以千亿计甚至更多。这些模型在庞大的文本数据集上进行训练，使它们能够理解自然语言并执行广泛的复杂任务，主要通过文本生成和理解。一些知名的LLMs示例包括GPT3/4、PaLM、OPT和LLaMA1/2。​

广泛的研究表明，规模可以大大提高LLMs的模型容量。因此，建立一个定量方法来描述规模效应是有用的。有两种代表性的Transformer语言模型的规模定律：一种来自OpenAI[7]，另一种来自Google DeepMind[8]。"预训练+微调"的过程被另一种称为"预训练+提示+预测"的过程所取代[9]。 在这个范式中，不是通过目标工程将预训练的语言模型（LM）适应到下游任务，而是将下游任务重新构建，使其看起来更像是在原始LM训练期间通过文本提示解决的问题。 通过选择适当的提示，可以操纵模型行为，以便预训练的LM本身可以用来预测所需的输出，有时甚至不需要任何额外的任务特定训练。​

提示工程[10]的工作原理是找到最合适的提示，以允许语言模型解决手头的任务。LLMs的新兴能力是区分它们与较小语言模型的最重要特征之一。具体来说， 上下文学习（ICL）[11]、指令跟随[12]和思维链（CoT）推理[13]是LLMs的三种典型新兴能力。 参数高效微调（PEFT）[14]是一种关键技术，用于将预训练的语言模型（LLMs）适应到专门的下游应用中。PEFT可以细分为基于添加的、基于选择/规范的或基于重新参数化的。它只需要微调一小部分参数，使其方便用于边缘设备，并且可以有效缓解灾难性遗忘问题。由于LLMs被训练以捕获预训练语料库（包括高质量和低质量数据）的数据特征，它们可能会为人类生成有毒的、有偏见的甚至有害的内容。有必要使LLMs与人类价值观保持一致，例如，有帮助、诚实和无害。从人类反馈中进行强化学习（RLHF）[15]已成为微调LLM系统以更紧密地与人类偏好对齐的关键策略。​

受到LLMs潜力的激励，提出了许多多模态LLMs（MLLMs）[16]，以将LLMs扩展到多模态领域，即感知图像/视频输入，并在多轮对话中与用户交流。在大量图像/视频-文本对上预训练，上述模型只能处理图像级任务，如图像字幕和问题回答。在强大的预训练LLM权重的基础上，多模态LLMs旨在处理除文本之外的多种类型的输入。多模态LLMs已广泛应用于各种任务，如图像理解、视频理解、医学诊断和具体化AI等。人们认为LLMs配备了类似人类的智能和常识，保留了使我们更接近人工通用智能（AGI）领域的潜力。LLMs的出现可能是知识驱动智能体的里程碑，它们感知环境并积累知识[17-27]。​

3 - AI智能体

AI智能体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到发展和改进的同时，了解它们的局限性以及它们所训练的基础数据的影响是很重要的。AI智能体系统有一些能力：1）感知和预测建模。2）规划和决策制定。3）自我学习和持续改进；4）执行和互动；5）个性化和协作。 具体化智能/AI的目标是构建智能体，例如机器人，它们通过智能体与环境之间的交互学习解决任务。​

对于AI智能体来说，学习行动的有效方法，如RL，是通过与环境的交互进行试错体验。在物理环境中进行训练通常是不可行的，因此使用模拟器来学习策略是一种常见方法。​

符号AI[17-18]应用逻辑规则和符号表示来封装知识和促进推理过程，在其中关键问题是转导和表示/推理。 一个经典的例子是知识型专家系统。符号智能体在不确定性和大规模问题上面临限制。它们主要依赖于固定的算法或规则集，在它们构建的任务中表现良好。然而，它们通常很难在面对OOD（分布外）任务时进行泛化和推理。​

基于RL的智能体[19-24]通过与环境的交互进行累积奖励学习，以处理更困难的任务。 一个例子是使用Q学习的AlphaGo。尽管如此，RL的问题是长时间的训练、低样本效率和稳定性问题，特别是在现实世界环境中。​

知识智能体可以隐式或显式地利用知识。 隐性知识通常是LLMs封装的，显性知识是结构化的，被查询以生成响应。隐性和显性知识的结合使AI智能体能够像人类智能一样在上下文中应用知识。基于LLM的智能体[25-35]将LLMs作为大脑或控制器的主要组成部分，并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。它们可以通过思维链（CoT）和任务分割等技术启用推理和规划能力。​

LLMs的出现对AI智能体设计产生了重大变化。这些LLM智能体不仅精通理解和生成自然语言，而且擅长泛化。这种能力使它们能够轻松地与各种工具集成，增强了它们的多功能性。 另一方面，LLMs的新兴能力在推理方面显示了优势。 具有预训练知识的LLM智能体即使没有特定任务的训练，也倾向于决策策略。 另一方面，RL智能体通常需要在看不见的情况下从头开始训练，使用交互来学习。​

基于LLM的智能体可以相互交互，导致社会现象的出现。 在基于LLM的多智能体系统（MAS）中，智能体参与协作、竞争或层次平台来执行任务。  这些任务可以从搜索和优化、决策制定和资源分配到协作控制开始。 智能体之间的关系决定了它们之间的互动和合作状态。 情感推理和移情是许多人工智能-机器交互中智能体的重要技能。​

4 - AI智能体级别

基于能力的范围（普遍性）和深度（性能），一种分类AGI的矩阵方法在[28]中给出，如下表1所示。其中 性能( Performance )指标 估计AGI与人类在给定任务上的性能水平的比较； 普遍性( Generality ) 指标  衡量AI达到目标性能阈值的任务范围。 性能和/或普遍性级别的进展速率可能是非线性的。​

AI智能体(Agent)能力定义与分级：L0-L5，揭秘AI智能体的进化之路​

AI智能体(Agent)能力定义与分级：L0-L5，揭秘AI智能体的进化之路