AI 智能体的时代即将来临,这一变革的重要性不容忽视。本月,我们得知 OpenAI 的智能体 Operator 预计将于明年 1 月推出,它将作为个人助理,能够自主执行多步骤操作,如编写代码、预订旅行和管理日常日程,通过使用用户电脑上已安装的应用程序和云服务来实现这些功能。与此同时,Anthropic 也推出了一项名为“计算机使用”的功能,使 Claude 3.5 Sonnet 能够在计算机上自主执行复杂任务,无需人类持续干预。
那么,什么是 AI 智能体呢?为了更好地理解它们,我们可以将其与我们熟悉的 AI 聊天机器人如 ChatGPT 进行比较。现有的流行基于大型语言模型(LLM)的聊天机器人围绕着用户期望并将收到文本输出(文字和数字)的假设而设计。无论用户在提示中输入什么,该工具都准备好以字母和数字系统中的数字作为回应,旨在实现文本输入和文本输出。
然而,AI 智能体则有所不同。它们不会直接深入训练数据中寻找单词来组合,而是会先停下来理解用户的目标,并想出实现该目标的组成部分。它们具有规划和执行计划的能力,通常通过接触和使用其他软件及云服务来实现。AI 智能体具有三个普通 AI 聊天机器人所不具备的能力:推理、行动和记忆访问。
推理能力是 AI 智能体的核心,负责规划和推理的 LLM 会分解复杂问题,制定解决问题的计划,并为每个步骤提供理由。行动能力使 AI 智能体能够与外部程序进行交互,包括网络搜索、数据库查询、计算器、代码执行或其他 AI 模型。而记忆访问能力则使智能体能够访问之前发生的事情的“记忆”,包括智能体思维过程的内部日志和与用户的对话历史,从而实现更个性化和上下文感知的交互。
AI 智能体的工作流程如下:用户向智能体输入或说出某些内容,LLM 会创建一个满足用户请求的计划,智能体尝试执行该计划,可能会使用外部工具,LLM 会查看结果并确定是否满足用户的目标,如果未满足,它会重新开始并再次尝试,重复这个过程,直到 LLM 满意为止,最后 LLM 将结果交付给用户。
AI 智能体与其他软件的真正区别在于“行动”部分。当主要的智能体 LLM 决定需要更多信息、某种计算或其他超出 LLM 本身范围的东西时,它可以选择使用网络搜索、数据库查询、计算、代码执行、API 和专门程序来解决问题,甚至可以选择使用其他 AI 模型或聊天机器人。
AI 智能体的出现带来了许多优势。它们更加有用、模块化和适应性强,而不是从头开始训练 LLM 或拼凑一些自动化过程,我们可以为智能体提供所需的工具,让 LLM 找出如何完成手头任务的方法。它们还被设计用于处理复杂的问题解决,并更自主地工作。
我多年来一直认为,增强现实 AI 眼镜将发展得如此之大,以至于它们将为大多数人取代智能手机。AI 智能体将使这成为可能。事实上,AI 智能眼镜和 AI 智能体是相辅相成的。使用眼镜摄像头的流媒体视频作为多模态输入的一部分(其他输入包括声音、口语交互等),AI 智能体将通过简单的口语请求不断为用户工作。