AI 智能体:颠覆传统的技术变革

2024年12月8日修改
在当今科技飞速发展的时代,AI 智能体的出现标志着一场深刻的变革。它们与以往的任何技术都截然不同,正在重塑我们的生活、工作和社会。
AI 智能体的时代即将来临,这一变革的重要性不容忽视。本月,我们得知 OpenAI 的智能体 Operator 预计将于明年 1 月推出,它将作为个人助理,能够自主执行多步骤操作,如编写代码、预订旅行和管理日常日程,通过使用用户电脑上已安装的应用程序和云服务来实现这些功能。与此同时,Anthropic 也推出了一项名为“计算机使用”的功能,使 Claude 3.5 Sonnet 能够在计算机上自主执行复杂任务,无需人类持续干预。
那么,什么是 AI 智能体呢?为了更好地理解它们,我们可以将其与我们熟悉的 AI 聊天机器人如 ChatGPT 进行比较。现有的流行基于大型语言模型(LLM)的聊天机器人围绕着用户期望并将收到文本输出(文字和数字)的假设而设计。无论用户在提示中输入什么,该工具都准备好以字母和数字系统中的数字作为回应,旨在实现文本输入和文本输出。
然而,AI 智能体则有所不同。它们不会直接深入训练数据中寻找单词来组合,而是会先停下来理解用户的目标,并想出实现该目标的组成部分。它们具有规划和执行计划的能力,通常通过接触和使用其他软件及云服务来实现。AI 智能体具有三个普通 AI 聊天机器人所不具备的能力:推理、行动和记忆访问。
推理能力是 AI 智能体的核心,负责规划和推理的 LLM 会分解复杂问题,制定解决问题的计划,并为每个步骤提供理由。行动能力使 AI 智能体能够与外部程序进行交互,包括网络搜索、数据库查询、计算器、代码执行或其他 AI 模型。而记忆访问能力则使智能体能够访问之前发生的事情的“记忆”,包括智能体思维过程的内部日志和与用户的对话历史,从而实现更个性化和上下文感知的交互。
AI 智能体的工作流程如下:用户向智能体输入或说出某些内容,LLM 会创建一个满足用户请求的计划,智能体尝试执行该计划,可能会使用外部工具,LLM 会查看结果并确定是否满足用户的目标,如果未满足,它会重新开始并再次尝试,重复这个过程,直到 LLM 满意为止,最后 LLM 将结果交付给用户。
AI 智能体与其他软件的真正区别在于“行动”部分。当主要的智能体 LLM 决定需要更多信息、某种计算或其他超出 LLM 本身范围的东西时,它可以选择使用网络搜索、数据库查询、计算、代码执行、API 和专门程序来解决问题,甚至可以选择使用其他 AI 模型或聊天机器人。
AI 智能体的出现带来了许多优势。它们更加有用、模块化和适应性强,而不是从头开始训练 LLM 或拼凑一些自动化过程,我们可以为智能体提供所需的工具,让 LLM 找出如何完成手头任务的方法。它们还被设计用于处理复杂的问题解决,并更自主地工作。
当未来学家和技术预测者谈论未来十年人工智能可能产生的影响时,他们主要谈论的是智能体。AI 智能体将接管企业中许多目前已自动化的任务,更重要的是,它们将使现在由员工完成的各种事情实现自动化,员工可以将平凡、重复和复杂的任务交给智能体。智能体还将创造与管理、培训和监控智能体系统相关的新工作、角色和专业。它们将为网络安全领域增添另一个专业领域,因为需要智能体来防御同样使用智能体的网络攻击者。
我多年来一直认为,增强现实 AI 眼镜将发展得如此之大,以至于它们将为大多数人取代智能手机。AI 智能体将使这成为可能。事实上,AI 智能眼镜和 AI 智能体是相辅相成的。使用眼镜摄像头的流媒体视频作为多模态输入的一部分(其他输入包括声音、口语交互等),AI 智能体将通过简单的口语请求不断为用户工作。
例如,你看到一个宣传音乐会的标志,直接看着它(使眼镜中的摄像头能够捕捉到该信息),并告诉你的智能体你想参加。智能体将预订门票,将其添加到你的日历中,邀请你的配偶,雇佣保姆,并安排一辆自动驾驶汽车来接你并送你去音乐会。
像许多技术一样,AI 既会提高也会降低人类的能力。一些用户会像依赖拐杖一样依赖 AI 智能体,永远不必学习新的技能或知识,将自我提升外包给他们的智能体助手。而另一些用户则会依靠智能体将他们的专业和个人教育推向超速发展,不断学习他们所遇到的一切。
总之,虽然 AI 智能体听起来像是未来主义的科幻小说,但从明年开始,它将以一种重大的方式发生。我们正站在一个新时代的门槛上,AI 智能体将为我们的生活带来前所未有的变化。我们需要积极面对这一变革,充分发挥其优势,同时努力应对可能带来的挑战,以实现人类社会的可持续发展。