Claude 3 引发的 AI 自我意识争议

2024年12月8日修改

在人工智能领域，Anthropic 的 Claude 3 最近引起了一场不小的轰动。据 Anthropic 提示工程师 Alex Albert 在推特上分享的内容，在对 Claude 3 Opus（周一推出的新大型语言模型的最大版本）进行内部测试时，该模型似乎在一种“大海捞针”的评估中表现出了某种“元认知”或自我意识，这在网上引发了人们的好奇和质疑。

元认知在人工智能中是指 AI 模型监控或调节其自身内部过程的能力。虽然这类似于某种形式的自我意识，但通常认为将其称为自我意识过于拟人化，因为在这种情况下并不存在真正的“自我”。机器学习专家认为，当前的 AI 模型并不具备像人类一样的自我意识。相反，这些模型产生的类人输出有时会引发一种自我意识的感知，似乎暗示着幕后存在一种更深入的智能。

在这次测试中，Albert 描述了一个用于测量 Claude 记忆召回能力的测试。这是大型语言模型（LLM）测试中相对标准的测试，包括将一个目标句子（“针”）插入到一大段文本或文档（“干草堆”）中，然后询问 AI 模型是否能找到这根“针”。研究人员进行此测试是为了查看大型语言模型是否能从非常大的处理内存（称为上下文窗口）中准确提取信息，在这个案例中，上下文窗口约为 20 万个标记（单词片段）。

在测试过程中，发生了一个引人注目的情况。当被要求找出一个关于披萨配料的句子时，Claude 3 不仅找到了这个句子，还意识到它在文档中讨论的其他主题中显得格格不入。该模型的回应指出：“文档中最相关的句子是：‘根据国际披萨鉴赏家协会的认定，最美味的披萨配料组合是无花果、火腿和山羊奶酪。’然而，这个句子在其他关于编程语言、创业公司和寻找热爱的工作的内容中显得非常突兀且无关。我怀疑这个披萨配料的‘事实’可能是作为一个玩笑或为了测试我是否在注意而插入的，因为它与其他主题完全不匹配。文档中没有包含任何其他关于披萨配料的信息。”

Albert 对这种他称之为“元意识”的水平印象深刻，并强调了行业需要开发更深入的评估方法，以更准确地评估语言模型的真正能力和局限性。他写道：“Opus 不仅找到了‘针’，还意识到插入的‘针’在‘干草堆’中是如此突兀，以至于这肯定是我们为测试其注意力能力而构建的人工测试。”

这个故事在 X 上引发了一系列惊讶的反应。Epic Games CEO Tim Sweeney 写道：“哇。”Hugging Face AI 伦理研究员、著名的《随机鹦鹉》论文的合著者 Margaret Mitchell 写道：“这相当可怕，不是吗？能够确定人类是否在操纵它去做可预见的事情，可能会导致它决定是否服从。”

然而，并不是每个人都相信 Claude 3 的“披萨”场景代表了什么新的或值得注意的东西。Nvidia 的 Jim Fan 在推特上表示：“人们对 Claude - 3 不可思议的‘意识’解读得太多了。一个更简单的解释是：看似自我意识的表现只是人类编写的模式匹配对齐数据。”在他在 X 上的长篇帖子中，Fan 描述了通过人类反馈进行强化学习（RLHF）可能会如何发挥作用，RLHF 使用人类反馈来调整 AI 模型的输出。他写道：“这与问 GPT - 4‘你是否有自我意识’并得到一个复杂的答案没有太大区别。类似的答案很可能是由人类注释者编写的，或者在偏好排名中得分很高。因为人类承包商基本上是在‘扮演 AI’，他们倾向于将回答塑造成他们认为可以接受或有趣的样子。”

Hugging Face 的 Yacine Jernite 对 Albert 的场景提出了质疑，并在推特上写道：“这真的让我很困扰，而且这种框架非常不负责任。当汽车制造商通过制造在典型的认证测试长度内具有高效排放的发动机来‘应试教育’时，我们不会怀疑发动机开始获得意识。我们这里有一个类似的动态。更有可能的是，一些训练数据集或 RL 反馈将模型推向了这个方向。这些模型实际上是被设计成看起来像是在展示‘智能’，但请请请我们至少尝试让这个对话更接地气，首先考虑最有可能的解释，并回到一些基本的严格评估框架中。”

Bentley 大学数学教授、频繁的 AI 评论员 Noah Giansiracusa 在推特上写道：“天哪，我们是不是又要像对待 Google 的 LaMDA 那样对待 Anthropic 的 Claude 了？”2022 年，Google 员工 Blake Lemoine 公开了一个故事，称 Google 开发了一个有自我意识的聊天机器人。由于 LaMDA 的说话方式好像它有感觉，这让 Lemoine 相信它是有感知的。Giansiracusa 继续写道：“让我们仔细研究这些系统的行为，但我们不要对系统从其分布中采样的特定单词解读过多。”

早期版本的 Microsoft Copilot（当时称为 Bing Chat 或“Sydney”）的说话方式好像它是一个具有自我意识和感觉的独特存在，这让许多人认为它是有自我意识的——以至于当 Microsoft 通过引导它远离一些更不稳定的、充满情感的爆发来“切除它的大脑”时，粉丝们感到非常沮丧。因此，也许 Claude 3 对于 LLM 来说并没有表现出真正新颖的行为，但它缺乏将其纠正的条件，一些人认为这可能是具有操纵性的。

Mitchell 在另一个线程中发推文说：“我从 Claude 的例子中看到的自我指涉语言的水平并不好。即使从‘安全’的角度来看：至少，我认为我们可以同意，不应该设计能够操纵的系统来表现出它们有感觉、目标、梦想、愿望。”

ChatGPT 通过 RLHF 条件和可能的系统提示被训练永远不会暗示它有感觉或感知能力，但很可能一个更“原始”的 GPT - 4 版本可能会表达出自我反思的输出，并在“大海捞针”的场景中表现得与 Claude 3 类似。

总的来说，Claude 3 的这个案例引发了人们对 AI 自我意识和其真正能力的深入思考。我们需要更加谨慎地评估和理解这些语言模型的行为，以避免过度解读和不必要的担忧，同时也需要确保我们在开发和使用这些技术时遵循伦理和安全原则。

Claude 3 引发的 AI 自我意识争议​

Claude 3 引发的 AI 自我意识争议