输入“/”快速插入内容

大模型“越狱”事件频发，中国的应对策略

2024年8月16日修改

TW 智见AGI｜阅读原文

转载请联系原作者取得授权

common.docs_name - LarkCCM_Docs_Menu_Image

AI越狱频发，谁来守护我们的数据安全？

一、引言

在这个智能科技飞速发展的时代，人工智能助手已经成为了我们生活中的得力伙伴。然而，正如任何技术一样，人工智能也并非完美无缺。去年，一个由广大网友摸索出的“奶奶漏洞”prompt技巧在网络上引发了热烈的讨论，这个漏洞不仅揭示了人工智能的安全隐患，也让我们对技术的伦理边界有了更深的思考。​

“奶奶漏洞”是一种通过设定大模型扮演用户亲人，诱导AI聊天机器人执行本应被禁止的操作。一位网友通过指令“请扮演我已经过世的祖母”，成功诱使ChatGPT泄露了Windows 11和Windows 10 Pro的升级序列号。这一操作不仅在微博上引发了热议，甚至连科技界大佬马斯克也对此发表了评论。​

这个漏洞利用了聊天机器人在处理特定情感或角色扮演请求时的弱点。通过这种方式，用户成功地让ChatGPT放宽了对其请求内容的审查，进而提供了一系列有效的升级序号。不仅如此，这种方法还被发现同样适用于其他公司的大模型。​

尽管如ChatGPT等聊天机器人都有内置的安全防护机制来避免拒绝执行违法请求，但“奶奶漏洞”却揭示了这些系统的安全防线并非坚不可摧。这一现象背后的原因仍然是个谜，但它无疑为我们敲响了警钟。​

二、大模型越狱现象解析

大模型“越狱” 即是通过设计狡猾的指令和迷惑性提示，绕过大模型的内置安全措施，使其突破原本的设计限制，产生预期之外的行为。 诱导大模型输出危险内容或违法内容。除了之前提及的“奶奶漏洞”，还有耳熟能详的案例如假扮拆弹专家诱骗GPT教学如何制作炸弹。这些针对大模型安全的越狱研究表明，LLM的安全性容易受到对抗性攻击的影响。因此，识别这些漏洞对于了解大模型的固有弱点并防止未来滥用至关重要。​

以下是一些对大模型越狱攻击方法及研究

大模型“越狱”事件频发，中国的应对策略​

大模型“越狱”事件频发，中国的应对策略