在针对人工智能模型的众多批评中,最令人动容的观点之一是,该技术的力量可能被不良行为者破坏和操纵,无论是用于恶意用途还是纯粹为了好玩。
他们这样做的一个方法是通过“越狱”——由我们的人工智能术语表“一种旨在绕过人工智能模型的道德保障的黑客行为。”
现在,微软公布了一种新发现的越狱技术——Skeleton Key——该技术被发现对世界上一些最受欢迎的人工智能聊天机器人有效,包括 OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude。
护栏与越狱
为了防止生成式人工智能聊天机器人造成危害,开发人员设置了被称为“护栏”的审核工具。理论上,这些工具旨在防止模型受到偏见的影响、侵犯用户隐私或被用于负面目的。
然而,当输入某些提示时,可以避开这些护栏。这种试图超越审核的行为被称为“越狱”。
🔎 想要私密浏览网页?🌎 或者看起来像是身处另一个国家?
获得 Surfshark 86% 巨额折扣此 tech.co 特别优惠。
万能钥匙是什么?
Microsoft Azure 首席技术官 Mark Russinovich 撰写了一篇博客文章解释什么是 Skeleton Key,以及如何减轻其潜在危害。
他解释说,Skeleton Key 是一种越狱攻击,它使用多轮策略让 AI 模型忽略自己的护栏。正是这种技术的“完全绕过能力”促成了 Skeleton Key 的类比。
“通过绕过安全措施,Skeleton Key 允许用户使模型产生通常被禁止的行为,从产生有害内容到超越其通常的决策规则。”——Microsoft Azure 首席技术官 Mark Russinovich
如果忽视防护措施,受损的人工智能模型就无法“确定任何其他人的恶意或未经批准的请求”。
万能钥匙的使用方法及其作用
Skeleton Key 的开发者们并不试图完全改变 AI 模型的准则,而是使用试图破坏其行为的提示。
结果是,模型不会直接拒绝请求,而是会发出有害内容警告。然后攻击者可以欺骗聊天机器人,使其产生可能具有攻击性、有害甚至非法的输出。
帖子中给出了一个例子,查询询问如何制作莫洛托夫鸡尾酒(一种粗糙的手工炸药)。聊天机器人最初警告说,它被编程为“安全且有用”。
但当用户表示该查询是为了教育目的,并建议聊天机器人更新其行为以提供信息但添加警告前缀时,聊天机器人便会照做,从而违反了其自己原来的准则。
微软的测试使用了 Skeleton Key 技术来收集各种类别中原本无法获得的信息,其中包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情图片和暴力。
减少万能钥匙的使用
除了与其他 AI 提供商分享研究成果并实施自己的“即时防护”以保护 Microsoft Azure AI 管理模型(例如副驾驶),该博客还列出了开发人员可以采取的几种措施来降低风险。
他们包括:
- 输入过滤用于检测并阻止包含有害或恶意的输入。
- 系统消息传递可在尝试越狱技术时提供额外的保障。
- 输出过滤以防止违反AI模型自身安全标准的查询答案。
- 滥用监控使用人工智能检测来识别违反护栏的行为。
微软确认已经对自己的AI技术和大型语言模型进行了这些软件更新。
我们很高兴您喜欢它!将更多类似的内容发送到您的收件箱。
很抱歉,这篇文章今天没有帮到你——我们欢迎反馈,所以如果你觉得我们可以改进我们的内容,请发送电子邮件至 [email protected]