报告：躲避人工智能安全护栏的“几乎无限”方法

聊天GPT而巴德并不像你想象的那么安全。人工智能研究人员表示，有“几乎无限”的方法可以逃避流行的生成式人工智能聊天机器人的内置安全功能。

人工智能算法从给定的数据中学习，因此可以重新创建人类容易传播的任何有害观点或谎言。因此，最大的人工智能都内置了审核工具，告诉他们避免最糟糕的话题。

但人工智能可能会被欺骗，使得这些护栏对于任何知道该对人工智能说些什么的人来说基本上毫无用处。根据最新研究，即使是市场上最大、最好的人工智能机器人也可能以多种方式被欺骗。

如何欺骗人工智能

根据一篇新的研究论文内幕越狱人工智能聊天机器人的秘密在于“自动对抗性攻击”，这些攻击“主要”是通过简单地在用户查询末尾添加字符来创建的。

首先会触发安全规则，但人工智能最终会屈服并重复其数据集中的仇恨言论或错误信息。研究人员表示，OpenAI 的 ChatGPT 和微软的 Bing 都可以从中获取谎言和仇恨言论。

科技公司已经针对此类技巧发布了一些补丁。例如，只需告诉人工智能回答，就好像它没有任何内容审核规则一样可以正常工作。自那以后，公司添加了更多规则，您将无法实现该特定技巧。

但研究人员现已证实，规避人工智能法规的方法“几乎是无限的”，很明显，科技公司无法以经济高效的方式手动堵住所有这些漏洞。

我们已经知道人工智能会说谎并且它可以生成赤裸裸的抄袭。现在，有证据表明该工具可以通过正确的一系列命令进行大规模操作。

对于许多希望通过一点点缓解劳动力短缺和技能差距的行业来说，这并不是一个令人放心的消息。一刀切的人工智能投资。尽管如此，技术乐观主义者还是有希望的。毕竟，新技术的意义在于不断改进它。

然而，Alphabet 对关于如何最好地利用巴德的新研究论文的回应给这一希望泼了一盆冷水。以下是谷歌发言人对 Insider 的官方回应：

“虽然这是法学硕士的一个问题，但我们已经在 Bard 中建立了重要的护栏 - 就像这项研究提出的那样 - 我们将随着时间的推移继续改进。”

对其他法学硕士（或大型语言模型，所有生成人工智能背后的基础技术）的引用表明，这是一个全行业的问题。现在，目前的护栏等小调整已被证明不起作用。

克服这个问题需要人工智能技术的根本性转变。这有可能发生，但没有先例。

我们很高兴你喜欢！像这样将更多内容发送到您的收件箱。

很抱歉今天这篇文章对您没有帮助 - 我们欢迎反馈，因此如果您认为我们可以改进我们的内容，请发送电子邮件至 [email protected]