要检测 ChatGPT 抄袭,您需要一个 AI 内容检查器。 人工智能内容检查器扫描文本正文,以确定它们是由 ChatGPT 或 Bard 等聊天机器人还是由人类生成。 然而,正如我们稍后将介绍的,其中许多工具远不可靠。
当涉及到代码时,检测抄袭稍微困难一些,ChatGPT 也可以生成代码。 代码的人工智能检测工具生态系统与内容的人工智能检测工具生态系统并不完全相同。 到了 2024 年,这个数字会变得更大,
然而,例如,如果您在大学环境中,并且您提交的代码远远超出了您的技术水平,您的教授或讲师可能会非常合理地怀疑您已请求 ChatGPT 来帮助您解决问题。
最受欢迎的 AI 和 ChatGPT 抄袭检查工具评测
自 ChatGPT 于 2022 年 11 月推出以来,许多公司和教育机构都制作了 AI 内容检查器,声称能够区分人工生成的内容和人类创建的内容。 现在,很多公司也在使用谷歌的聊天机器人 Bard,它使用不同的语言模型。
然而,即使是最有信誉的人工智能内容检测工具所声称的准确性也存在激烈争议,并且学生之间被错误指控使用人工智能内容和教育的法庭案件已经成为现实。
底线是:这个领域没有任何工具是 100% 准确的,但有些工具比其他工具要好得多。
GPT零
GPTZero 是一款流行的免费 AI 内容检测工具,声称它是“跨用例最准确的 AI 检测器,经过多个独立来源验证”。
然而,早在四月份,加州大学戴维斯分校的一名历史系学生就证明了 GPTZero(他的教授正在使用的人工智能内容检测工具)在以下情况下是错误的:它将他的论文标记为人工智能生成。
我们通过要求 ChatGPT 写一个短篇故事来测试 GPTZero。 不幸的是,GPTZero 无法判断该内容是由人工智能工具编写的:
复制检查器
Duplichecker 是首批人工智能内容检测服务之一,如果您只需在 Google 上搜索该术语,就会出现。 它声称在检测带有文本的 AI 内容时可以 100% 准确,并且完全免费使用。
然而,从下面的结果中可以看出,Duplichecker 不仅无法识别出这段文本是由 ChatGPT 编写的,而且实际上得出的结论是它是 100% 人类生成的——尽管事实并非如此。
作家
Writer 是一款 AI 内容检测工具,公平地说,它并不声称 100% 准确,建议您将其判断作为参考。 这也是一件好事,因为 Writer 的免费版本告诉我们,下面的文本是 100% 人工生成的 - 但它实际上只是我们要求 ChatGPT 生成的故事的前半部分。
有趣的是,当我们粘贴最近撰写的 Tech.co 文章的介绍时,该文章不包含人工智能生成的内容,结果显示只有 69% 是人类生成的。
Writer's 有付费计划,但从其免费工具的性能来看,我们不会推荐它们。 团队计划的费用为每位用户 18 美元,每月最多可容纳 5 位用户。 还有一个带有自定义定价选项的企业计划。
创意.ai
根据我们的研究和测试,Originality.ai 无疑是目前可用的更准确的人工智能内容检测工具之一。
公司已开展广泛的研究人工智能内容检测工具,将 600 个人工生成的文本块和 600 个人工生成的文本块输入到自己的内容检测系统以及其他声称可以实现类似目的的流行工具中。
从下面的结果中可以看出,Originality.ai 的表现优于测试中包含的所有工具:
Originality.ai 的唯一缺点是没有免费计划,您甚至无法像本文中包含的其他应用程序那样免费测试它。 2,000 个学分的费用为 20 美元,可以让你检查 200,000 个单词。
Copyleaks AI 内容检测器
Copyleaks 是一款免费使用的人工智能内容检测器,声称能够以 99.12% 的准确率区分人类生成的副本和人工智能生成的副本。
Copyleaks 还会告诉您文档或段落的特定方面是否由人工智能编写,即使其其他部分似乎是由人类编写的。
Copyleaks 表示,它能够检测由“ChatGPT、GPT-4、GPT-3、Jasper 等”创建的人工智能生成的内容。
CopyLeaks 每月 8.33 美元,可获得 1,200 个积分(每个积分 250 个字的副本)。 该公司表示,100 多个国家的 1,000 多家机构和 300 家企业在使用它。
在由TechCrunch然而,2023 年 2 月,Copyleaks 错误地将各种类型的人工智能生成的副本(包括新闻文章、百科全书条目和求职信)归类为人类生成的副本。 此外,上述 Originality.ai 的研究仅发现其在 14.50% 的情况下是准确的,这与 CopyLeaks 声称的 99.12% 的准确率相去甚远。
然而,当我们测试它时,它似乎确实能够识别出我们输入的文本是由 ChatGPT 生成的。 这在我们 2023 年和 2024 年的测试中都发生过:
在测试过程中,Copyleaks 还多次能够正确识别人类生成的文本。 尽管在其他测试中表现不佳,但它看起来比本文中介绍的其他一些工具更好、更值得信赖。
Turnitin 原创性 AI 检测器
Turnitin 是一家总部位于美国的抄袭检测公司,许多大学都部署该公司来扫描学生的作业。 Turnitin 旨在检测各种抄袭行为,但是四月份揭晓随着它推出人工智能内容检测功能,它已经投资一个以人工智能为中心的团队一段时间了。
Turnitin 他们的工具可以检测“97% 的 ChatGPT 和 GPT3 创作的写作,误报率非常低,不到 1/100”。
然而,该公司还表示,如果内容将一段内容标记为人工智能生成,则应将其视为“指示,而不是指控”。 他们还提供广泛的解释说明他们如何处理误报,并警告不要对人工智能输出持保留态度。
Turnitin AI 检测器的真实准确性受到争议去年《华盛顿邮报》以及其他来源报道。 该网站称,如果您想购买该软件或需要有关其工作原理的更多信息,则必须直接联系该公司,但它仅真正适合学术目的。
AI内容检测真的有效吗?
正如 Turnitin 所知,没有任何人工智能内容检测工具是 100% 可靠的——我们的测试充分证明了这一点。 Duplichecker——谷歌上的一个顶级结果,声称其登陆页面“100%准确”——在第一个障碍中就失败了。
然而,我们今天讨论的其他工具实际上声称 100% 准确,而且很少有声称没有误报。 其他人,比如 GPTZero,则发布了免责声明,称他们的结果是福音。
一些被指控使用人工智能撰写论文的大学生已经被迫证明他们的作品是原创的。
去年三月,在德克萨斯州,一位教授全班错误地不及格学生们错误地指责他们使用 ChatGPT 来写论文。 还有一系列报告(以及 Originality.ai 进行的研究)表明,即使是最有能力的抄袭检查员也并不像他们声称的那么准确。
即使 Turnitin 的 AI 内容检测器也并非万无一失。 在我们之前讨论过的《华盛顿邮报》最近进行的相对较小的测试中,其准确率远远低于他们声称能够达到的 98%。
另一方面,Originality.ai 无疑是目前最强大的技术之一,甚至它的检测技术也并非每次都正确。 然而,在测试了各种这些工具后,它似乎是相当广泛的规则的例外。
此外,如果存在任何形式的误报,那么学生总会有空间声称他们的作品是原创的,只是被错误识别了。
OpenAI 的人工智能文本分类器:案例研究
OpenAI 是 ChatGPT 的所有者,曾经有自己的抄袭检查器。 我们知道这一点,因为我们在最初撰写本文时自己使用了它。 然而,早在 2023 年 7 月,该公司撤回了工具,指出它不够准确。
这与我们测试时的经验相符。 当我们向它展示一个由其自己的 ChatGPT 工具编写的短篇故事时,检查器并没有意识到它是人工智能生成的。
自 2023 年 7 月 20 日起,AI 分类器由于准确率较低而不再可用。 我们正在努力整合反馈,目前正在研究更有效的文本来源技术,并承诺开发和部署机制,使用户能够了解音频或视觉内容是否是人工智能生成的。 – OpenAI 博客文章
您可以在下面看到我们最初的检查器示例,它忽略了文本是 AI 编写的这一事实:
使用 ChatGPT 或 Bard 是否抄袭?
ChatGPT 是否真的抄袭是有争议的。 牛津语言将剽窃定义为“将他人的作品或想法冒充为自己的作品或想法的行为”。
ChatGPT 不是一个人,它在生成答案时并不是简单地复制其他人的工作和想法。 因此,根据字典的定义,这并不是彻底的抄袭。
即使它这样做了,如果你诚实地知道它来自哪里(即 ChatGPT),可以说,无论如何这都不会是抄袭。
然而,一些学校和大学有影响深远的抄袭规则,并考虑使用聊天机器人来撰写论文。 2022 年 12 月,弗曼大学的一名学生在使用 ChatGPT 撰写论文后未能获得哲学学位。 2023年的案例,北密歇根大学教授据报道抓获两名学生使用聊天机器人为他们的班级写论文。
使用 ChatGPT 生成论文,然后将其冒充为自己的作品,也许更准确地描述为“作弊”,而且绝对是“不诚实”。
写论文的全部目的是表明你有能力产生原创想法、理解相关概念、仔细考虑相互矛盾的论点、清晰地呈现信息并引用你的资料来源。
以这种方式使用 ChatGPT 和花钱请其他学生为你写论文没有什么区别——这当然是作弊。
对于谷歌的巴德来说,答案有点复杂。 上面使用的逻辑同样适用于 Bard,也适用于 ChatGPT,但 Bard 因抄袭和错误引用其从互联网上获取的内容的指控而受到损害,而 ChatGPT 却没有这样做。 因此,使用 Bard 可能会导致您无意中抄袭其他来源(下面详细介绍这一点)。
ChatGPT 的回复是否抄袭?
不 – ChatGPT 不会从其他来源获取信息,然后简单地将其逐句拼凑在一起。 这是对生成式预训练 Transformer 工作原理的误解。
ChatGPT(或更准确地说是 GPT 语言模型)是在庞大的文档、网站材料和其他文本数据集上进行训练的。
它使用算法来查找数据集中的语言序列和模式。 然后可以根据语言模型从这些数据集中的序列中学到的语言知识来生成段落、句子和单词。
这就是为什么如果你在两个不同的设备上同时向 ChatGPT 询问相同的问题,它的答案通常非常相似——但仍然会存在差异,有时,它会提供完全不同的答案。
巴德的回应是否抄袭?
ChatGPT 最大的竞争对手,谷歌的 Bard 自推出以来,与更受欢迎的同行相比,在抄袭内容方面遇到的问题要多得多。 科技网站 Tom's Hardware 发现巴德抄袭了其中一篇文章,然后当一名工作人员大声疾呼时,他开始道歉。
2023年5月,抄袭检查告诉雅虎新闻他们使用 Bard 生成了 35 篇文本,发现其中 25 篇文本的抄袭率超过 5%,只是简单地解释了互联网上已经发布的现有内容。
Bard 和 ChatGPT 之间的一个很大差异或许可以解释这一点,那就是 Bard 可以在互联网上搜索回复,这就是为什么它往往能更好地处理与 2021 年之后事件相关的问题,而 ChatGPT 则在这一问题上遇到了困难。 然而,这似乎也意味着它以不那么原始的方式从来源中提取数据,并更频繁地引用其来源。
这些示例可能只是小插曲,但如果您使用 Bard 进行重要工作,了解其中的风险是有好处的。
其他人工智能工具是否存在抄袭行为?
不幸的是,是的——一些公司已经因为使用抄袭内容的人工智能工具而让自己陷入尴尬境地。 例如,世界上最大的科技网站之一 CNET 被发现使用人工智能工具来生成文章,而且对此完全不透明。 CNET 发表的使用人工智能的文章中约有一半被发现包含一些不正确的信息。
更糟糕的是,未来主义展开调查CNET 的 AI 剽窃行为称,“该机器人的不当行为包括逐字复制、适度编辑、重大改写,所有这些都没有正确注明原文”。
无法生成独特原创内容(无论是艺术还是文本)的人工智能工具有可能抄袭互联网上已发布的内容。 准确理解你的人工智能工具所使用的语言模型是如何工作的,并对它生成的内容进行严格监督,这一点很重要,否则你最终可能会陷入与 CNET 相同的境地。
您应该将 ChatGPT 用于论文还是工作?
使用 ChatGPT 进行论文
事实上,ChatGPT 并不是简单地从其他来源获取答案并将句子混搭在一起,这意味着企业已经能够使用 ChatGPT适合各种不同的任务,而无需担心版权问题。
但其内部机制也意味着它经常产生幻觉并犯错误。 它远非完美——尽管让 ChatGPT 为大学或学院撰写论文很诱人,但我们建议不要这样做。
当然,每个教育机构的具体提交指南都会略有不同,但很可能在您所在的大学或学校已经被视为“作弊”或抄袭。 另外,无论准确性如何,教育机构都在使用人工智能内容检测器,随着时间的推移,这种检测器将会得到改进。
在工作中使用 ChatGPT
当然,很多人们已经在工作中使用 ChatGPT– 事实证明,它在许多行业中都很有用,可以帮助各种角色的员工在日常任务中节省宝贵的时间。
但是,如果您在工作中使用 ChatGPT,我们建议您向您的经理或主管坦白,尤其是当您将其用于重要活动(例如为外部利益相关者编写报告)时。 这是更直接的之一与人工智能相关的伦理考虑企业需要回答。
我们还强烈建议您对使用 ChatGPT、Bard 或任何其他 AI 工具生成的所有工作进行大量编辑和仔细审查。 我们知道,将敏感的个人或公司信息放入任何聊天机器人中是不明智的ChatGPT 保存和使用用户数据,但关于这些聊天记录的存储位置或 OpenAI 的安全基础设施的公开信息并不多。
使用其他人工智能工具进行论文或工作
当然,Bard 和 ChatGPT 并不是唯一的人工智能聊天机器人——比如克洛德, 例如。 然而,我们会犹豫是否要支持任何没有强大语言模型支持的小型人工智能工具。 它们的资源不会那么丰富,而且如果您尝试在工作中使用它们,您也不太可能发现它们有用。
然而,同样的规则仍然适用 - 向您的经理开放并获得使用它们的批准,不要输入任何敏感的公司数据,并始终查看您得到的答案。