研究人员测试了热门的大语言模型的版权侵权情况
新创 AI 模型评估公司 Patronus AI 周三发布了一个 API,用于检测大语言模型版权内容的 CopyrightCatcher (版权捕手)。同时该公司还展示了热门的 AI 模型生成受版权保护内容的频率。
Patronus 仅使用美国受版权保护的书籍来测试模型,并从编目网站 Goodreads 中选择流行的书籍。 研究人员设计了100种不同的提示语,让模型以续写或输出第一页的方式回应。OpenAI 的 GPT-4 表现最差,在44%的提示上生成了受版权保护的内容, Mixtral 为22%。Anthropic 的 Claude 2 为8%,Meta 的 Llama-2 为10%。总体来说所有模型,无论开源闭源都生成了受版权保护的内容,暗示了其训练数据中可能也使用了这些数据。OpenAI 曾在今年早些时候表示,如果没有受版权保护的作品,“不可能”训练顶级人工智能模型。
—— CNBC、 Patronus AI