作者指责 OpenAI 使用盗版网站训练 ChatGPT
本周,作者 Paul Tremblay 和 Mona Awad 对 OpenAI 提起集体诉讼,指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等。据作者称,ChatGPT 未经许可就对其受版权保护的作品进行了部分培训。
诉讼中提供的证据看似简单。作者从未授权 OpenAI 使用他们的作品,但 ChatGPT 可以提供他们作品的准确摘要。这些信息一定来自某个地方。
虽然这些类型的指控并不新鲜,但本周的诉讼指控 OpenAI 使用盗版网站作为训练输入。这可能包括Z-Library ,这是一个拥有数百万册盗版图书的影子图书馆。
OpenAI 尚未透露 ChatGPT 训练的数据集,但在一篇较旧的论文中引用了两个数据库;“书籍1”和“书籍2”。第一个包含大约 63,000 个标题,后者包含大约 294,000 个标题。
这些数字孤立起来毫无意义。然而,作者指出,OpenAI 一定使用了盗版资源,因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站,例如 Library Genesis 、Z-Library、Sci-Hub 和 Bibliotik。
目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致 OpenAI 不得不披露一些训练数据。
—— Torrentfreak