微闻

标签：训练模型

扎克伯格准许Meta使用盗版内容训练模型

扎克伯格同意 Meta 使用盗版内容训练模型

根据针对该公司正在进行的版权诉讼，Meta 在公司 CEO 马克·扎克伯格的同意下，故意使用盗版内容来训练其 Llama AI 模型。Kadrey 诉 Meta 案的原告提交了法庭文件，谈到该公司使用 LibGen 数据集进行 AI 训练。LibGen 通常被描述为一个“影子图书馆”，提供对学术和一般兴趣的书籍、期刊、图像和其他内容的文件共享访问。原告的律师 (包括作家萨拉·西尔弗曼和塔纳西斯·科茨) 指责扎克伯格批准使用 LibGen 进行训练，尽管公司高管和员工对此表示担忧，称其为“知道数据集是盗版的”。起诉书还称，公司在将 LibGen 内容提供给 Llama 前，删除了其中的版权信息。

—— Engadget

2025年1月11日
人工智能生成的数据训练模型可能导致退化

研究：为什么使用人工智能生成的内容训练人工智能将导致模型退化

发表在《自然》杂志上的新研究表明，当人工智能在人工智能生成的数据上进行训练时，模型输出的质量会逐渐下降。随着后续模型产生的输出被用作未来模型的训练数据，效果会变得更糟。

领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说：“如果你拍了一张照片，然后扫描，再打印出来，接着重复这个过程，那么噪音基本上会淹没整个画面。你只剩下一个黑色的方块。”他说，人工智能的黑色方块的对应物称为“模型崩溃”，意味着模型只会产生不连贯的垃圾。

舒迈洛夫表示，当前的人工智能模型不仅会崩溃，而且还可能产生实质性影响：改进速度将会放缓，性能可能会受到影响。

—— MIT科技评论（节选）

2024年12月5日

标签： 训练模型

扎克伯格准许Meta使用盗版内容训练模型

人工智能生成的数据训练模型可能导致退化

标签：训练模型