标签: 训练模型

  • 扎克伯格准许Meta使用盗版内容训练模型

    扎克伯格同意 Meta 使用盗版内容训练模型

    根据针对该公司正在进行的版权诉讼,Meta 在公司 CEO 马克·扎克伯格的同意下,故意使用盗版内容来训练其 Llama AI 模型。Kadrey 诉 Meta 案的原告提交了法庭文件,谈到该公司使用 LibGen 数据集进行 AI 训练。LibGen 通常被描述为一个“影子图书馆”,提供对学术和一般兴趣的书籍、期刊、图像和其他内容的文件共享访问。原告的律师 (包括作家萨拉·西尔弗曼和塔纳西斯·科茨) 指责扎克伯格批准使用 LibGen 进行训练,尽管公司高管和员工对此表示担忧,称其为“知道数据集是盗版的”。起诉书还称,公司在将 LibGen 内容提供给 Llama 前,删除了其中的版权信息。

    —— Engadget

  • 人工智能生成的数据训练模型可能导致退化

    研究:为什么使用人工智能生成的内容训练人工智能将导致模型退化

    发表在《自然》杂志上的新研究表明,当人工智能在人工智能生成的数据上进行训练时,模型输出的质量会逐渐下降。随着后续模型产生的输出被用作未来模型的训练数据,效果会变得更糟。

    领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说:“如果你拍了一张照片,然后扫描,再打印出来,接着重复这个过程,那么噪音基本上会淹没整个画面。你只剩下一个黑色的方块。”他说,人工智能的黑色方块的对应物称为“模型崩溃”,意味着模型只会产生不连贯的垃圾。

    舒迈洛夫表示,当前的人工智能模型不仅会崩溃,而且还可能产生实质性影响:改进速度将会放缓,性能可能会受到影响。

    —— MIT科技评论 (节选)