微闻

标签：退化

人工智能生成的数据训练模型可能导致退化

研究：为什么使用人工智能生成的内容训练人工智能将导致模型退化

发表在《自然》杂志上的新研究表明，当人工智能在人工智能生成的数据上进行训练时，模型输出的质量会逐渐下降。随着后续模型产生的输出被用作未来模型的训练数据，效果会变得更糟。

领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说：“如果你拍了一张照片，然后扫描，再打印出来，接着重复这个过程，那么噪音基本上会淹没整个画面。你只剩下一个黑色的方块。”他说，人工智能的黑色方块的对应物称为“模型崩溃”，意味着模型只会产生不连贯的垃圾。

舒迈洛夫表示，当前的人工智能模型不仅会崩溃，而且还可能产生实质性影响：改进速度将会放缓，性能可能会受到影响。

—— MIT科技评论（节选）

2024年12月5日
AI模型退化和崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

现在，随着越来越多的人使用 AI 来制作和发布内容，一个明显的问题出现了：当 AI 生成的内容在互联网上激增并且 AI 模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？

来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊 arXiv 上发表了一篇关于他们工作的论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”

研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”

“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一 Ilia Shumailov 在给 VentureBeat 的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”

换句话说：当 AI 训练模型接触到更多 AI 生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。

—— VentureBeat

额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

2024年12月5日

标签： 退化

人工智能生成的数据训练模型可能导致退化

AI模型退化和崩溃

标签：退化