微闻

标签: 数据科学

  • Google 在 Colab 中推出数据科学智能体

    Google 在 Colab 中推出数据科学智能体

    Google 今天在其免费云 Jupyter Notebook 环境 Colab 中添加了数据科学智能体,向 18 岁以上、特定国家/地区和语言的用户开放。Colab 中的数据科学智能体使用 Gemini 创建笔记本,消除了导入库、加载数据和编写模板代码等繁琐的任务。早期测试人员报告说,他们能够简化工作流程并比以往更快地发现见解,帮助研究实验室节省数据处理和分析时间。用户仅需上传数据文件和描述目标,批准智能体生成的计划后,即可观看数据科学智能体开始工作:在 Colab 笔记本中生成必要的代码、导入库并执行分析,最终生成完整的可执行笔记本和执行结果。

    —— Google 博客

  • AI模型退化和崩溃

    研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

    现在,随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始用其进行训练,而不是使用主要人类生成的内容时,会发生什么?

    来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇关于他们工作的论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”

    研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模​​型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”

    “随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,”该论文的主要作者之一 Ilia Shumailov 在给 VentureBeat 的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”

    换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。

    —— VentureBeat

    额外编辑:研究人员同样担忧,目前互联网上AI生成内容正在迅速增加,训练下一代ai的数据正在被迅速污染。