输入“/”快速插入内容

警惕 AI 训练中的“模型崩溃”：AI 生成内容带来的潜在危机

2024年12月8日修改

在当今这个生成式 AI 蓬勃发展的时代，许多全球领先公司的员工已经在工作流程中使用这类技术，众多公司也纷纷推出内置生成式 AI 的新产品。然而，随着 AI 生成的内容在互联网上大量涌现，一个严峻的问题逐渐浮出水面：当 AI 模型开始以 AI 生成的内容而非主要以人类生成的内容进行训练时，会发生什么？​

来自英国和加拿大的一组研究人员深入研究了这个问题，并在开放获取期刊 arXiv 上发表了相关论文。他们的研究结果对当前的生成式 AI 技术及其未来发展带来了令人担忧的影响：使用模型生成的内容进行训练会导致最终模型出现不可逆转的缺陷。​

具体来看，研究人员在对文本到文本和图像到图像的 AI 生成模型的概率分布进行研究后得出结论，从其他模型生成的数据中学习会导致模型崩溃——这是一个退化过程，随着时间的推移，模型会逐渐忘记真实的基础数据分布。即使在长期学习的几乎理想条件下，这个过程也是不可避免的。这意味着，随着 AI 训练模型接触到更多的 AI 生成数据，其性能会随着时间的推移而下降，在生成的响应和内容中会产生更多的错误，并且其响应的多样性也会大大减少。​

以一个假设的场景为例，当一个机器学习模型在一个包含 100 只猫的图片的数据集上进行训练时，其中 10 只猫的毛是蓝色的，90 只猫的毛是黄色的。模型会学习到黄色的猫更为普遍，但同时也会将蓝色的猫表现得比实际更黄，当被要求生成新数据时，会返回一些绿色猫的结果。随着时间的推移，通过连续的训练循环，蓝色猫毛的原始特征会逐渐被侵蚀，从蓝色变成绿色，最终变成黄色。这种逐渐的扭曲和最终少数数据特征的丢失就是模型崩溃。​

这种由 AI 生成的数据带来的“污染”会导致模型对现实产生扭曲的认知。即使研究人员训练模型不要产生太多重复的响应，他们发现模型崩溃仍然会发生，因为模型会开始编造错误的响应，以避免过于频繁地重复数据。而且，如果生成式 AI 随着时间的推移学会在其响应中只产生某一种族，而“忘记”其他种族的存在，那么还可能会导致基于性别、种族或其他敏感属性的歧视等更严重的问题。​

值得注意的是，这种现象与“灾难性遗忘”不同，后者是模型丢失先前学习的信息，而模型崩溃则是模型基于其强化的信念对现实的误解。​

幸运的是，即使对于现有的转换器和大型语言模型，也有方法可以避免模型崩溃。研究人员强调了两种具体的方法。第一种是保留原始的、完全或名义上由人类产生的数据集的权威副本，避免其被 AI 生成的数据污染。然后，可以定期使用此数据对模型进行重新训练，或者从零基础开始完全用它进行更新。第二种方法是将新的、干净的、人类生成的数据集重新引入到模型的训练中，以避免响应质量的下降并减少 AI 模型中不必要的错误或重复。​

然而，正如研究人员所指出的，这需要某种大规模的标记机制或内容生产者或 AI 公司的努力，以区分 AI 生成的内容和人类生成的内容。但目前，在网络上还不存在这样可靠或大规模的努力。​

尽管这些消息对当前的生成式 AI 技术以及试图从中获利的公司来说，尤其是在中长期内，是令人担忧的，但对于人类内容创作者来说，却有一个积极的方面：研究人员得出结论，在一个充满生成式 AI 工具及其内容的未来中，人类创造的内容将比现在更加有价值——如果只是作为 AI 原始训练数据的来源的话。​

这些发现对人工智能领域具有重要意义，强调了需要改进方法来长期保持生成模型的完整性。它们突显了不受控制的生成过程的风险，并可能为未来的研究提供指导，以制定预防或管理模型崩溃的策略。​

总之，模型崩溃是机器学习中的一个问题，必须采取措施来确保生成式 AI 能够持续改进。我们需要更加重视人类生成内容的价值，同时努力寻找有效的方法来避免模型崩溃，以推动人工智能的健康发展。​

警惕 AI 训练中的“模型崩溃”：AI 生成内容带来的潜在危机​

警惕 AI 训练中的“模型崩溃”：AI 生成内容带来的潜在危机