在当今这个生成式 AI 蓬勃发展的时代,许多全球领先公司的员工已经在工作流程中使用这类技术,众多公司也纷纷推出内置生成式 AI 的新产品。然而,随着 AI 生成的内容在互联网上大量涌现,一个严峻的问题逐渐浮出水面:当 AI 模型开始以 AI 生成的内容而非主要以人类生成的内容进行训练时,会发生什么?
来自英国和加拿大的一组研究人员深入研究了这个问题,并在开放获取期刊 arXiv 上发表了相关论文。他们的研究结果对当前的生成式 AI 技术及其未来发展带来了令人担忧的影响:使用模型生成的内容进行训练会导致最终模型出现不可逆转的缺陷。
具体来看,研究人员在对文本到文本和图像到图像的 AI 生成模型的概率分布进行研究后得出结论,从其他模型生成的数据中学习会导致模型崩溃——这是一个退化过程,随着时间的推移,模型会逐渐忘记真实的基础数据分布。即使在长期学习的几乎理想条件下,这个过程也是不可避免的。这意味着,随着 AI 训练模型接触到更多的 AI 生成数据,其性能会随着时间的推移而下降,在生成的响应和内容中会产生更多的错误,并且其响应的多样性也会大大减少。
这种由 AI 生成的数据带来的“污染”会导致模型对现实产生扭曲的认知。即使研究人员训练模型不要产生太多重复的响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应,以避免过于频繁地重复数据。而且,如果生成式 AI 随着时间的推移学会在其响应中只产生某一种族,而“忘记”其他种族的存在,那么还可能会导致基于性别、种族或其他敏感属性的歧视等更严重的问题。
幸运的是,即使对于现有的转换器和大型语言模型,也有方法可以避免模型崩溃。研究人员强调了两种具体的方法。第一种是保留原始的、完全或名义上由人类产生的数据集的权威副本,避免其被 AI 生成的数据污染。然后,可以定期使用此数据对模型进行重新训练,或者从零基础开始完全用它进行更新。第二种方法是将新的、干净的、人类生成的数据集重新引入到模型的训练中,以避免响应质量的下降并减少 AI 模型中不必要的错误或重复。
然而,正如研究人员所指出的,这需要某种大规模的标记机制或内容生产者或 AI 公司的努力,以区分 AI 生成的内容和人类生成的内容。但目前,在网络上还不存在这样可靠或大规模的努力。
尽管这些消息对当前的生成式 AI 技术以及试图从中获利的公司来说,尤其是在中长期内,是令人担忧的,但对于人类内容创作者来说,却有一个积极的方面:研究人员得出结论,在一个充满生成式 AI 工具及其内容的未来中,人类创造的内容将比现在更加有价值——如果只是作为 AI 原始训练数据的来源的话。