AI 正在自食其果:模型崩溃的危机与挑战
AI 正在自食其果:模型崩溃的危机与挑战
2024年12月9日修改
在当今的数字时代,AI 生成的内容正逐渐充斥着互联网,然而,这一现象可能为未来的 AI 模型带来严重的问题。语言模型如 ChatGPT 通过使用网络上的内容进行训练,而随着 AI 创造出更多的“合成”内容,一个被称为“模型崩溃”的工程问题应运而生。
AI 如同那古老的象征——衔尾蛇,正在吞噬着自己的尾巴。当 AI 生成的内容大量涌入互联网时,其中伴随着诸多错误,而互联网正是这些语言模型的训练素材来源。这就如同一场糟糕的传话游戏,AI 可能会基于充满错误的合成数据进行训练,直至其生成的内容变得毫无意义。
近期的一项研究中,研究人员使用名为 OPT - 125m 的语言模型生成有关英国建筑的文本。在反复对该合成测试进行训练后,第 10 个模型的响应完全失去了意义,并且充满了对野兔的奇怪执念。另一项研究则关注了在其他 AI 艺术作品上训练的 AI 图像生成器。当 AI 仅以 AI 数据为食进行第三次尝试创建鸟类或花卉时,结果变得模糊且难以辨认。
尽管这些例子的风险相对较低,但这种递归反馈循环有可能加剧种族和性别偏见等问题,对边缘化社区可能造成毁灭性的影响。例如,ChatGPT 曾被发现将穆斯林男性错误地描述为“恐怖分子”。
为了有效地训练新的 AI 模型,公司需要未被合成信息污染的数据。“过滤现在是一个完整的研究领域,”国家人工智能机器学习基础研究所的联合主任亚历克斯·迪马基斯(Alex Dimakis)告诉《大西洋月刊》。“我们发现它对模型的质量有巨大的影响。”迪马基斯甚至表示,一小部分高质量的数据可以胜过大量的合成数据。当然,人类数据也并非毫无缺陷——偏见几乎无处不在,但 AI 可以用于尝试消除这些数据集的偏见,以创建更好的数据集。
目前,工程师们必须仔细筛选数据,以确保 AI 不会在其自身创建的合成数据上进行训练。尽管人们对 AI 能否取代人类存在诸多担忧,但事实证明,这些改变世界的语言模型仍然需要人类的干预。
在 AI 技术飞速发展的今天,我们不能忽视“模型崩溃”这一潜在的危机。AI 模型的训练依赖于大量的数据,如果这些数据中包含了过多的错误或偏差,那么模型的性能和准确性将受到严重影响。我们需要更加重视数据的质量和可靠性,通过有效的过滤和筛选手段,去除合成数据中的噪声和错误,为 AI 模型提供更加纯净和有价值的训练素材。
同时,我们也应该认识到,人类的智慧和判断力在 AI 发展中仍然起着不可替代的作用。人类可以通过对数据的分析和理解,发现其中的潜在问题,并采取相应的措施进行改进。此外,人类还可以利用自己的道德和伦理观念,引导 AI 技术的发展方向,确保其符合人类的利益和价值观。
总之,AI 技术的发展既带来了机遇,也带来了挑战。我们需要在充分发挥其优势的同时,认真对待其可能带来的问题,通过加强研究和合作,共同推动 AI 技术的健康发展,使其更好地为人类服务。