莱斯大学研究有望解决人工智能图像生成问题

2024年12月9日修改
人工智能(AI)在生成一致的图像方面一直存在困难,常常会出现诸如手指和面部对称等细节错误。此外,当被要求生成不同图像大小和分辨率的图像时,这些模型可能会完全失效。莱斯大学的计算机科学家们提出了一种新的使用预训练扩散模型生成图像的方法,可能有助于纠正这些问题。
Moayed Haji Ali 是莱斯大学的计算机科学博士生,他在西雅图举行的电气和电子工程师协会(IEEE)2024 年计算机视觉与模式识别会议(CVPR)上发表了一篇经过同行评审的论文,介绍了这种名为 ElasticDiffusion 的新方法。
像 Stable Diffusion、Midjourney 和 DALL - E 等扩散模型虽然能生成令人印象深刻的结果,创造出相当逼真和写实的图像,但它们存在一个弱点:只能生成正方形图像。因此,在需要生成不同宽高比的图像时,比如在显示器或智能手表上显示的图像,这些模型就会出现问题。
如果让像 Stable Diffusion 这样的模型生成一个非正方形图像,比如 16:9 的宽高比,用于构建生成图像的元素就会变得重复。这种重复会导致图像或图像主体出现奇怪的变形,比如有六个手指的人或奇怪拉长的汽车。
这些模型的训练方式也导致了这个问题。如果只在特定分辨率的图像上训练模型,它们就只能生成具有该分辨率的图像。解决这个问题的一种方法是在更广泛的图像上训练模型,但这需要耗费大量的计算资源。
扩散模型使用的数字噪声可以转化为具有两种数据类型的信号:局部信号和全局信号。局部信号包含像素级的细节信息,如眼睛的形状或狗毛的纹理。全局信号则包含更多的图像整体轮廓信息。
ElasticDiffusion 方法采取了一种不同的图像生成方法。它将局部信号和全局信号分离到有条件和无条件的生成路径中。它从无条件模型中减去有条件模型,得到一个包含全局图像信息的分数。
然后,具有局部像素级细节的无条件路径以象限的形式应用于图像,一次填充一个正方形的细节。全局信息——图像的宽高比应该是多少以及图像是什么(一只狗、一个跑步的人等)——保持独立,因此人工智能不会混淆信号并重复数据。其结果是无论宽高比如何,都能生成更清晰的图像,且不需要额外的训练。
相对于其他扩散模型,ElasticDiffusion 的唯一缺点是时间。目前,Haji Ali 的方法生成图像的时间长达其他模型的 6 - 9 倍。目标是将其缩短到与 Stable Diffusion 或 DALL - E 等其他模型相同的推理时间。
Haji Ali 希望这项研究能够定义为什么扩散模型会生成这些更重复的部分,并且不能适应这些不断变化的宽高比,并提出一个能够在相同推理时间内适应任何宽高比的框架,无论训练情况如何。
总的来说,莱斯大学的这项研究为解决人工智能图像生成中的问题提供了新的思路和方法,虽然目前还存在一些需要改进的地方,但为未来的研究和发展奠定了基础。相信随着技术的不断进步,这些问题将会逐步得到解决,人工智能图像生成技术也将得到更广泛的应用。