输入“/”快速插入内容

稳定扩散如何工作的?

2024年3月3日创建
本文讨论了稳定扩散如何工作的相关内容,包括其原理、运行步骤、设计方式、图像和文本的数字表示、参数情况以及训练过程等。关键要点包括:
1.
稳定扩散的本质:稳定扩散是巨大的神经网络,基于纯数学,通过训练使其有效,实际是“清理”图像,利用对世界和书面语言的了解指导过程。
2.
运行步骤“推理”:稳定扩散通过“推理步骤”逐渐消除噪音,生成艺术图像从纯噪声起始图像开始,因基于统计数据估计概率来生成内容,每次输入不同纯噪声图像会产生不同艺术品。
3.
设计方式:稳定扩散不依赖图像数据库和图像处理算法,靠复杂数学方程实现,应用方程需将图像和文本表示为数字表(矩阵或张量)。
4.
参数情况:输入图像和提示由一定数量值表示,稳定扩散约有10亿个参数分布在约1100个矩阵中,这些参数固定不变,找到合适值模型才有效。
5.
参数选择:先选10亿个随机数作为初始参数值,通过训练过程利用微积分根据实际与期望输出差异调整参数,经大量训练示例多次执行,模型不断优化。
📌
作者:Chris McCormick
链接:https://mccormickml.com/2022/12/21/how-stable-diffusion-works/
翻译:创意猎人
计算机仅凭书面描述即可生成艺术的能力令人着迷!我知道,就我个人而言,我非常想知道“幕后”究竟发生了什么,从而使这一切成为可能,所以我想尽我所能,为正在发生的事情提供一个不那么肤浅的解释,即使是对于那些熟悉人工智能概念的人。
概述
在第一部分中,我将为您提供高级解释(您可能已经熟悉)。这是一个好的开始,但我知道这不能满足我的好奇心。 😉 我会问,“好吧,很好,但是它是怎么做到的呢?”
为了解决这个问题,我将向您展示稳定扩散的一些内部工作原理。内部结构比你想象的要复杂,但我至少想更具体地向你展示正在发生的事情,这样它就不再是一个完全的谜了。
进一步来说:
稳定扩散是一个巨大的神经网络
神经网络是纯数学。
事实是,我们并不完全知道它在做什么!
最终,稳定扩散之所以有效,是因为我们训练了它。
但让我们从更大的图景开始吧!
稳定扩散消除图像中的噪声
如果您曾经尝试在太暗的情况下拍照,但照片上全是颗粒状,这种颗粒状就是图像中“噪点”的一个例子。
我们使用稳定扩散来生成艺术,但它实际上在幕后做的是“清理”图像!
不过,它比手机图像编辑器中的降噪滑块复杂得多。它实际上了解世界是什么样子,也了解书面语言,并利用这些来指导整个过程。
例如,想象一下,如果我将左侧的下图交给一位熟练的图形艺术家,并告诉他们这是一幅外星人以 HR Giger 风格弹吉他的画作。我敢打赌他们可以进去并煞费苦心地清理它以创建类似右侧图像的东西。
(这些是稳定扩散的实际图像!)
艺术家会利用他们对吉格艺术作品的了解以及对世界的了解(例如吉他应该是什么样子以及如何弹奏吉他)来做到这一点。稳定扩散本质上是做同样的事情!
“推理步骤”
您熟悉大多数艺术生成工具中的“推理步骤”滑块吗?稳定扩散逐渐消除噪音。
下面是运行 25 个步骤的示例: