输入“/”快速插入内容

(5)AIGC组成原理(上)

作者:小A,aaronxic,知乎个人主页
发表时间:2023年7月8日
50%
50%
开篇
大家好,我是aaronxic。前面几篇我们已经感受了transformer是如何应用在LLM和多模态领域的,从这一篇开始我们把目光转向AIGC,看看AIGC任务都是由哪些部件组装而成的。
AIGC (Artificial Intelligence Generative Content)即人工智能生成内容,这里强调的是GC部分,也就是decoder部分。
上一篇 (4)多模态的大一统之路 侧重的是encoder部分,包括对Image和Video的编码。对decoder的生成主要聚焦在生成text生成上
本篇《AIGC组成原理(上)》将介绍常见的4大类生成算法,包括了VAE、GAN、FlowModel和Diffusion Model。同时,还会介绍IS(Inception Score)和FID(Frechet Inception Distance)两种生成图片常见评价指标。
下一篇《AIGC组成原理(下)》将介绍具体的Image生成、Video生成、Audio生成和3D生成算法
PS: 长文预警,本篇约12000字,关注&收藏后电脑上阅读体验更加哦~ (^_^)
提纲如下,共2个章节
首先介绍了生成模型的本质目的,就是为了建模
分布。
首先是最朴素的极大似然估计,虽然简单,但是要求有明确的参数化分布形式,在实际中往往不可得
接着介绍4种隐变量模型,包括VAE,GAN,Flow Model和Diffusion Model。本质上用
来近似
VAE模型。尝试提高
采样效率,尝试最小化
,最终得到了正则项和重建误差项
GAN模型。尝试对MSE的损失函数做进一步拓展,引入判别模型
来隐式学习度量方法
Flow Model模型。强行让
函数可逆,满足
的一一映射,以RevNet为例子介绍Flow Model具体使用方式
Diffusion Model (DDPM)。将VAE扩展到了多步,有复杂的数学推导,但是本质上跟VAE是相似的
DDPM的score function。换一种角度理解DDPM,发现可以用网络
来预测
DDIM。尝试对DDPM做采样加速,将DDPM变成了确定性的过程
classifier-guided。使用classifier-guided技术,首次把DDPM和DDIM的IS和FID指标拉高到GAN齐平。在推理阶段,DDPM可以直接分析
;而对于DDIM,由于是个确定性过程,因此退化成分析
classifier-free。为了省去classifier-guided的梯度计算过程,classifier-free在训练中混合训练有condition和无condition的模型,使得在推理阶段无需求解梯度,在提高保真度的同时计算效率也很高
接着介绍了图片生成常见的两种指标
IS(Inception Score)指标提供了两种理解角度。IS本身有很强的先验,认为符合ImageNet的分布才是真实分布
FID(Frechet Inception Distance) 指标,衡量两个数据集的距离,更科学一点
从生成模型谈起
假设我们有一批大小为
的真实图片数据集合,
如果有一个完美的分布
能生成集合
中的元素,就意味着要求每次采样出来的
都满足
当集合元素
比较小的时候,
可以强行背下来即可;但是当
变得非常大的时候,完美分布
就几乎不可能获取了。
而AIGC的任务就是逼近这个完美分布
,这里的
可以是Image,可以是Video,可以是Audio或者3D模型
那具体如何逼近这个完美分布
呢?各类方法各显神通,下面我们就来逐个来看