(5)AIGC组成原理(上)

作者:小A,aaronxic,知乎个人主页
发表时间:2023年7月8日
50%
附件不支持打印

加载失败,

50%
开篇
大家好,我是aaronxic。前面几篇我们已经感受了transformer是如何应用在LLM和多模态领域的,从这一篇开始我们把目光转向AIGC,看看AIGC任务都是由哪些部件组装而成的。
AIGC (Artificial Intelligence Generative Content)即人工智能生成内容,这里强调的是GC部分,也就是decoder部分。
上一篇 (4)多模态的大一统之路 侧重的是encoder部分,包括对Image和Video的编码。对decoder的生成主要聚焦在生成text生成上
本篇《AIGC组成原理(上)》将介绍常见的4大类生成算法,包括了VAE、GAN、FlowModel和Diffusion Model。同时,还会介绍IS(Inception Score)和FID(Frechet Inception Distance)两种生成图片常见评价指标。
下一篇《AIGC组成原理(下)》将介绍具体的Image生成、Video生成、Audio生成和3D生成算法
PS: 长文预警,本篇约12000字,关注&收藏后电脑上阅读体验更加哦~ (^_^)
提纲如下,共2个章节
首先介绍了生成模型的本质目的,就是为了建模
分布。
首先是最朴素的极大似然估计,虽然简单,但是要求有明确的参数化分布形式,在实际中往往不可得
接着介绍4种隐变量模型,包括VAE,GAN,Flow Model和Diffusion Model。本质上用
来近似
VAE模型。尝试提高
采样效率,尝试最小化
,最终得到了正则项和重建误差项