输入“/”快速插入内容

一文纵览文生图/文生视频技术发展路径与应用场景

2024年7月3日修改
作者:Z计划 | Z计划支持大模型创业
🥛
「Z计划」 是 智谱 AI 面向 未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。 面向全球,持续招募中!🐋(点击报名) 「Z研究」 是围绕该计划的面向大模型领域的投研计划,鼓励自由研究,大胆发言 。同时,本文不为或有提及的智谱公司任何产品做商业推广。如有提及,纯属绕不开。如未提及,也是正常。
人工 智能技术的进步为各行各业带来了革命性的变化,尤其是在图像生成领域。近年来,文生图/文生视频技术的发展已成为计算机视觉和人工智能研究领域的热点。
首 先, 我们在 这份研究报告中从横向和纵向两个维度梳理了文生图技术的发展脉络,重点分析了四个主流路径:基于 GAN 的方法 、基于 VAE 的 架构、Diffusion Model,以及自回归模型。
每种技术都有其独 特的优势和局限性,它们不仅反映了人工智能领域的快速发展,而且揭示了未来技术创新的可能方向。在此基础之上,本报告还梳理了基于文生图技术成熟的文生视频技术的发展脉络。
此外, 我们在报告中详细分析了这些模型的核心原理和技术特点。例如,GAN 通过生成器和判别器之间的对抗学习来生成图像,而 VAE 则利用编码器和解码器来学习数据的潜在表示。
在介绍了这些基本概念之后,报告转向更先进的技术,如 Diffusion Model 通过逐步去除加入数据的噪声来重建图像;自回归模型则通过学 习数据的序列依赖性来生成图像等。
同时, 我们探讨了这些技术的科学基础,还着眼于它们在实际应用中的潜力和挑战。从个人艺术创作到商业设计,从教育工具到社交媒体内容制作,文 生图技术正逐渐改变我们创造和消费视觉内容的方式。
最后, 我们预测了文生图和文生视频技术的未来发展趋势,包括多模态学习的整合和新的应用场景的探索。
综上, 本报告旨在 为所有关心大模型事业的伙伴,提供一个全面而深入的视角,以理解文生图和文生视频技术的发展历程、现状及未来趋势。 🌊
目录
建议结合要点进行针对性阅读。
一、 主流文生图技术发展路径
1、 横向来看,文生图的主流技术路径可分为4类
2、 纵向来看,主流文生图技术的演进路径
二、 主流文生视频技术发展路径
1、 早期发展(2016 年以前)
2、 奠基任务:GAN/VAE/flow-based (2016-2019 年)
3、 自回归模型及扩散模型生成阶段 (2019-2023)
4、 未来发展趋势(2024-?)
5、 视频生成模型 mapping
三、 应用场景
1、 基于闭源模型
2、 基于开源模型
44%
56%
1.
主流文生图技术发展路径
1.1 横向来看,文生图的主流技术路径可分为 4 类
1.
基于 GAN(Generative Adversarial Network)
a.
发展阶段:2016 年 -2021 年较火热,后续放缓,不再是主流方向
b.
原理 :
c.
GAN 由生成器和判别器构成,通过训练生成器和判别器来进行对抗学习,学习数据的分布,并生成新的数据样本。
d.
其中生成器试图生成与真实数据相似的样本,而判别器则试图区分生成的样本和真实样本(二分类问题)。
e.
生成器和判别器通过博弈论中的对抗过程进行训练,使得生成器不断改进生成的样本,直到判别器无法区分生成的样本和真实样本为止。
f.
代表模型: DF-GAN、StackGAN++、GoGAN、AttnGAN
2.
基于 VAE(Variational Autoencoder)
a.
发展阶段:2014 年提出,目前应用广泛,但独立生成图片质量不足,常与 Diffusion Model、自回归模型等架构结合使用
b.
原理 :
c.
VAE 本质是一个基于梯度的 encoder-decoder 架构,编码器用来学习数据的潜在变量表示(高斯分布的均值和方差);
d.
解码器用变分后验来学习生成能力(标准高斯映射到数据样本的能力;而将标准高斯映射到数据样本是自己定义的),生成新的数据样本。
e.
VAE 通过将数据编码为潜在变量的分布,并使用重新参数化技巧来生成新的样本,VAE 的训练过程可以看作是最小化数据的重构误差和潜在变量的 KL 散度。
编码器(Encoder) :VAE 首先通过编码器将输入数据(如图像)转换成潜在空间中的表示。这个表示不是单个值,而是概率分布的参数(通常是均值和方差)。
潜在空间(Latent Space) :潜在空间的数据表示形式更简洁、抽象,可以在捕捉数据的关键特征的同时大幅降低计算成本。