一文纵览文生图/文生视频技术发展路径与应用场景

2024年7月3日修改

作者：Z计划 | Z计划支持大模型创业

原文：https://mp.weixin.qq.com/s/pOLIf6JVQ_b8v3T6LcA7Fg

🥛

「Z计划」是智谱 AI 面向未上市初创企业与优秀独立开发者/团队，提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球，持续招募中！🐋（点击报名）「Z研究」是围绕该计划的面向大模型领域的投研计划，鼓励自由研究，大胆发言。同时，本文不为或有提及的智谱公司任何产品做商业推广。如有提及，纯属绕不开。如未提及，也是正常。

人工智能技术的进步为各行各业带来了革命性的变化，尤其是在图像生成领域。近年来，文生图/文生视频技术的发展已成为计算机视觉和人工智能研究领域的热点。

首先，我们在这份研究报告中从横向和纵向两个维度梳理了文生图技术的发展脉络，重点分析了四个主流路径：基于 GAN 的方法、基于 VAE 的架构、Diffusion Model，以及自回归模型。

每种技术都有其独特的优势和局限性，它们不仅反映了人工智能领域的快速发展，而且揭示了未来技术创新的可能方向。在此基础之上，本报告还梳理了基于文生图技术成熟的文生视频技术的发展脉络。

此外，我们在报告中详细分析了这些模型的核心原理和技术特点。例如，GAN 通过生成器和判别器之间的对抗学习来生成图像，而 VAE 则利用编码器和解码器来学习数据的潜在表示。

在介绍了这些基本概念之后，报告转向更先进的技术，如 Diffusion Model 通过逐步去除加入数据的噪声来重建图像；自回归模型则通过学习数据的序列依赖性来生成图像等。

同时，我们探讨了这些技术的科学基础，还着眼于它们在实际应用中的潜力和挑战。从个人艺术创作到商业设计，从教育工具到社交媒体内容制作，文生图技术正逐渐改变我们创造和消费视觉内容的方式。

最后，我们预测了文生图和文生视频技术的未来发展趋势，包括多模态学习的整合和新的应用场景的探索。

综上，本报告旨在为所有关心大模型事业的伙伴，提供一个全面而深入的视角，以理解文生图和文生视频技术的发展历程、现状及未来趋势。 🌊

建议结合要点进行针对性阅读。

一、主流文生图技术发展路径

1、横向来看，文生图的主流技术路径可分为4类

2、纵向来看，主流文生图技术的演进路径

二、主流文生视频技术发展路径

1、早期发展（2016 年以前）

2、奠基任务：GAN/VAE/flow-based （2016-2019 年）

3、自回归模型及扩散模型生成阶段（2019-2023）

4、未来发展趋势（2024-?）

5、视频生成模型 mapping

三、应用场景

1、基于闭源模型

2、基于开源模型

附件不支持打印

common.docs_name - LarkCCM_Docs_Menu_Image

44%

附件不支持打印

56%

一文纵览文生图/文生视频技术发展路径与应用场景​

一文纵览文生图/文生视频技术发展路径与应用场景