09-构建图像生成应用

2024年8月19日修改

本文讨论了LLMs不仅能进行文本生成，还能根据文本描述生成图像，介绍了两种流行图像生成模型DALL-E和Midjourney，并讲解构建图像生成应用程序的相关内容。关键要点包括：

图像生成应用的作用：是探索生成式人工智能功能的好方法，可用于图像编辑和合成，适用于医疗科技、旅游等多种行业。

DALL-E和Midjourney简介：两种最流行的图像生成模型，可根据文本提示生成图像。DALL-E是CLIP和diffused attention组合，Midjourney工作方式类似。

构建图像生成应用程序：需python-dotenv、openai、pillow、requests库，创建.env文件保存密钥，收集库到requirements.txt，创建虚拟环境并安装库，编写app.py代码生成图像。

生成图像的参数：prompt是文本提示，size是图像尺寸，n是生成图像数量，temperature控制输出随机性，0到1之间，默认0.7 。

图像生成的附加功能：可对图像执行编辑和创建变体操作，编辑需提供图像、遮罩和文本提示，创建变体需提供图像和文本提示。

元提示的作用：用于控制生成式AI模型输出的文本提示，位于文本提示之前，可确保生成图像符合特定要求。

作业与继续学习：学生为评估创建含纪念碑的图像，可参考示例代码。还可前往进阶学习页面了解更多，第十章将学习创建低代码人工智能应用。

✏️

LLMs 不仅仅是文本生成。还可以根据文本描述生成图像。将图像作为一种模式在医疗科技、建筑、旅游、游戏开发等许多领域非常有用。在本章中，我们将研究两种最流行的图像生成模型：DALL-E 和 Midjourney。

在本章中，您将学习到：

•

图像生成及其有用的原因。

•

DALL-E 和 Midjourney，它们是什么以及它们如何工作。

•

如何构建图像生成应用程序。

在完成本章的学习，您将能够：

•

构建图像生成应用程序。

•

使用元提示定义应用程序的边界。

•

使用 DALL-E 和 Midjourney

09-构建图像生成应用​