输入“/”快速插入内容

阿里|当AI成为大众的新朋友

2024年1月16日修改
引言
当漫步于卢浮宫,我们穿梭于无数艺术画作中,你是否期待有这样一位画师,为你记录下独一无二的瞬间,让自己如同画中人一样,给这个世界留下一份凝视与回眸?当走进国家图书馆,我们打开书本跨越时空,面对万千世界的无垠知识,你是否期待有人可以读懂你的想法,陪伴你一同探索世界?当意外闯进J.K罗琳为我们创建的霍格沃茨魔法学校,你是否期待有人可以为你递上一根魔杖,如哈利波特一样,让所有平面之物跃然纸上?
这些曾经需要我们跨越时空去触达的历史、需要我们展开想象触碰到的未来,在人工智能的发展中,随着不断迭代的算法能力,悄然来到我们的身边。AI(Artificial Intelligence), 这个由无数精准算法构建起的抽象能力,正慢慢具象化,成为了人们身边,拥有特殊技能的好朋友。它可以是画家,是作家、也可以是魔术师,与我们共同描绘着关于未来的无数可能性。
一、写实派画家——GAN
还记得维米尔笔下那位《带珍珠耳环的少女》给我们留下的那份恬淡从容的微笑吗?那份回眸穿越历史的长河,轻轻敲开我们的心房。也许我们每个人都期待过成为那位少女,能够成为某位画家笔下的模特,将自己的模样融于画家的画布中,在世界上留下自己真实而美好的记忆。今天,GAN(生成对抗网络 / Generative Adversarial Networks),便像是我们这个时代的写实派的AI画家,只要将我们的照片提供给这位写实派AI画家,它便能基于我们的照片,结合画家的风格,模仿真实照片生成新照片,“画出”我们美好模样。什么是GAN呢?它由两个网络组成,Generator和Discriminator。首先,我们需要给GAN输入一系列来自真实数据的input。接着,它会利用latent space在Generator中生成假的图片,在第二个网络Discriminator中,和真的图片进行对比。起初,Discriminator很容易分别真图片和假图片,而Generator会不断通过Discriminator的反馈,优化自己生成的假图片。最终当Discriminator没办法识别真图片、假图片的时候,我们就可以提取出假图片作为最终的产物。
GAN算法原理示意图
我们可以把GAN想象成一个画家。Discriminator就如它的大脑,Generator就如它的画笔。首先,它需要大量的input作为自己的绘画灵感,将这些绘画灵感沉淀在自己的大脑(Discriminator)中。接下来,它会利用它的颜料(latent space),在Generator中完成创作。创作出来的假图片(fake image)会在Discriminator中和它脑海中收集到的灵感图片(input)进行对比。如果“画”出的图片和脑海(Discriminator)中的图片不匹配的话,GAN这个画家会继续用Generator“画出”假图片(fake image)。直到它的大脑(Discriminator)无法识别GAN自己画的图片和它原有的图片之后,GAN可以心满意足地提取出自己画出的图片,完成绘画的过程。这样一个具有强大能力的写实派画家,我们可以利用它来做些什么呢?GAN最“出圈”的功能便是可以生成人脸照片。除了人脸之外,其他类型的照片GAN也可以生成。比如,鸟类、花卉等。这些从真实照片中学习得来的图片,可以作为设计师们作为自己的图片素材库,更加轻松的完成素材的累积。
GAN生成的人脸图片 论文来源: Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434.
除了图片的生成,GAN也可以通过文本描述,生成接近真实的照片。设计师们可以向GAN提出自己的“需求”,生成对应的图片。比如利用StackGAN,可以从动物、植物等简单对象出发,生成对应的逼真图片。设计师们可以更加快速定向地获取自己的设计灵感来源。