生成对抗网络(GAN)是一种在 AI 领域非常重要的模型。
GAN 是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。其中一个神经网络(生成器)负责创建图像,另一个神经网络(鉴别器)预测图像是真实的还是伪造的。随着时间的推移,鉴别器变得越来越擅长区分真伪,而生成器则越来越擅长创建逼真的图像。
GAN 在图像生成领域极为引人注目,例如您可能已经听说过的“DeepFake”便是基于这一技术。同时,GAN 也可用于生成视觉逼真度高的视频,但存在控制难度大、时序建模较弱的问题。此外,GAN 生成视频速度快,但生成质量和分辨率较低,长度短,控制能力弱。
GAN 诞生于 2014 年,是 Deep Learning 领域的重要里程碑,它可以帮助神经网络用更少的数据进行学习,生成更多的合成图像,然后用来识别和创建更好的神经网络。GAN 的创造者 Ian Goodfellow 是在蒙特利尔的一个酒吧里想出这个主意的,它由两个神经网络玩着猫捉老鼠的游戏,一个创造出看起来像真实图像的假图像,而另一个则决定它们是否是真的。GAN 不仅有助于创建图像,还可以创建现实世界的软件模拟,Nvidia 就大量采用这种技术来增强他的现实模拟系统。
相关的学习资源包括:
课程地址:https://www.cloudskillsboost.google/course_templates/541视频学习:https://youtu.be/J0AuVBxzui0这是Google的一个AI入门课程,介绍扩散模型,这是一类在图像生成领域最近显示出潜力的机器学习模型。扩散模型的灵感来源于物理学,特别是热力学。在过去的几年中,扩散模型在研究和工业中都变得很受欢迎。扩散模型是Google Cloud上许多最先进的图像生成模型和工具的基础。本课程将向你介绍扩散模型背后的理论,以及如何在Vertex AI上训练和部署它们。[heading2]视频字幕[content]大家好,我叫Kyle Steckler,我是Google Cloud高级解决方案实验室团队的一名机器学习工程师,在本次演讲中我们将深入介绍图像生成[heading1]扩散模型在图像生成领域的应用[content]图像生成已经存在很长时间了,它一直是一个极具吸引力的研究领域。尽管您可能已经听说过许多有趣的方法,这些方法已经被用于图像生成,但随着时间的推移,一些更有前途的方法逐渐脱颖而出。[heading2]变分自动编码器[content]例如,变分自动编码器(Variational Autoencoders,VAEs)将图像编码为压缩的形式,然后在学习数据本身的分布时解码回原始大小。[heading2]生成对抗模型(GAN)[content]生成对抗模型(Generative Adversarial Networks,GANs)也非常流行。这些模型极为引人注目,它们让两个神经网络相互对抗。一个神经网络(生成器)负责创建图像,另一个神经网络(鉴别器)预测图像是真实的还是伪造的。随着时间的推移,鉴别器变得越来越擅长区分真伪,而生成器则越来越擅长创建逼真的图像。您可能已经听说过“DeepFake”这个词,它便是基于这一技术。[heading2]自回归模型[content]最后是自回归模型。这些模型通过将图像视为一系列像素来生成图像。自回归模型的现代方法实际上从大型语言模型(如GPT)如何处理文本中汲取了很多灵感。
代表产品:RunwayGAN生成对抗网络:是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。可以生成视觉逼真度高的视频,但控制难度大、时序建模较弱。VAE变分自编码器:它是一种可以学习数据分布的网络结构。就像把视频文件压缩成较小的文件再解压一样,它可以重建视频数据。VAE可以根据条件输入控制生成过程,但质量较GAN略低。GAN、VAE生成视频速度快,缺点是生成质量和分辨率较低,长度短,控制能力弱。Transformer自注意力机制:通过学习视频帧之间的关系,理解视频的长期时间变化和动作过程,这种方式对长视频建模更好,时序建模能力强,可实现细粒度语义控制,缺点是计算量大[heading2]1.4 AI视频生成当前面临的问题[content]当前仍面临生成时间长、视频质量不稳定,生成的视频语义不连贯、帧间存在闪烁、分辨率较低等问题。解决方案有:使用渐进生成、增强时序一致性的模型等方法解决。上述的补帧算法、视频完善策略也可在一定程度上缓解问题。[heading2]二.应用场景思考
从2012到现在,深度神经网络的使用呈爆炸式增长,进展惊人。现在Machine Learning领域的大部分研究都集中在Deep Learning方面,就像进入了潘多拉的魔盒被开启了的时代。配图06:AI进化史GAN生成对抗网络(GAN - Generative Adversarial Network)是Deep Learning领域里面另一个重要的里程碑,诞生于2014年,它可以帮助神经网络用更少的数据进行学习,生成更多的合成图像,然后用来识别和创建更好的神经网络。GANs的创造者Ian Goodfellow是在蒙特利尔的一个酒吧里想出这个主意的,它由两个神经网络玩着猫捉老鼠的游戏,一个创造出看起来像真实图像的假图像,而另一个则决定它们是否是真的。配图07:GANs模拟生产人像的进化GANs将有助于创建图像,还可以创建现实世界的软件模拟,Nvidia就大量采用这种技术来增强他的现实模拟系统,开发人员可以在那里训练和测试其他类型的软件。你可以用一个神经网络来“压缩”图像,另一个神经网络来生成原始视频或图像,而不是直接压缩数据,Demis Hassabis在他的一篇论文中就提到了人类大脑“海马体”的记忆回放也是类似的机制。大规模神经网络大规模神经网络的竞赛从成立于2011年的Google Brain开始,现在属于Google Research。他们推动了TensorFlow语言的开发,提出了万能模型Transformer的技术方案并在其基础上开发了BERT,我们在第四章中将详细讨论这些。