真的有可能!
特拉维夫大学和英伟达的研究人员成功地训练了域自适应图像生成模型——StyleGAN—NADA。
也就是说,只需要用简单的一句话或几句话来描述,不需要目标场的图像。StyleGAN—NADA可以在几分钟内训练出你想要的图像:
各种人像风格可以是:
甚至把狗变成猪:
问题是AI不能生成以前没见过的照片,但又不给它参考照片,那怎么能满足要求呢。
基于CLIP的
答案在于CLIP的语义能力。
进入爱这个字写在墙上的搜索结果
一般来说,StyleGAN—NADA的训练机制是由两个紧密相连的生成器Gfrozen和Gtrain组成,这两个生成器都使用StyleGAN2的架构,共享同一个映射网络,所以它们也有相同的潜在空间和潜在代码,所以它们生成的图像一开始是一样的。
首先,这两个生成器用在单个源域上预先训练的模型权重初始化。
由于最终目标是生成具有不同风格的图像,因此有必要改变成对生成器之一的域,同时保持另一个作为参考域。
具体而言,Gfrozen的权重保持不变,而Gtrain的权重通过优化和迭代层冻结方案进行修改。
虽然Gtrain的领域被用户提供的文本方向所转移,但它会保留一个潜在的空间。
具体怎么改。
因此,使用了一套基于CLIP的损失和冻结层方案。
该方案可以自适应地确定每次迭代训练中最相关的子层,并冻结剩余层,提高训练稳定性保证效果以下是对这两种方法的详细介绍
基于CLIP的损失
StyleGAN—NADA依赖于预先训练的CLIP作为目标域的唯一监督源。为了有效地从CLIP中提取知识,使用了三种损失算法:
负责确定在每次迭代中训练哪个子集层,
定向CLIP损耗),旨在保持多样性,
(3)嵌入范数损失,防止图像产生不必要的语义伪影。
局部方向丢失要求源/目标图像/文本的CLIP空间方向一致
冷冻层
该机制分为两个阶段:
在层选择阶段,保持所有网络权重不变,优化一组隐藏码,然后选择变化最显著的层(优化是利用目标域的文本描述驱动的全局CLIP损失进行的),
在优化阶段,解冻所选图层的权重,然后使用方向CLIP损失进行优化和更改。
大多数训练可以在几分钟内完成
首先,模型可以实现大范围的域外适配,从纹理变化到大形状修改,从现实到魔幻风格甚至包括一些采集高质量数据成本较高的目标域
对于基于纹理的修改目标,模型通常需要300次迭代,批量为2,在NVIDIA V100 GPU上训练大约需要3分钟在某些情况下(例如,从照片到草图),训练不到一分钟
然后,所有的实验都使用这个完整的模型,当然,没有添加任何潜在的映射器。研究人员发现,对于纯粹基于样式的图像生成,模型需要跨所有层进行训练,例如:
对于小的形状修改,只能训练大约2/3的层数,以折衷训练时间和效果:
将零样本的StyleGAN—NADA与一些样本较少的图像生成模型进行对比,发现其他的都不是过拟合就是塌陷(MineGAN只记住训练集图像),在保持多样性的同时只成功生成StyleGAN—NADA(但也有伪影)。
以下是消融实验:
通过训练潜在映射器可以进一步提高生成质量
赞美诗在论文的最后,研究人员说:
因为这项技术,也许在不久的将来,这种图像生成将不再受训练数据的限制,而只依赖于我们的创造力。
论文地址:
GitHub地址:
参考链接:
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。