谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》引起高度关注。
要点:
-
提出一种新的文本到图像生成模型,FID分数和CLIP分数达到最新水平; -
由于使用了离散图像Token量化和并行解码,该模型比之前模型更快; -
可提供零样本编辑功能,包括绘画、补全和无蒙版编辑; -
利用预训练的大型语言模型,实现了细粒度的语言理解,以及高保真的图像生成和视觉概念理解 。
该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。
与谷歌先前的 Imagen 模型类似,该研究发现基于预训练 LLM 进行调整对于逼真、高质量的图像生成至关重要。Muse 模型是建立在 Transformer (Vaswani et al., 2017) 架构之上。
与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。
基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。
另一方面,Muse 效率的提升没有造成生成图像质量下降、模型对输入文本 prompt 的语义理解能力降低的问题。该研究根据多个标准评估了 Muse 的生成结果,包括 CLIP 评分 (Radford et al., 2021) 和 FID (Heusel et al., 2017)。Muse-3B 模型在 COCO (Lin et al., 2014) 零样本验证基准上取得了 0.32 的 CLIP 分数和 7.88 的 FID 分数。
模型体系架构概述
Muse实现了最先进的图像生成性能,同时比扩散模型和自回归模型效率高得多。Muse在离散Token空间接受掩码建模任务的训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse被训练来预测随机掩码的图像Token。与Imagen和DALL-E 2等像素空间扩散模型相比,由于使用离散token和需要更少采样迭代,Muse的效率要高得多;与Parti等自回归模型相比,由于使用并行解码,Muse的效率更高。使用预先训练的LLM可以实现细粒度的语言理解,转化为高保真图像生成,并理解视觉概念,如对象、其空间关系、姿态、基数等。所得到的900M参数模型在CC3M上实现了新的SOTA,FID分数为6.06。Muse 3B参数模型在零样本COCO评估下实现了7.88的FID,CLIP得分为0.32。Muse还直接支持了许多图像编辑应用程序,无需微调或逆转模型:绘画、补全和无蒙版编辑。
与其他模型相比,Muse 缩短了推理时间
本文转自机器之心,阅读详情请点击这里
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢