• 发文
  • 评论
  • 微博
  • 空间
  • 微信

向图像进击的transformer——OpenAI提出Image GPT实现高质量图像补全和样本生成

将门创投 2020-07-17 08:51 发文


关注并星标

从此不迷路

Jiangmen



From: OpenAI 编译: T.R

GPT在自然语言处理上取得了有目共睹的成就,包括BERT,RoBERTa,T5等众多无监督或自监督学习方法轮番登场拿下了一个又一个语言高地。自然语言处理高歌猛进的同时图像领域不甘心了,也在跃跃欲试想要利用类似的模型学习出可以用于分类任务的有效特征来。
Transformer家族的模型基本上可以直接处理任何形式的1D数据,于是研究人员就想到将2D图像拉伸为长长的1D图像序列,利用与GPT-2模型类似的技术构建了用于处理像素序列的iGPT模型。

在详细的实验分析后研究人员发现,模型显现出对于2D图像特征的理解能力,包括有效的个体和类别的理解。模型可以在没有人工指导情况下生成连续的图像样本,实现图像补全,同时可以在多个分类数据集上实现先进的分类性能,并在ImageNet实现了非常接近最优秀无监督方法精度水平。这证明了这类生成序列模型可以作为通用的无监督学习算法。
在使用GPT-2类似的架构时,虽然需要更多的计算来达到基于卷积的非监督学习水平,然而这种方法在面对全新领域时,大型的GPT-2模型无需针对特定领域架构进行设计就可以学习出非常有效的特征和优异的性能。

下面让我先来看看iGPT应用于图像补全和样本生成任务下的一些结果,下图中红色框是原始图像,蓝色框中是模型补全的结果。可以看到模型很好的恢复出了另一半缺失的图像,并在不同的生成结果中添加了各种语义特征的对象。

模型直接生成的样本也具有明显的个体特征,包含着可以被清晰识别的目标个体,这说明模型的确理解了图像中所包含的空间信息和不同目标的特征。

从语言跨界图像的GPT


在语言领域,像GPT-2和BERT等依赖于词预测的非监督学习算法非常成功,在多个语言相关任务上取得了最好的表现。其中一个重要的原因在于下游任务(数据)是以自然的文本方式呈现的:答案往往伴随着问题(问答任务),文章往往伴随着总结(文本摘要任务)。而像素序列针对其所属的图像却没有非常明显的标签。
即使没有这种隐式的监督,GPT-2在图像任务上成功的原因也不难发现:一个足够大的transformer模型,用于训练针对下一个像素的预测,最终能够学会生成丰富的可以清晰辨认的目标样本。
当模型可以有效合成图像时,研究人员开始思考是不是可以通过“基于合成的分析”来尝试利用模型识别目标的分类。先前很多生成模型都受到了这一观点的启发,最近的BigBiGAN就是一个典型的例子,可以产生非常有效的样本和特征。在这一研究中,研究人员首先展示了更好的生成模型可以实现更强的分类表现,随后通过对GPT-2生成能力的优化,在很多情况下实现了最为优异的分类表现,为基于合成的分析思想提供了更多的佐证。
迈向通用非监督学习
生成序列模型可以被视为一种通用的非监督学习算法:由于所有的数据类型都可以被标示为字节序列,无需额外的改动,transformer可以被直接应用于任何类型的数据形式上。为了验证这种算法的通用性,研究人员将原先用于自然语言处理的GPT-2的架构直接应用于图像生成任务上,故意放弃了对图像先验知识的手动编码(包括卷积、相关注意力、稀疏注意力、2D位置嵌入等等)。
但随之而来的是,如果要实现具有竞争力的非监督学习性能,就需要更多的计算量来保证。基于对比的方法在从图像生成高质量特征的过程中的确具有更高的计算效率,然而在与最好的无监督算法比较过程中,基于对领域知识的手工编码和计算需求间可以找到有效的平衡。在没有领域知识的全新领域,大规模的计算也许是解决问题值得一试的有效手段。
实现方法
研究人员分别在ImageNet上训练了大中小三个GPT-transformer模型,分别包含了1.4B,455M,76M的参数。同时还利用ImageNet和网络数据共同训练了包含6.8B参数的iGPT-XL,由于长序列训练需要消耗非常大的计算资源,所有的训练都在较低的图像分辨率上进行(32x32,48x48,64x64)。
虽然研究人员尝试在更低的分辨率上继续减小计算资源的消耗,但先前研究认为人眼的识别分类能力会随图像尺寸的减小而迅速变弱。在先前显示模型研究的启发下,构建了9-bits的颜色表示模式,可以用较为真实的编码颜色同时代替RGB三个通道。
实验结果
研究人员使用了两种方法来评测模型的分类性能。第一种类似一个线性探测器,利用训练好的模型从图像中抽取特征进行分类,随后用逻辑回归拟合图像的标签。另一种方式是在下游任务数据上对整个模型进行调优。为了抽取特征,在某些层的输入添加了layernorm注意力模块,并在序列维度上使用了平均池化。为了调优模型,研究人员使用了layernorm transformer的输出,并在序列维度上进行平均池化来作为分类部分的输入。
由于针对序列中下一个像素的预测与图像分类并没有明显的关系,最后层的特征对于目标分类并不是最好的。从结果中可以看出一开始特征质量在迅速提升,而后随着深度的增加缓慢减小。这一现象表明transformer生成模型在运行中有两个显著的阶段,在第一阶段每个位置从它周围的上下文中获取信息以构建出有效的的图像特征;而后在第二阶段上下文特征被用于解决下一个像素的条件生成问题。在这种线性探测器下观测到的两阶段现象很容易让人联想到具有约束结构(bottleneck)的自编码器,其中间层就是手动设置用于特征抽取的结构。
特征质量与层深度具有明显的相关性,与监督模型不同,生成模型特征质量最高的位置来自于模型网络的中间部分。

随后的实验结果还显示了生成模型性能和特征质量之间的关系,研究发现随着模型规模的训练迭代的增加,生成模型的性能也会逐步增加,并直接反映在更好的特征质量(分类精度)上。
图中每条线都代表了不同的生成预训练模型在不同迭代下的结果。正的斜率表明生成模型的特征质量随着训练次数的增加而不断提高,更大的模型也显示出了更好的结果。
当研究人员在CIFAR-10, CIFAR-100, STL-10数据集上测评模型性能时,可以看到提出的方法超过了所有的监督和非监督迁移算法,同时也超过了完全调优情况下的结果。线性探测器和调优方法的精度比较,这些方法使用了监督或非监督的ImageNet迁移。结果中也包含了CIFAR上最好的端到端模型AutoAugment方法。
在不同的设置下,与不同的监督、非监督方法进行了比较。训练的图像分辨率为48x48,iGPT-L的特征维度为1536,实现了65.2%的top-1精度,已经超越了AlexNet的性能。
典型的特征维度一般都是8192维度,但训练如此庞大特征的iGPT模型非常耗时,所以研究人员将最后基层的特征叠加起来作为8192维的近似。但由于iGPT中的特征在不同层间存在相关性,所有需要更多的维度才能获得更具竞争力的效果。最终的设置使用了来自5层上的15360维的特征,实现了72%的top1精度,超过了AMDIM, MoCo, CPC v2等算法,但和最好的SimCLR还有一定的差距。
与先进自监督模型的比较,虽然需要更多的计算但是本文提出的模型还是能得到更具竞争力的结果。
由于像BERT这类基于掩膜的语言模型在众多语言任务上超越了生成模型的结果,研究人员同时还利用BERT测评图像模型。研究人员没有调优而是使用了15%的掩膜来去除像素,并从非掩膜的像素中来预测出这些结果。结果表明基于BERT模型的线性探测器具有明显的劣势但却能在调优下实现后来者居上。
BERT和iGPT-L预训练模型在32x32分辨率上的比较,可以看到生成模型在预训练阶段得到的特征更好,而BERT模型在调优后则迎头赶上。
虽然非监督学习无需人类标记数据,但近年来自监督学习取得了长足的进步,有效使用了有限的标注数据。成功的半监督学习方法都使用了像连续性正则、数据增强、准标签等手段来实现,纯粹基于生成的方法近年来没有显示出有效的竞争力。iGPT-L在这一子领域对基准数据进行了评测,结果表明在没有图像增强的情况下性能超过了Mean Teacher和MixMatch,并接近FixMatch的水平。
与精心设计的半监督方法不同,iGPT-L在没有任何数据增强和调优的情况下用于逻辑回归分类器的拟合,实现了非常好的半监督学习结果。
局限性
虽然iGPT在各种图像任务上都很成功,但却不得不提这种方法的局限性。由于使用了GPT-2中的通用序列迁移器架构,这种方法需要大规模的计算资源,iGPT-L典型情况下需要2500 V-100 GPU日的计算才能达到MoGo模型的水平,而后者只需要约70 V100 计算日的训练。
此外,这一基于transformer模型的输入分辨率较低,而其他自监督方法可以利用卷积编码器轻松地处理高维度输入。也许在未来需要构建多尺度transformer的新架构来处理输入维度受限的问题。这一工作仅仅是大规模语言模型在新领域尝试的原型验证,无需领域知识的人工编码。然而庞大的计算量消耗、卷积网络的高精度表现使得这一方法在实际工作中并不实用。
最后,生成模型会受到训练序列中偏见的影响。有的对于构建上下文关系十分有利,但有的却会造成不好的结果。例如在训练数据中男性较多就会造成生成图像中包含更多的或者完全都是男性,而不是有男有女的场景。在未来的研究中希望可以对数据进行更有效的除偏处理,并更好的理解数据偏见与模型的关系。
利用语言模型GPT对图像进行处理的想法非常独特,实验也显示了这种非监督方法的对于全新领域的通用性,在提供足够计算资源的情况下序列transformer也许能在未来为很多新领域提供解决问题新思路。

关于我“


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。



声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    将门创投

    将门是一家专注于发掘、加速及投资...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码