关注并星标
从此不迷路
Jiangmen
ECCV 2020系列文章专题
第·3·期
在做生成模型时,用一个生成网络生成了一批图,为了挑选几张最好的做demo,可能要花费大量的时间精力。为了解决该问题,中国科学技术大学在读博士古纾旸等人提出了一个全新的研究方向:生成图片质量评估(GIQA)。通过对单张生成图片质量的打分,我们可以“一键”挑出高质量的图。
本文首次提出对生成模型生成图片的质量进行定量,客观地衡量这一新的研究课题,并提出了几种解决方案和一个数据集去衡量这些方案。通过丰富的实验证明了这个课题有了宽广的应用。
另外,将门「ECCV 2020鲜声夺人云际会」火热进行中,点击这里抢先报名!
作者:中国科学技术大学在读博士生 古纾旸
这些年来,深度生成模型取得了巨大的进展,诞生了很多有趣的应用,然而,并非所有生成的结果都很完美。如下图所示,图中四个角上的图片均为StyleGAN在一只猫的数据集上生成结果。在这些图片中,既有很多高质量的猫(右下),也有很多图质量很差(完全看不出来是猫,左下)。
以往大家为了评估哪张图生成的好,往往都是要靠人来判断,这需要花费大量人力成本。在实际应用中,由于对于生成图片的最差质量缺少把控,很多产品遭受到了各种质疑。基于此,我们提出了生成图像质量评估(GIQA)这一研究方向,并希望用评估算法对生成图片的质量进行自动的打分。为了实现这个目的,我们从基于学习的和基于数据的两个角度提出了三种解决方法,利用这些方法,我们能够实现对生成图片的质量进行打分,同时实现很多有趣的应用。上图中展示了我们对一个模型的生成图片进行打分的分布结果,在右下、右上、左上、左下中我们分别展示了模型评价的从高质量到低质量的生成图片,可以观察到我们算法评价的质量基本上和人的评价是一致的。
下面将介绍我们是怎么实现用算法进行生成图片质量评价的。
基于学习的GIQA
我们发现,在训练GAN的时候,生成图片的质量会随着迭代次数的增加而变好。一个简单的想法是用迭代次数当质量的“伪标签”,通过监督式的学习,来学一个打分器,对生成图片的质量进行打分。然而,用迭代次数当质量并不精确,我们通过多个二分类器(Multiple binary classifiers)回归标签来平滑去噪,通过平均这些分类器的分数,可以极大的增强鲁棒性和泛化能力。我们称之为MBC-GIQA。
数据驱动GIQA
我们重新思考质量评估这个问题,发现“质量”很难定义好。生成模型希望能生成服从已有的真实数据分布(real distribution)的图片,因此,我们认为“质量”表征的是一张生成图片和真实数据分布的接近程度。通俗的说,就是一张生成图片有多大可能性来自于真实分布。这个概率越大,表示质量越高。因此,另一个直观的想法是对真实分布直接建模。我们根据建模是参数化模型还是非参数化模型分成两部分。
参数化模型:GMM-GIQA
我们将用高斯混合模型(GMM)来拟合真实数据分布在特征层面的特征。对于一张待测的图片I,我们先提取他特征x,这个特征x在真实数据分布中出现的概率就表示了该图的质量。
非参数化模型:KNN-GIQA:
此外,我们还可以用K近邻(KNN)来对真实数据分布在特征层面建模。对于待测图片I及其提取的特征x,若它与真实图片距离越近,表示其出现的概率高,也就表示其质量高。
在我们收集的LGIQA质量评估数据集上,GMM-GIQA能取得最好的结果,远远超过传统的图像质量评估的方法。我们也最推荐大家使用GMM-GIQA的方法。我们也展示了图片显示我们的方法筛选出的图片相比传统的方法更符合人类的认知。
我们的方法还有很多衍生应用。其中一个是模型质量评估。对于生成模型,我们可以独立地衡量生成图片的质量和多样性。一批生成图片的质量的平均值可以用来衡量模型的生成图片质量,我们称之为Quality Score(QS)。
相似的,我们用一批真实图片在生成图片中的质量衡量的平均值当成模型多样性的衡量Diversity Score(DS)。
我们用这些方法在unconditional GAN和conditional GAN上有验证了其有效性。
第二个有趣的应用是通过后处理丢弃一部分图片,让剩下的图片有更好的生成质量,我们验证了其比传统的truncation trick能更好的兼顾质量和多样性。
第三个应用是结合OHEM(Online Hard Example Mining),在GAN的训练过程中,通过给低质量生成图片更高的惩罚权重,我们可以让GAN生成出更高质量的图片。
最后总结一下,GIQA是一个新颖而且对研究和产业都很有意义的一个研究方向,我们提出了几种GIQA的方法,验证了其有效性与其具有的应用价值。相信通过本文的抛砖引玉,能有更多的人研究GIQA这个领域并对其他任务提供更多的参考价值。
//
作者介绍
古纾旸 | 中国科学技术大学 在读博士古纾旸,就读于中国科学技术大学,参加了微软-中科大的联合培养项目,现在微软亚洲研究院视觉计算组实习。主要研究方向为生成模型、图像编辑、图像质量评估等,曾在CVPR、ECCV等会议上发表论文数篇。
最后,别忘了
将门「ECCV 2020鲜声夺人云际会」火热进行中~
点击这里抢先报名!
关于我“门”
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。