• 发文
  • 评论
  • 微博
  • 空间
  • 微信

照片秒变icon?日本研究员提出基于生成对抗网络的Iconify模型来帮忙!

将门创投 2020-05-21 09:42 发文

From:arxiv   编译:T.R

图标(icon)广泛应用于各种类型的平面媒体中,其简单抽象的形象表示、简明扼要的信息表达受到了很多人的青睐。但一个好看、生动的优秀icon需要设计师基于多年的设计经验,对目标进行充分的抽象、变形,重新设计成更光滑圆润、形象生动的图标化结果。如果对于没有设计经验的人来说,从一张照片得到一个好看的图标并不容易。

为解决设计师的这一痛点,来自于日本九州大学和电气通信大学的研究人员提出了基于生成对抗网络的Iconify模型,可以将输入的图像转换为较为形象简洁的图标,为图标生成和构建提出了新的可行方向。

图像主体的图标化

图标化指的是对图像中的目标进行抽象和简化的过程,下图显示了一些典型的图标。与原始多代表的目标相比,图标不仅仅是图像的二值化,同时还对原始图像进行了有效地抽象和简化设计。例如人体的头部都用一个圆来代替、复杂形状和细节被简化成了简单的几何结构。图形设计师的专业能力就在于省略、抽象和简化复杂的细节而保留原始目标中具有辨识力的典型特征。

研究人员希望利用机器学习技术将照片直接转换为图标,其核心在于机器学习算法是否可以有效捕捉和模拟人类设计师对于目标的抽象和简化能力,来构建美观的图标。但实现这一目标需要解决以下三个困难:


1. 首先针对真实图像和图标没有与之相匹配的配图图像,真实图像和图标间没有直接对应的匹配关系使得研究人员无法使用基于U-Net的直接转换方法,而需要在数据集间寻求两个不同域间的对应关系;


2. 其次两种图像间具有较大的风格差异,例如人物的头部在真实图片中具有很多细节特征,而在图标中则用简单的原型代替,这就需要模型能够学习出两种风格间的映射;


3. 此外两种图像的外形特征也不尽相同,图标虽然是简化的平面图形,但不同目标的形状差异也很大。对应的照片也是各具特色、颜色不一的。


研究人员将图标生成任务视为在照片和图标间实现域迁移的生成任务。由于没有对应的配对数据集,研究人员采用了基于CycleGan和UNIT等方法来构建模型,学习出从图像到图标的图标化能力。


在神经风格迁移提出后,各种模型都在利用深度学习的创作艺术作品上展现出了强大的能力,特别是基于生成对抗网络的模型引领了风格化的研究潮流。其中Pix2Pix就是其中著名的代表,它可以利用配对图像训练出非常好迁移结果,但配对图像的需求限制了它在缺乏对应数据集领域的应用。而CycleGan和UNIT这类模型却可以学习出两个图像数据集间的映射关系,而无需一一对应的图像对数据对模型进行训练。

CycleGAN定义了两个图像集合X、Y间的映射,在不需要给定配对图像的情况下进行训练。它包含了两个生成器G和F以及两个判别器Dx和Dy,也就是两个生成对抗网络同时训练将X和Y两个不同的图像域耦合在了一起。在训练时一共定义了三个损失函数,包括用于训练GAN的对抗损失、用于双向训练XY间映射的循环连续性损失、以及保证颜色连续性的特性映射损失。


UNIT则可视为CycleGAN的拓展形式,实现了两个图像集合XY间的风格转换。UNIT与CycleGAN的主要不同在于需要满足原始图像与迁移后图像的表示变量需要在隐空间中保持一致。

下图展示了其基本架构,包含了两个编码器和两个生成器、以及两个判别器。这些模块利用VAE损失、对抗损失和循环损失共同训练,VAE损失的引入使得隐变量可以编码原始图像的足够信息。


为了训练CycleGAN和UNIT模型实现从图像到图标的迁移任务,研究人员利用了两个模型原始的代码代码版本进行了训练。其中图像数据来自于MS COCO数据集,从中选取了5000张图片包含11041个目标,并将其裁剪成了256x256大小的图像;而图标数据则来自于两方面,一方面利用你了ppt内自带的883张图片,并通过数据增强扩充到了8830张。此外,研究人员还使用了LLD数据集中的图像,包含了与本任务类似的logo风格迁移的数据集,研究人员选取了其中的20,000张并将其尺寸缩放成了256x256大小作为训练数据。

下图显示了数据集中的典型样本:

AI图标化的新技能

为了验证这两种模型是否可以对图像进行有效的图标化,研究人员分别对人体图像、通用目标和基于logo训练的图标化模型进行了实验。


针对人体的图标化,研究人员仅仅利用了包含人体的图像和对应的图标进行训练。通过分类限制训练样本的多样性可以看到GANs图标化的能力。在训练过程中仅仅使用了包含部分人体的图像,同时去除了多人的图标,最终利用从72张icon增强的1440张图标和1684张真实人体图像进行了训练。下图显示训练的数据样本


下面分别比较了CycleGAN和UNIT模型对于人体图标化的结果,可以看到两种模型都可以较好地图标化人体图像,实现了对于人体的有效抽象。其中CycleGAN生成额结果更好,对于头部和身体的形状更为简化。但针对面部特征的图标化不太好主要是由于训练图标数据中缺乏有效的面部细节特征。


由于CycleGAN具有循环损失,所以研究人员还对图标化后的结果进行了图像化,下图显示了图像到图标再到图像的生成结果,以及图标到图像再到图标的结果,显示了模型对于图像和图标抽象能力的理解。


随后研究人员将图标化的过程拓展到了COCO中包含的通用物体上。由于物体的形状各异、颜色纹理各不相同,模型需要处理的映射更为复杂。为此研究人员利用了由粗到精的策略来训练CycleGAN,依次在32x32,64x64,128x128,最终在256x256上进行训练。

下图显示了最终训练后生成的结果,其中橘色框中显示了未参与训练的测试图像及其结果,很好地抽象并描述了图像中的目标。


尽管图像为图标提供了较多的设计信息,但其结果与第一个任务中的图标相比还不够抽象,与标准图标还有所差异。例如上图中的钟表图像就抽象的不太好。由于没有设计的通用准则和标准,针对常规物体的图标化显示出了较大的差异性。


为了进一步验证这种方法,研究人员还利用了彩色的logo数据集LLD对图标化任务进行了训练,使得CycleGAN生成彩色的图标。与上一个任务相比,生成图标的质量在色彩的帮助下有了很大的提升,例如下图中的狗子图标化结果就比上图中要好很多,虽然颜色可能与原始图像有差异,但整体的配色与形状和我们的审美协调。


不过上图中蓝色框内也显示了一些错误图标化的例子,例如钟表没有太多变化,第二个过于抽象化,第三、四个生成了文字,第五个则没有保留明显了目标信息。这主要是由于目标的背景、噪声以及LLD的logo数据带来的文字信息造成了一定影响。


但不可否认这种图标化的方法可以有效地对目标图像进行抽象处理,为设计师提供了创意参考、也为没有设计基础的小伙伴们提供了快速生成高质量图标的好办法。吧~

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    将门创投

    将门是一家专注于发掘、加速及投资...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码