• 发文
  • 评论
  • 微博
  • 空间
  • 微信

创建合成CT图像数据

磐创AI 2020-07-07 10:36 发文

当数据太少而无法训练GAN时,如何生成真实的图像呢。

本文我们描述了一种从一组小样本中创建合成医学图像的方法,我们的方法基于随机部分变形,因此无需深度学习(不需要GANs)。我们创建的图像看起来非常逼真,适合创建用于深入学习的训练数据集。我们应用此方法为Covid19的CT挑战赛的开发人员创建一个合成玩具数据集。数据隐私是医学图像数据公开的一个重要挑战。病人相关信息的匿名化需要两个主要步骤。

第一步是从可识别信息中提取患者数据,这包括患者的姓名、出生日期、出生地或当前居住地。

第二步中,可能需要对图像数据本身执行匿名化,一个例子是从脑CT/MRI图像我们可以重建人脸,所以这通常需要进一步的匿名化步骤。在COVID19挑战中:https://www.covid19challenge.eu,我们使用的是胸部的CT数据。在这个比赛中的CT数据,不像大脑成像数据那么敏感,因为病人的头部和面部都被剪掉了,其余的图像数据本身不包含与人相关的信息,病人信息只为主要医务人员所知。我们采取了几项措施来确保Covid19挑战中的完全匿名化。我们从合作的放射部门和私人机构收到预先匿名的数据。在数据传输之后,任何剩余的元数据都会被剥离到与质询相关的最小信息集,其余的临床元数据不是特定于患者的(年龄、性别、PCR结果、入院后天数、结果类别、临床事件)。事实上,它可能与许多潜在的医院和病人有关。接下来,一个训练有素的团队会将图像分类成肺病和Covid19相关病变。根据预先定义的协议,这种注释集中进行,并伴随随后的质量保证步骤,以确保数据的一致性和高质量标记。由此产生的数据是高度匿名的,但仍然不能公布给公众。由于道德和法律要求,参与团队在任何挑战点都无法直接访问未经更改的图像数据;相反,开发人员可以通过 Eisen.ai(https://eisen.ai/)接口来使用用于训练和验证未公开图像数据的方法。然而,作为数据科学家,我们希望至少有一个最小的代表性数据集可用,这有助于感受数据的外观和可变性、潜在的挑战以及算法的快速原型。为了弥合这一差距,我们需要设计一种方法来发布局部开发的图像子集,该子集是高质量且具有代表性的,并且不包含患者的任何未经更改的图像数据。一个非常有意义的研究方向是生成性神经网络模型,特别是生成对抗网络(GANs),然而,这样的方法需要从图像域中获取大量的数据集,以便学习几万或几十万张图像的真实外观,这在医学成像中通常很难实现。此外,这些方法仅在二维图像中产生逼真的效果,图像大小约为512–1024的像素长度,同时基于GAN的方法需要大量的计算资源进行训练。由于注释图像少,以及在准备阶段有限的计算能力,基于GAN的方法在我们的挑战中是不可行的。相反,我们依赖一种更传统的技术:通过可变形图像配准的geodesic插值算法(geodesic interpolation):https://github.com/stnava/Morpheus。这个过程的一个更常见的表达式是“图像变形”。基本思想很简单:我们为医学图像使用一个强大的、现成的非线性图像注册工具包ANTs。我们将ANTs应用于胸部CT图像,我们不会变形图像的所有内容,而只会变形一定百分比的内容,变形不是完全的,只是部分的。这个概念的一个例子如图1所示。

以上是基于部分图像变形的胸部CT合成概念。由于对图像变形进行了仔细的参数化处理,因此生成的图像在健康组织和病变区域都非常逼真。与原始图像数据一起,所有标签和患者元数据也被变形和插值(年龄、入院后天数等)。生成的图像具有完全合成的形态:合成图像中的解剖形状和尺寸与“固定”图像和“变化后”图像都是非线性差异的,因此胸部的生物标志物(如果有的话,例如椎骨形状或脊柱弯曲)也会发生非线性变化和合成。示例图像如图2所示。

以上是四个胸部CT的冠状位中心切片。你可以猜出哪些是合成的吗?文章最后给出答案。我们不想从这个toy数据集中恢复原始图像,所以我们采用了三种随机化形式:首先,toy数据集是从总数据的随机选择子集生成的。其次,考虑到成对注册的全连通有向图,我们只沿着随机的边子集进行可变形的注册。第三,从源到目标的部分变形也设置为随机百分比。考虑到源数据本身在任何时候都不可公开访问,开发人员数据集中的合成图像不再与任何原始源数据关联。当然,这种方法有一定的局限性,其中包括:拓扑错误注册:不同的拓扑注册不能处理数据中的拓扑变化,例如支气管通路的不同分支,或形状和位置不规则的Covid19病变。拓扑差异导致错误注册,这表现为合成图像中的涂抹或压缩伪影。插值伪影:由于合成体中的体素强度是通过插值计算出来的,因此图像与原始数据相比具有稍微模糊的外观。样本外插值:将运动体的体素合并到目标体素网格之外的区域中,用零值进行插值。我们用空气等效体素强度(air-equivalent voxel intensities)修复这些体素。不管怎样,所有这些伪影通常都发生在神经网络训练的增强过程中,考虑到本地开发对参与团队的便利性,这些是一个可接受的折衷方案。在挑战准备阶段,用合成数据创建一个可公开访问的toy数据集是一个重要的里程碑。我们希望通过这些数据,开发人员可以更容易地在本地对其方法进行原型化,同时了解Eisen接口。我们刚刚提供了一个Eisen代码启动工具包。https://gist.github.com/faustomilletari/1c1d9d671641e36e63199d26bb232d58答案:没有一个是真实的图像,所有四个图像都是合成的,并且所有四个图像都是从同一个源对象合成的。下图解释了源和目标图像以及合成图像的另一个更详细的示例(两者之间正好50%的变形)。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    磐创AI

    人工智能前沿技术分享。...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码