创建合成CT图像数据

当数据太少而无法训练GAN时，如何生成真实的图像呢。

本文我们描述了一种从一组小样本中创建合成医学图像的方法，我们的方法基于随机部分变形，因此无需深度学习（不需要GANs）。我们创建的图像看起来非常逼真，适合创建用于深入学习的训练数据集。我们应用此方法为Covid19的CT挑战赛的开发人员创建一个合成玩具数据集。数据隐私是医学图像数据公开的一个重要挑战。病人相关信息的匿名化需要两个主要步骤。

第一步是从可识别信息中提取患者数据，这包括患者的姓名、出生日期、出生地或当前居住地。

第二步中，可能需要对图像数据本身执行匿名化，一个例子是从脑CT／MRI图像我们可以重建人脸，所以这通常需要进一步的匿名化步骤。在COVID19挑战中：https：／／www．covid19challenge．eu，我们使用的是胸部的CT数据。在这个比赛中的CT数据，不像大脑成像数据那么敏感，因为病人的头部和面部都被剪掉了，其余的图像数据本身不包含与人相关的信息，病人信息只为主要医务人员所知。我们采取了几项措施来确保Covid19挑战中的完全匿名化。我们从合作的放射部门和私人机构收到预先匿名的数据。在数据传输之后，任何剩余的元数据都会被剥离到与质询相关的最小信息集，其余的临床元数据不是特定于患者的（年龄、性别、PCR结果、入院后天数、结果类别、临床事件）。事实上，它可能与许多潜在的医院和病人有关。接下来，一个训练有素的团队会将图像分类成肺病和Covid19相关病变。根据预先定义的协议，这种注释集中进行，并伴随随后的质量保证步骤，以确保数据的一致性和高质量标记。由此产生的数据是高度匿名的，但仍然不能公布给公众。由于道德和法律要求，参与团队在任何挑战点都无法直接访问未经更改的图像数据；相反，开发人员可以通过 Eisen．ai（https：／／eisen．ai／）接口来使用用于训练和验证未公开图像数据的方法。然而，作为数据科学家，我们希望至少有一个最小的代表性数据集可用，这有助于感受数据的外观和可变性、潜在的挑战以及算法的快速原型。为了弥合这一差距，我们需要设计一种方法来发布局部开发的图像子集，该子集是高质量且具有代表性的，并且不包含患者的任何未经更改的图像数据。一个非常有意义的研究方向是生成性神经网络模型，特别是生成对抗网络（GANs），然而，这样的方法需要从图像域中获取大量的数据集，以便学习几万或几十万张图像的真实外观，这在医学成像中通常很难实现。此外，这些方法仅在二维图像中产生逼真的效果，图像大小约为512–1024的像素长度，同时基于GAN的方法需要大量的计算资源进行训练。由于注释图像少，以及在准备阶段有限的计算能力，基于GAN的方法在我们的挑战中是不可行的。相反，我们依赖一种更传统的技术：通过可变形图像配准的geodesic插值算法（geodesic interpolation）：https：／／github．com／stnava／Morpheus。这个过程的一个更常见的表达式是“图像变形”。基本思想很简单：我们为医学图像使用一个强大的、现成的非线性图像注册工具包ANTs。我们将ANTs应用于胸部CT图像，我们不会变形图像的所有内容，而只会变形一定百分比的内容，变形不是完全的，只是部分的。这个概念的一个例子如图1所示。

以上是基于部分图像变形的胸部CT合成概念。由于对图像变形进行了仔细的参数化处理，因此生成的图像在健康组织和病变区域都非常逼真。与原始图像数据一起，所有标签和患者元数据也被变形和插值（年龄、入院后天数等）。生成的图像具有完全合成的形态：合成图像中的解剖形状和尺寸与“固定”图像和“变化后”图像都是非线性差异的，因此胸部的生物标志物（如果有的话，例如椎骨形状或脊柱弯曲）也会发生非线性变化和合成。示例图像如图2所示。

以上是四个胸部CT的冠状位中心切片。你可以猜出哪些是合成的吗？文章最后给出答案。我们不想从这个toy数据集中恢复原始图像，所以我们采用了三种随机化形式：首先，toy数据集是从总数据的随机选择子集生成的。其次，考虑到成对注册的全连通有向图，我们只沿着随机的边子集进行可变形的注册。第三，从源到目标的部分变形也设置为随机百分比。考虑到源数据本身在任何时候都不可公开访问，开发人员数据集中的合成图像不再与任何原始源数据关联。当然，这种方法有一定的局限性，其中包括：拓扑错误注册：不同的拓扑注册不能处理数据中的拓扑变化，例如支气管通路的不同分支，或形状和位置不规则的Covid19病变。拓扑差异导致错误注册，这表现为合成图像中的涂抹或压缩伪影。插值伪影：由于合成体中的体素强度是通过插值计算出来的，因此图像与原始数据相比具有稍微模糊的外观。样本外插值：将运动体的体素合并到目标体素网格之外的区域中，用零值进行插值。我们用空气等效体素强度（air－equivalent voxel intensities）修复这些体素。不管怎样，所有这些伪影通常都发生在神经网络训练的增强过程中，考虑到本地开发对参与团队的便利性，这些是一个可接受的折衷方案。在挑战准备阶段，用合成数据创建一个可公开访问的toy数据集是一个重要的里程碑。我们希望通过这些数据，开发人员可以更容易地在本地对其方法进行原型化，同时了解Eisen接口。我们刚刚提供了一个Eisen代码启动工具包。https：／／gist．github．com／faustomilletari／1c1d9d671641e36e63199d26bb232d58答案：没有一个是真实的图像，所有四个图像都是合成的，并且所有四个图像都是从同一个源对象合成的。下图解释了源和目标图像以及合成图像的另一个更详细的示例（两者之间正好50％的变形）。

创建合成CT图像数据

相关阅读

磐创AI

磐创AI

举报文章问题

举报评论问题

用户登录×