欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

用于医学图像生成的图像翻译 缺血性中风病灶分割--论文翻译-2 数据和方法

最编程 2024-07-14 15:05:25
...

​ 我们提出了一种方法,通过两个连续生成模型来生成显示IS病灶的大脑注释DWIs,一个用于生成真实的中风病灶标签,另一个用于将大脑分割掩模转换为DWIs。健康大脑的解剖分割mask是现成的,不需要医学培训,因为有几种自动分割算法存在。另一方面,假设GAN合成中风病灶标记引入一般的变换,以及可用病灶掩模的潜在空间表示的现实插值。最后,使用条件生成模型来生成合成图像,与无条件、潜在空间模型相比,显著改善了生成器的收敛行为。因此,我们构建了一个最小工具箱,可以很容易地通过利用GAN的插值能力来合成更多的病灶掩模,来生成更多的带注释的DWIs。该工作流程如图1所示。下面我们将详细描述所涉及的数据和方法。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dJ9e99vs-1637827182555)(C:\Users\11658\Desktop\毕业设计\参考文献\毕业设计.Attachments\参考文献\Medical Image Synthesis\图片\image-20211122170323251.png)]
图1. 训练 GAN 以从 365 个手动分割的中风患者的 DWI 的数据库中生成病变标签。使用相同的 365 个病理体积和另外 2027 个健康大脑 MR 扫描,训练各种 ITM 合成来自解剖分割掩码的 DWI。然后可以使用经过训练的 ITM 将假病灶标签与健康大脑分割掩码(真实或虚假)以生成具有高质量分割标签的合成中风 DWI。

2.1 数据

​ 巴塞尔大学医院获得了具有IS症状的804个DWI患者的数据库,机构审查委员会批准了该数据库。该数据库(今后的卒中DB)包含449例DWI阳性病例,即诊断为IS病变(患者平均年龄72±14岁;左侧ISs 200例,右侧ISs 193例,双侧ISs 56例;女194名,男255名)。DWI阳性病例随机分为训练(365例)和测试(74例)。此外,测试集中纳入了85个DWI阴性样本,共159个测试样本。2027例健康DWI扫描的单独数据库(平均年龄38±24岁;1088名女性,939名男性)用于扩大流程(正常DB)。卒中DB中的大多数图像是在1.5T扫描仪上获得的(67% @1.5T;23% @ 3t),而大多数正常DB扫描使用3t扫描仪(68% @1.5T;平均而言,卒中DB扫描的回波和恢复时间相似(TE= 90±16 ms, TR= 7400±1300 ms[正常DB] vs.TE= 100±2 ms, TR= 7000±1500 ms[卒中DB])。

​ 图像重新配准到蒙特利尔神经学研究所的标准图谱21,使用FSL的“大脑提取工具”[^23]进行头骨剥离,并使用ANTs22重新采样到标准分辨率128×128×40的体素。为了在训练过程中获得更好的稳定性,顶部和底部的四个切片被裁剪。体素强度被裁剪为99.5%,背景则被裁剪为绝对体素强度为35。最后,将信号强度重新调整到范围[−1,1]。使用3D U-Net训练通过FreeSurfer23获得的参考图像得到大脑的解剖分割,如参考文献24所述。这将整个数据库的处理时间减少到几个小时。

2.2 图像翻译

​ 虽然无条件的GAN已经被训练来产生关于脑DWIs25的最先进的结果,但它们不能自动为解剖结构或病理提供基本的真实标签。另一方面,ITM是生成模型,它根据输入的分割图生成样本。因此,Ground Truth标签可以通过构造来获得。此外,这种方法通过提供分割标签的不同实例之间的边界,有助于提高生成的图像的质量。在这一节中,我们介绍了本文研究的ITM,进一步的细节可以在附录中找到。

This cycle consistency lends its name to the

2.2.1 Pix2Pix

​ Pix2Pix是一个经过充分研究的ITM,它首先由26提出,并由27进一步开发。Pix2Pix被广泛接受为成对图像翻译的选择方法,即当两个域的图像成对出现时,就像我们的数据库一样。它先前已成功地应用于医学数据,如参考文献12132829。最初的Pix2Pix是基于U-Net架构的;然而,在模型的高分辨率导数中使用残差块2730。我们已经训练了两种架构,但发现在质量上差别不大,因此使用了基于U-Net的版本,收敛更快。该网络的损失函数是对抗性损失和L1范数重建损失的加权和:
L P i x 2 P i x = E y [ l o g D ( y ) ] + E x [ 1 − l o g D ( G ( x ) ) ] + λ ∣ ∣ y − G ( x ) ∣ ∣ L 1 L_{Pix2Pix}=E_y[logD(y)] + E_x[1-logD(G(x))] + \lambda||y-G(x)||_{L1} LPix2Pix=Ey[logD(y)]+Ex[1logD(G(x))]+λyG(x)L1
在这个公式中, E x / y E_{x/y} Ex/y表示从两个域中任意一个域获得的期望值,D表示运行在目标域上的鉴别器网络,G表示生成器网络。我们考虑重构损失权重λ的不同值,因为我们发现λ= 100(Pix2Pix100)比λ= 10(Pix2Pix10)的推荐值在质量上更有吸引力。对于鉴别器架构,我们依赖于PatchGAN263132。与普通鉴别器不同,PatchGAN不输出单一的数字来表征图像的真伪,而是输出图像的小块,因此可以在较小的尺度上为生成器提供更精确的反馈。L1 loss26能够很好地捕捉大尺度或低频特征。

2.2.2 CycleGAN

​ 利用cycleGAN33给出了一种非成对图像平移的方法。两个生成器-鉴别器对,每个图像域一个,允许模型通过重构损失进行训练,使用第一个生成器从域A转换到B,然后使用另一个生成器从B转换到A,计算结果和原始图像之间的像素(L1或L2 norm)差异。这种循环一致性为模型提供了名称,并解决了未配对数据的问题。然而,需要训练的参数数量是相当庞大的,在我们的设置中达到了4200万。为了处理大量的*参数,该模型强制一致性损失,这将惩罚生成器与一致性映射的偏差。注意cycleGAN已经成功应用于医学图像生成中的成对数据3435

2.2.3 SPADE

​ SPADE是本研究中所考虑的最新的ITM。虽然它还没有广泛应用于医学领域,但环境图像的结果是有希望的36。此外,与标准GAN基本相同的SPADE架构非常经济,与其他ITM相比减少了需要训练的参数数量。与GANs9类似,该模型绘制了一个随机潜在向量,随后在生成过程中引入差异元素。分割掩码被注入到SPADE规范化层中,这些规范化层取代了通常的批处理或实例化规范化。这将引导模型更有效地学习和更快速地收敛到一个可见的吸引人的结果36

2.2.4 Training

​ 我们已经在tensorflow37中实现了所有ITM作为2D CNN,并在一个单一的GPU (Nvidia Titan RTX 24GB)上对它们进行了100个迭代的临床正常和中风合并数据库的训练。所有模型都使用批大小为8,学习速率为2·10−4,否则按照上一节中提到的参考文献进行设置。所有模型都在同样基础上进行训练,使用可用的分割体积获得一个条件生成模型,该模型仅在模型架构上不同于其竞争者,但在训练过程中相同。最后,我们在训练集中的三维病灶掩膜上训练一个GAN作为病灶标签生成器,对其进行500次迭代的训练。在接下来的病灶注入中,所有ITM使用相同的病灶生成器。

2.3 病灶注入和DWI生成

​ 为了综合IS数据来补充现有的临床数据,我们使用2027个健康大脑DWIs的解剖分割图。原则上,我们也可以引入合成分割Ground Truth,这也有其自身的复杂性(主要与3D生成建模有关,见第III节E)。由于这不是我们分析的主要方面,我们诉诸于健康患者的可用分割。这也保证了增强体有足够的解剖学差异。这些健康的分割图随后通过注入假病灶进行修改,假病灶由3D Wasserstein GAN38生成,该GAN38在脑卒中DB的病灶mask上受训,其softmax输出通过阈值为0.5转换为硬分割编码。注入是通过调整DWI分割图的标签来实现的;然而,要求最小的病灶体积为20体素。如果不满足此要求,则生成一个新的病灶掩膜,直到生成至少20个体素的病灶。这种方法确保生成的脑容量的解剖特征是真实的,我们不会产生大量小的、分散的病变。Wasserstein损失在训练中被证明是最稳定的。此外,假设GAN产生的病变将推广以前通过合成数据进行数据增强的尝试,例如参考文献10。潜在的假设是生成模型在潜在空间中产生有意义的内插,同时对可用的临床病变mask进行简单(几何)转换的推广。

​ 生成的分割图随后被分解成二维切片,并送入ITM以生成假的DWI。通过这种方式,我们获得了每个ITM包含2027个假DWIs的数据库。图2显示了这种病灶注入过程的一个例子,它也被绘制在图形摘要中。左列显示健康的输入DWI体积,其对应的语义分割图显示在其旁边。第三列根据GAN的输出显示植入病灶标签后的分割图。随后,我们使用Pix2Pix、SPADE和cycleGAN三个itm,从这些3D分割地图的轴向切片生成了真实的DWI,如图最右边的一列所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2MT4Iu01-1637827182557)(C:\Users\11658\Desktop\毕业设计\参考文献\毕业设计.Attachments\参考文献\Medical Image Synthesis\图片\image-20211124101712757.png)]
图2 植入假病变并产生 DWI。左:原始健康 DWI 的 3 片。中左:原始体素的分割。中右:带有由 GAN 生成的植入病灶标签的分割图。右图:使用不同的 ITM 从分割图生成的 IS 体素,如图所示。

2.4 评估病灶分割

​ 为了评估各种ITM定量的性能,我们训练一个3D U-Net20分割网络在真实、真实和合成和仅合成数据库(每个上面讨论ITM),随后评估mask从训练数据中分离出来的测试集上的分割结果,包括74名中风患者和85名健康病人的DWI。图3是该过程的可视化表示。
在这里插入图片描述
图3 评价方法。一旦所有 ITM 都经过训练,它们中的每一个都用于生成一组合成 DWI,这些 DWI用作 U-Net 分割网络的训练集的一部分。最终,U-Net 在临床测试集上进行评估病例。合成流程显示在图形摘要中。

​ U-Net在生物医学图像分割中是一个完善的标准,已经被用于各种任务,包括卒中1039,并且仍然产生与国家的最先进的40相匹配的结果。如果在100个迭代内验证损失没有增加,训练将停止。为此,15%的训练数据用于验证。为了定量地比较模型的性能,我们考虑在训练历史结束时选择100个迭代的范围,以评估测试集中的每个模型。

​ U-Net的架构在附录中有详细的介绍。该网络的输出是与输入相同维数的特征图;然而,它包含与分割标签一样多的图像通道(在我们的例子中是两个:背景和病灶),通过在通道轴上应用argmax可以获得硬分割。

​ 通过交叉熵损失和DSC的组合对模型进行训练,并利用U-Net P的softmax输出和Ground Truth G进行计算
L U − n e t ( P , G ) = − D S C ( P , G ) + ∑ i G i l o g P i L_{U-net}(P,G)=-DSC(P,G) + \sum_iG_ilogP_i LUnet(P,G)=DSC(P,G)+iGilogPi

D S C ( P , G ) = 2 ∣ P ⋂ G ∣ ∣ P ∣ + ∣ G ∣ = 2 ∑ i P i G i ∑ i P i + ∑ j G j DSC(P,G)=\frac{2|P\bigcap G|}{|P| + |G|}=\frac{2\sum_iP_iG_i}{\sum_iP_i+\sum_jG_j} DSC(P,G)=P+G2PG=iPi+jGj2iPiGi

其中|·|表示集合的基数,(3)中的第二个等式适用于基于像素/体素的二进制分割映射,并且总和覆盖所有条目。为了更好的可比性,我们还报告了两个人为标注(每个人都有2年的经验)的分割之间的DSC。

​ 此外,我们还通过一些额外的指标来评估分割的质量。首先,我们评估相对体积差,因为病灶体积是对治疗患者进行分诊的一个重要标准。此外,我们评估了Hausdorff距离(HD)和平均对称表面距离(ASSD),这两个量经常被提到,用来量化预测的病变形状与Ground Truth相比的质量。曲面距离 d A ( b ) d_A(b) dA(b)定义为点b∈B与曲面A的最小欧氏距离,即b与a∈A的任意点的带间的最小距离。由此,ASSD被构造为对称和,
A S S D ( A , B ) = 1 ∣ A ∣ + ∣ B ∣ ( ∑ a ∈ A d B ( a ) + ∑ b ∈ B d A ( b ) ) ASSD(A,B) = \frac{1}{|A| + |B|} \left(\sum_{a\in A}d_B(a) + \sum_{b \in B}d_A(b)\right) ASSD(A,B)=A+B1(aAdB(a)+bBdA(b))
而(对称)HD是最大的对称表面距离,
H D ( A , B ) = 1 2 ( m a x a ∈ A d B ( a ) + m a x b ∈ B d A ( b ) ) HD(A,B)=\frac{1}{2}\left( max_{a \in A}d_B(a) + max_{b \in B}d_A(b) \right) HD(A,B)=21(maxaAdB(a)+maxbBdA(b))
最后,对模型的召回率和进精度进行了评价。所有的计算都依赖于python包MedPy[^45]。

​ U-Net在500个epoch(单独的临床数据)或300个epoch(所有其他)的临床、合成和组合数据集上进行训练,使用批量大小为5和学习速率为10−4。为了确保最佳的基准,我们对临床数据41使用标准的仿射数据增强,包括翻转、旋转、透视和平移。在某些情况下,我们进一步研究是否可以通过只使用少数临床病例微调,从而在合成病例上训练模型来提高性能。

​ 为了评估训练集大小的影响,我们进行了许多后续实验,在这些实验中,我们评估了上述指标,并计算了根据临床数据和合成数据的分数训练的模型在测试集上的均值和标准差。我们考虑了两种情况:一种情况下,我们使用正常DB的分割掩码来合成假数据,另一种情况下,我们使用428个DWI阴性中风DB案例来代替。最后,我们将这428个病例的分割四次注入不同的随机种子,生成一个与正常DB大小相当的合成数据库。此外,我们分析了不同的传统数据增强技术的影响,而不使用任何增强。