[论文摘要] FCNet:基于全卷积网络(FCN)的无监督配准模型
本文是论文《Unsupervised Deformable Image Registration with Fully Connected Generative Neural Network》的阅读笔记。
文章提出了一个基于FCN(全卷积网络)的无监督配准模型FCNet。尽管固定图像和浮动图像之间的变形场本质上是高维的,但文章假设这些变形场在实际中形成了低维流形。因此,在该模型中,神经网络由低维向量生成变形场的嵌入。这种低维流形形式避免了其他方法在图像配准过程中面临的与高维搜索空间相关的困难。该模型只需要少量训练集即可训练得到很好的效果。
图像配准的目标就是通过最大化图像之间相似性来计算固定图像和浮动图像之间的映射。在该模型中,输入是隐藏的低维向量,模型采用双线性插值而非B样条插值,这是第一个用来做无监督图像配准的基于学习的流型嵌入方法。文章的主要贡献有:1. 提出了一个采用低维向量作为输入的无监督网络;2. 通过嵌入生成了空间形变场。
模型使用FCN作为生成器,用来直接生成形变场,为了按顺序配准每个图像,采用一个低维向量(即隐藏向量(latent vector))作为输入,隐藏向量是通过自动编码器(AE)来获得的,自动编码器就是由编码器和解码器两部分构成的网络结构。由于使用自动编码器会增加时间,随机初始化输入向量。然后通过具有8个全连接层的FCN网络生成二维形变场 { d x , d y } \{dx,dy\} {dx,dy}。在优化时,不仅会更新网络参数,还会更新输入的隐藏向量。采用双线性插值或薄板样条插值来代替B样条插值。FCNet的结构示意图如下。
假设
{
I
i
}
i
=
1
n
\{I_i\}_{i=1}^n
{Ii}i=1n表示一系列要配准的图像,使用一个参数为
θ
\theta
θ的网络来计算形变场
f
θ
(
t
i
)
:
R
t
→
R
N
×
N
f_\theta(t_i):R^t\rightarrow R^{N\times N}
fθ(ti):Rt→RN×N,其中
N
N
N是像素的数量,
d
d
d是比
N
N
N小的数,表示向量的维数,文章中使用的是
d
=
25
d=25
d=25。可以将
f
θ
f_\theta
fθ称为嵌入方程,对于第
i
i
i张图片,网络以
d
d
d维隐藏向量
t
i
t_i
ti作为输入,以形变场
f
θ
(
t
i
)
f_\theta(t_i)
fθ(ti)作为输出。然后对浮动图像
I
i
I_i
Ii进行变形得到配准后的图像
I
(
f
θ
(
t
i
)
)
I(f_\theta(t_i))
I(fθ(ti))。图像序列的损失函数如下:
E
data
(
θ
,
{
t
i
}
i
=
1
n
)
=
∑
i
∣
I
i
−
I
mov
(
i
)
(
f
θ
(
t
i
)
)
∣
E_{\text {data}}\left(\theta,\left\{t_{i}\right\}_{i=1}^{n}\right)=\sum_{i} \mid I_{i}-I_{\operatorname{mov}(i)}\left(f_{\theta}\left(t_{i}\right)\right)|
Edata(θ,{ti}i=1n)=i∑∣Ii−Imov(i)(fθ(ti))∣
其中
I
i
I_i
Ii是固定图像,
I
m
o
v
(
i
)
I_{mov(i)}
Imov(i)是相应的浮动图像。下图表示在一个医学图像序列中固定图像和运动图像的选择,其中DF表示形变场。
为了对网络参数进行正则化,采用了网络权重平方和的平均值MSW进行正则化:
M
S
W
(
θ
)
=
1
N
w
∑
n
=
1
N
w
w
n
2
M S W(\theta)=\frac{1}{N_{w}} \sum_{n=1}^{N_{w}} w_{n}^{2}
MSW(θ)=Nw1n=1∑Nwwn2
其中
N
w
N_w
Nw表示网络权重参数的个数,
w
n
w_n
wn表示向量表示
W
W
W中参数矩阵的元素。优化问题可以写为以下公式:
E
(
θ
,
{
t
i
}
i
=
1
n
)
=
E
data
(
θ
,
{
t
i
}
i
=
1
n
)
+
λ
M
S
W
(
θ
)
E\left(\theta,\left\{t_{i}\right\}_{i=1}^{n}\right)=E_{\text {data}}\left(\theta,\left\{t_{i}\right\}_{i=1}^{n}\right)+\lambda M S W(\theta)
E(θ,{ti}i=1n)=Edata(θ,{ti}i=1n)+λMSW(θ)
模型采用Adam作为优化器,学习率为
1
e
−
4
1e^ {-4}
1e−4,batch size为10,
λ
=
0.1
\lambda=0.1
λ=0.1,迭代2000次。
实验
将模型在10个病人的100个MR序列的心脏电影短片上做了训练,并与moving mesh correspondence算法做了对比。采用MICCAI的MRI图像数据集ACDC2017(Automated Cardiac Diagnosis Challenge),使用Dice指标(Dice Metric,DM)评价两张图片的相似性,其定义如下:
D
(
M
,
N
)
=
2
(
M
∩
N
)
M
+
N
D(M, N)=\frac{2(M \cap N)}{M+N}
D(M,N)=M+N2(M∩N)
其取值范围是[0, 1],0表示完全不匹配,1表示完全匹配。
使用完全累积分布函数(the complementary cumulative distribution function ,ccdf)来衡量模型的置信度,其定义如下:
R
(
d
)
=
P
(
D
M
>
d
)
R(d)=P(D M>d)
R(d)=P(DM>d)
其中
d
∈
[
0
,
1
]
d\in[0,1]
d∈[0,1]。
实验结果如下表,Dice的格式为:均值 ± \pm ±标准差。
当序列 I i I_i Ii被选做浮动图像的时候, I i + 1 I_{i+1} Ii+1被选作固定图像。
上图中蓝色和红色分别是通过FCNet和baseline模型得到的结果。实在没出来是配准的过程……感觉更像是分割,绝了……