结合张量与互信息的混合模型多模态图像配准方法

Download PDF 打印本文

文章快速检索

高级检索

引用本文

李培, 姜刚, 马千里, 等. 结合张量与互信息的混合模型多模态图像配准方法[J]. 测绘学报，2021，50(7)：916-929. DOI: 10.11947/j.AGCS.2021.20200492

LI Pei, JIANG Gang, MA Qianli, et al. A hybrid model combining tensor and mutual information for multi-modal image registration[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(7): 916-929. DOI: 10.11947/j.AGCS.2021.20200492

结合张量与互信息的混合模型多模态图像配准方法

李培¹, 姜刚^1,2, 马千里¹, 薛万峰¹, 杨伟华¹

1. 长安大学地质与测绘工程学院, 陕西西安 710054;
2. 西部矿产资源与地质工程教育部重点实验室, 陕西西安 710054

收稿日期：2020-10-21；修回日期：2021-04-21

基金项目：国家自然科学基金（41977231）

第一作者简介：李培(1996-)，男，硕士，研究方向为多模态图像配准。E-mail: 1239608938@qq.com

摘要：多模态图像之间存在显著的非线性强度差异，并且图像会因为噪声而退化，因此，多模态图像自动配准是一项具有挑战性的任务。为了解决这两个问题，本文提出一种多模态图像自动配准方法，该方法分为预配准和精配准两个阶段。在预配准阶段，通过改进SIFT算法来大致对齐多模态图像。在精配准阶段，首先，利用块Harris检测器在预配准后的参考图上提取均匀分布的特征点。然后，通过各向异性结构张量捕捉多模态图像中的结构信息来构建特征描述符，该特征描述符对噪声具有稳健性。更进一步，本文结合张量方向平行度和梯度互信息提出了一种相似度准则（tensor orientation and mutual information，TOMI）。最后，本文用多种模态图像（包括Optical，LiDAR，SAR和Map）来评估提出的方法。试验结果表明，本文提出的方法对非线性强度变化和噪声具有较好的稳健性，并且匹配效果优越。

关键词：各向异性滤波多模态图像结构张量相似度准则图像配准

A hybrid model combining tensor and mutual information for multi-modal image registration

LI Pei¹, JIANG Gang^1,2, MA Qianli¹, XUE Wanfeng¹, YANG Weihua¹

1. College of Geology Engineering and Geomatics, Chang'an University, Xi'an 710054, China;
2. Key Laboratory of Western China's Mineral Resources and Geological Engineering, Ministry of Education, Xi'an 710054, China

Foundation support: The National Natural Science Foundation of China (No. 41977231)

First author: LI Pei (1996-), male, master, majors in remote sensing image processing. E-mail: 1239608938@qq.com.

Abstract: There are significant nonlinear intensity differences between multi-modal images. Moreover, the noise in these images will cause image degradation. Therefore, the automatic registration of multi-modal images is a challenging task. To address the two problems, this paper proposes a multi-modal image automatic registration method, which is divided into two stages: pre-registration and fine registration. In the pre-registration stage, an improved SIFT algorithm is used to roughly align multi-modal images. In the fine registration stage, the block Harris detector is first used to extract evenly distributed feature points on the pre-registered reference image. Then, the structure information in the multi-modal images is captured by the anisotropic structure tensor to construct a feature descriptor, which is robust to noise. Furthermore, a similarity criterion named TOMI (tensor orientation and mutual information) is proposed combining the tensor orientation parallelism and gradient mutual information. Finally, Multi-modal images (including Optical, LiDAR, SAR, and Map data) are used to evaluate the proposed algorithm. The experimental results show that the method proposed in this paper is robust to nonlinear intensity differences and noise, and the matching effect is superior.

Key words: anisotropic filtering multi-modal images structure tensor similarity criterion image registration

随着遥感技术的发展，多模态图像的数量显著增加。不同模态数据之间具有互补性，充分利用这些数据十分必要^[1-2]。整合这些多模态数据的关键步骤是图像配准，即将不同时间、从不同角度或由不同传感器拍摄的具有重叠场景的两幅或多幅图像进行配准，是图像处理(如图像拼接^[3-4]、目标识别^[5]和变化检测^[6])的一项基本任务^[7-8]。由于不同模态图像的成像机制不同，多模态图像间存在显著的辐射量变化，导致同一地物在不用模态图像中的强度呈现出非线性畸变，这使得控制点的检测变得困难许多。

总的来说，多模态图像配准可以分为基于特征的和基于区域的^[9]。基于特征的方法对图像几何畸变的稳健性更强，而基于区域的方法对图像之间的非线性强度差异有更好的抵抗力^[10]。基于特征的方法提取稳定、可重复、显著的特征，利用特征之间的相关性来确定最优对齐，它们在多模态图像配准上的主要问题是依赖于图像之间提取重复率高的特征^[11]。为了克服这个问题，文献[12]针对光学和SAR图像的固有特点，将光学和SAR图像放在两个Harris尺度空间中检测特征点，提出了OS-SIFT算法。文献[8]提出了PSO-SIFT算法，引入了一种梯度定义，并结合特征点的位置、尺度、方向信息来增强对应点的数量。文献[13]提出了RIFT (radiation invariant feature transform) 算法，利用相位一致性(phase congruency, PC)^[14]进行特征点检测，并提出了最大索引图(maximum index map, MIM) 用于特征描述。不过，这些基于特征的方法对非线性强度差异并不具有较好的稳健性，配准精度较低。

基于区域的配准方法是在遥感图像中定义一个模板，然后利用不同的相似度准则搜索最优对应。常用的相似度准则包括误差平方和(sum of squared differences, SSD)、归一化互相关(normalized correlation coefficient, NCC) 和互信息(mutual information, MI)^[15]。文献[16]提出将互信息与局部梯度信息合成项相乘获得新的相似度准则，提高了配准的稳健性。文献[17]用MI来解决复杂的SAR和光学配准问题。文献[1, 18]利用图像的几何结构，构建对非线性强度差异有稳健性的密集描述符，在多模态图像配准中取得了较好的效果。然而，尽管这些方法已经在多模态图像上实现了自动配准，具有高精度配准效果，但仍存在不可忽视的局限性。首先，这些基于区域的方法都需要地理坐标进行正射校正。而且，这些局部描述符或相似度准则的稳健性不强，容易受到噪声影响。

综上所述，多模态图像间存在非线性强度差异与噪声影响，导致多模态图像配准中存在配准精度低、描述符和相似度准则稳健性较差等问题。针对这些问题，本文提出了一种基于混合模型的多模态图像自动配准方案。该方法利用基于特征的方法对齐图像，采用基于区域方法进行高精度配准。在基于区域的方法中，本文采用张量捕捉细微的结构变化，构建密集描述符。但是张量对噪声比较敏感，对它采用各向异性滤波器进行处理，可以降低噪声影响，避免不必要的模糊。在相似度准则方面，张量方向平行度可以很好地解决图像间强度反转的问题。为进一步提升相似度准则的稳健性，本文将张量方向平行度与梯度互信息相结合，充分利用图像结构信息与统计信息。

1 本文方法

本文算法包括预配准与精配准两方面，流程如图 1所示。

图 1 本文方法流程 Fig. 1 Flow chart of the proposed method

图选项

1.1 预配准

为了使SIFT算法^[19]适用于多模态图像配准，可以大致对齐多模态图像对^[20]，本文对SIFT算法作出以下3点改进。

(1) 多尺度Harris角点代替DoG尺度空间局部极值点：SIFT算法在DoG尺度空间中检测局部极值点作为特征点，而DoG和Hessian矩阵都依赖于二阶导数，会被SAR影像中的散斑噪声严重破坏，不能检测出SAR图像中可靠的特征点^[21]。相比之下，多尺度Harris函数^[22]是基于一阶导数计算的，Harris角点具有更好的稳定性和重复性。

垂直方向多尺度Sobel算子公式如下

(1)

(2)

(3)

式中，M和N表示尺度α_i下处理窗口的大小；(x, y)表示中心点的位置；I代表原图像素强度；G_{v, α_{_i}}代表α_i尺度下的垂直梯度。图 2(a)展示了垂直处理窗口，图 2(b)展示了垂直多尺度Sobel算子。

图 2 Sobel滤波器 Fig. 2 Sobel filter

图选项

梯度幅值和梯度方向计算如下

(4)

(5)

多尺度Harris矩阵和函数定义如下

(6)

(7)

式中，是标准差为的高斯核函数；*表示卷积操作；d是一个经验常数；det表示矩阵行列式的值；tr(·)表示矩阵的迹。

本文计算多尺度Harris函数得到原图的多尺度表示，尺度层数M=5，尺度α_i=α₁·c^i-1i∈[1, 2, …, M]。图 3展示了两种方法的特征点检测示例，可以看出，Harris检测出来的特征点都落在角点或高亮点上，而DoG方法检测出来的特征点大多落在同质区域。

图 3 LiDAR-Optical图像上的特征点点检测 Fig. 3 Feature point detection on LiDAR-Optical images

图选项

(2) 梯度方向修改：多模态图像之间往往存在非线性强度差异，会出现梯度反转现象。因此，对SIFT算法的梯度方向进行了修改，将方向限制在区间[0, 180°)，公式如下

(8)

(3) 平滑多尺度Harris函数：采用的核函数，对Harris函数在尺度方向上进行平滑处理，可以减少局部几何形变和图像间强度畸变的影响^[11]。公式如下

(9)

基于以上改进，可以提高SIFT算法在多模态图像配准上的正确匹配率。如图 4所示，改进的SIFT算法够提供多于4个对应点，确定投影变换参数。

图 4 用改进的SIFT算法提取的对应点 Fig. 4 Corresponding points extracted with the improved SIFT algorithm

图选项

1.2 精配准

本节详细描述了特征描述符和相似度准则的构建。精配准阶段主要包括以下6个步骤：

(1) 在预配准参考图上采用块Harris算子提取特征点。

(2) 计算预配准后参考图和待配准图的结构张量。

(3) 采用一种各向异性滤波器来增强结构张量并计算张量方向图。

(4) 根据特征点坐标，在张量方向图上分别确定模板窗口和搜索区域。

(5) 利用相似度准则，将模板窗口与搜索区域内候选窗口进行比较，确定对应点的位置。

(6) 利用步骤(5)所确定的对应点计算转换参数，对图像进行变换。

1.2.1 特征点检测

在参考图中使用块Harris算子获得均匀分布的特征点。先将参考图像分成n×n的不重叠的块，计算图像块中每个像素的Harris值。然后，将每一块中像素点的Harris值从高到低排列，取出得分最高的k个点作为特征点。整幅参考图像上提取n×n×k个特征点，在待配准图像上可以找到n×n×k个大致对应的点。在本文实验中，采用n=5, k=8的参数设置。

1.2.2 密集描述符构建

在本节中，通过各向异性结构张量构建特征描述符，具体步骤如下。

(1) 计算张量。张量表示图像边缘的大小和方向信息，虽然边缘的大小会因对比度变化而改变，但随着光照或对比度改变，方向保持不变，所以利用张量提取图像结构信息。经典结构张量表达式为

(10)

式中，G_ρ是标准差为ρ的高斯核函数；f为强度图像；f_x和f_y分别表示x方向和y方向的梯度；符号*表示卷积操作；符号是梯度算子；上标T表示转置操作。

(2) 计算各向异性滤波器。虽然经典结构张量在一些图像处理领域(如：光流估计和纹理分析^[23])已经证明了它的价值，但是它也有一些缺点。经典结构张量采用高斯卷积的方法平均邻域内的信息，会导致结构的模糊和错位，因此，它不能广泛用于各种不同的数据^[24]。本文采用文献[25]中提出的一种沙漏状的滤波器来避免不必要的模糊

(11)

式中，σ′表示高斯核的尺度，可以决定有效邻域大小；ρ决定方向的强度，一般取值在[0.3, 0.7]之间，下面试验中ρ=0.7，(x, y)是有效邻域内点的坐标；(x₀, y₀)代表有效邻域中点的坐标。式(11)可以分成两部分，左边部分就是高斯滤波器，右边部分则是沙漏状滤波器，图 5是不同ρ值下的沙漏状滤波器。

图 5 沙漏状滤波器 Fig. 5 Hourglass filter

图选项

式(11)所定义的滤波器是随局部边缘方向θ(x₀, y₀)进行旋转的，文献[18]中简单的采用梯度方向来表示局部边缘方向，当图像的信噪比较低，其派生的局部梯度向量有噪声时，就会出现问题^[26]。张量方向能够捕捉更细微的结构，本文采用张量方向来表示局部边缘方向，计算公式如下

(12)

(13)

将张量方向与梯度方向进行对比。如图 6所示，可以看出梯度方向图噪声较多，而张量方向图则清晰的表示出图像结构信息。说明图中的许多方向并没有被梯度方向捕捉到。显而易见，张量方向图连续性比较好，能捕获到更多的方向，可以体现出物体更细微的结构变化。产生梯度方向与张量方向差异的原因是，梯度方向仅考虑单个位置，而张量方向考虑邻域方向来对某一点进行描述，恢复了方向变化的连续性。

图 6 张量方向与梯度方向对比 Fig. 6 Comparison between tensor orientation and gradient orientation

图选项

(3) 计算各向异性结构张量。本文采用式(11)所描述的滤波器对结构张量进行处理，采用类似空洞卷积的方法，如图 7(b)所示，比图 7(a)展示的传统的滤波器卷积过程更具有计算效率。通过该方法得到各向异性结构张量，公式如下

(14)

图 7 卷积方法 Fig. 7 Convolution method

图选项

式中，H表示有效邻域，分别以一定的间隔来取x和y。

利用式(14)得到各向异性结构张量，计算出各向异性张量方向θ′，公式如下

(15)

为了计算效率，使用式(16)代替式(15)计算各向异性张量方向θ′，公式如下

(16)

式中，θ′范围是。各向异性张量方向θ′便是图像像素级描述符。

1.2.3 搜索策略

在得到张量方向图之后，便可以进行模板匹配处理。传统的全局搜索方式计算效率太低。因此，本文采用文献[1-2]中提出的快速模板搜索策略。即以参考图的张量方向图上特征点为中心取w×w大小的模板窗口，在待配准图的张量方向图以粗略对应点为中心取(w+20)×(w+20)大小的搜索窗口。

1.2.4 相似度准则

多模态图像间存在方向反转，文献[18]发现即使方向反转，但方向间的平行度和垂直度是不变的，提出了一种利用方向平行度的方法。同时受文献[16]启发，本文基于方向平行度，结合梯度互信息，提出了TOMI。该相似度准则综合考虑了图像梯度分布和结构方向，可以更好地保存图像的结构信息，对于多模态影像具有较好的稳健性。

张量方向平行度准则如图 8所示，计算如下

(17)

图 8 方向平行度曲线 Fig. 8 Orientation parallelism curve

图选项

式中，n是模板窗口T与候选窗口C的行列数；θ′_T(i)和θ′_C(i)分别是模板窗口张量方向向量和候选窗口张量方向向量；方向差|θ′_T(i)-θ′_C(i)|的范围是[0, π]。

互信息作为一种相似度准则，可以用熵表示，熵的定义如下

(18)

(19)

式中，H(T_g)是T_g的熵；T_g和C_g分别表示模板窗口T和候选窗口C的梯度幅值；H(T_g, C_g)是T_g和C_g的联合熵；p_{T_g}(t)是边缘概率质量函数(probability mass function)；p_{T_g, C_g}(t, c)是联合概率质量函数。本文采用归一化梯度互信息，公式如下

(20)

结合图像梯度分布和张量方向，TOMI相似度准则公式如下

(21)

(22)

式中，U_c为搜索区域中的所有候选窗口。

为了说明TOMI在多模态图像匹配方面的优势，将其与STV^[18]、HOPC、MI、NCC 4种方法通过相似度曲面进行对比，结果如图 9所示。测试中使用了两对高分辨率的图像(Optical-SAR和LiDAR-Optical)，图像之间存在非常明显的非线性强度差异，模板大小均采用65×65像素。图 9中，虚线矩形框代表的是搜索区域，实线矩形框代表与模板匹配的目标窗口，相似度曲面的中心对应正确的匹配位置。

图 9 相似度曲面 Fig. 9 Similarity surface

图选项

图 9显示了这些模板匹配方法的相似度曲面。可以明显看出，在Optical-SAR图像对进行测试时，5种方法都能找到正确匹配，不过HOPC、MI和NCC的相似度曲面中均出现了多个峰值，这会对匹配结果产生干扰，只有STV和TOMI是单峰值。对比STV和TOMI两种方法的相似度曲面，TOMI的更显著。在LiDAR-Optical图像对进行测试时，尽管5种方法均能找到正确匹配，不过TOMI和MI表现更好，全局最大值显著。这初步证明了本文提出的相似度准则在多模态图像配准上具有更强的稳健性。

2 本文试验

首先评估预配准算法与精配准算法在多模态图像上的匹配性能，将精配准算法与其他多模态图像匹配算法进行比较分析。然后，讨论本文算法对噪声的稳健性强弱以及模板大小对匹配性能的影响。本节对算法精度的评估采用两种方法：①对棋盘图和放大子图进行目视检查；②采用均方根误差(root mean square error, RMSE) 和正确匹配率(correct matching rate, CMR) 这两种量化准则对配准结果进行评估。

2.1 数据集

利用5组多模态图像评价本文提出算法的有效性。这5组图像被分成4类：① Visible-Infrared；② LiDAR-Visible；③ Optical-SAR；④ Map-Optical。这5组图像对之间均存在明显的非线性强度差异，包括低分图像(240 m)和多种高分图像(0.5~3 m)，覆盖了包括结构信息丰富的城市区域，以及结构信息缺乏的山川湖泊，甚至还有云雾干扰。表 1给出了测试数据的信息。

表 1 测试数据描述 Tab. 1 Descriptions of the test data

category	case	image pair	size	GSD/m	date
Visible-Infrared	1	Daedalus visible Daedalus infrared	512×512 512×512	0.5 0.5	2000-04 2000-04
Visible-Infrared	2	Landsat 4-5 TM, band 3 Landsat-7 ETM+, band 5	611×614 614×611	240 240	1996-06 2000-07
LiDAR-Visible	3	LiDAR height airborne visible	524×524 524×524	2.5 2.5	2012-06 2012-06
Optical-SAR	4	Google Earth, Optical TerraSAR-X	528×520 534×513	3.0 3.0	2007-11 2007-12
Map-Optical	5	Google Maps Optical	500×500 500×500	- -	- -

表选项

(1) Visible-Infrared：选用了2对Visible-Infrared图像对进行试验：①城市区域的高分图像，具有丰富的结构和边缘信息；②低分图像，该图像对被云雾遮挡，并且时态相差一年以上，具有显著的非线性强度差异，对配准很具有挑战性。

(2) LiDAR-Visible：选用一对城区LiDAR-Visible图像对，从2幅图像的强度特征上可以看到很大的差异。此外，LiDAR强度图受噪声影响，导致图像退化，给配准增加了困难。

(3) Optical-SAR：选用一对覆盖城区的高分图像，图像对中存在非常丰富的结构信息。不过，城区有高层建筑，局部畸变明显。同时，SAR图像存在严重的散斑噪声影响，图像中的精细结构被散斑噪声破坏，使得配准较为困难。

(4) Map-Optical：这对图像的强度差异十分显著，包含的纹理信息很少。并且，地图上标注一些文字，这些给配准带来了挑战。

2.2 预配准试验

遥感图像之间的旋转和尺度差异是影响配准精度的主要因素。上述的试验数据没有显著的旋转和尺度差异，为了验证预配准算法对于图像旋转、尺度差异的稳健性，进行了模拟试验。将上述试验数据case 1-case 5中的待配准图像先分别采用θ=[10°, 20°, 30°]进行旋转，再分别对旋转后的图像采用比例因子s=[0.9, 0.8, 0.7]进行缩小，以此模拟图像对之间的旋转、尺度差异。

由图 10可以看出，随着角度、尺度差异的增大，预配准算法找到的对应点的数量逐渐减少。不过，预配准算法始终能找出足够多的对应点(大于4个对应点)，让图像可以进行投影变换，对齐图像对。

图 10 不同角度、不同尺度下的多模态图像中的对应点 Fig. 10 Corresponding points of multi-modal images at different angles and scales

图选项

本文采用RMSE和CMR对预配准进行定量化评价。对于预配准而言，点位误差小于3个像素视为正确匹配。

由表 2中可以看出，预配准在处理case 1和case 2中的Visible-Infrared图像对时具有较好的配准效果，能够抵抗多模态图像中的非线性强度差异。在case 3-case 5中，图像对受噪声影响，RMSE较大，但是都在10个像素以内，可以大致对齐具有旋转和尺度差异的多模态图像。

表 2 预配准精度评定(RMSE, CMR) Tab. 2 Accuracy evaluation of pre-registration(RMSE, CMR)

图像对	θ=0°	s=1	θ=10°	s=0.9	θ=20°	s=0.8	θ=30°	s=0.7
case 1	1.831 4	0.92	2.793 3	0.79	1.531 8	1.00	2.169 1	0.90
case 2	1.625 1	0.96	1.499 4	1.00	1.738 5	0.93	1.855 1	0.89
case 3	2.001 6	0.88	5.042 3	0.64	1.540 5	1.00	4.535 3	0.50
case 4	5.007 9	0.29	9.533 3	0	5.860 1	0.25	6.433 3	0.40
case 5	3.188 4	0.40	2.097 5	0.90	5.125 8	0.40	1.1286	1.00

表选项

2.3 精配准试验

在精配准阶段，本文先用目视检查对算法进行评估。精配准采用32×32像素的模板大小，得到测试数据的棋盘图，可以直观地看出精配准的配准效果(如图 11所示)。图 11中，对比预配准与精配准的棋盘图可以看出，预配准已经将参考图和待配准图大致对齐。不过从放大子图可以看出，预配准之后还有一些局部区域没有对齐。而精配准处理后，没对齐的区域都已经精确对齐。

图 11 预配准与精配准对比 Fig. 11 Comparison of pre-registration and fine registration

图选项

目视检查之后，再对精配准算法进行量化评价，将对应点的点位误差小于1个像素视为正确匹配。精配准算法作为一种模板匹配方法，将它与最先进的模板匹配算法(STV、HOPC、MI和NCC)进行比较，来验证其多模态图像匹配的能力。其中STV和HOPC都是利用结构信息来进行模板匹配，且取得了较好地配准效果。MI和NCC是基于强度的经典模板匹配方法。

(1) STV提出了一种基于结构张量投票方案的密集特征描述子，能够很好地抵抗由于强度畸变引起的梯度反转现象，对多模态图像间存在的非线性强度畸变具有较好的稳健性。

(2) HOPC扩展相位一致性模型以建立其方向信息，构建了一个密集描述子，能够捕捉图像的几何结构和形状特征，在多模态图像配准上取得了较好的效果。

(3) MI模板匹配算法基于互信息的最大化，对非线性强度差异具有较好的稳健性。不过，MI对直方图bin的大小很敏感，将直方图bin设置为32，在数据集上取得最佳的匹配性能。

(4) NCC是一种常用的图像匹配算法的相似度准则，它不受线性强度变化的影响。

从表 3可以看出，在case 1中，图像之间存在梯度反转现象，TOMI和STV利用张量方向平行度可以很好地处理梯度反转。TOMI该图像对上的配准效果最佳，其次是STV、MI、HOPC及NCC，显示出TOMI在表达结构这方面的优势。在case 2中，这对低分图像包含纹理信息较少，故TOMI的配准效果稍微逊色于MI。由于NCC对线性辐射差异具有不变性，不能很好地处理图像间复杂的强度变化，所以NCC在该图像对上配准失败。在case 3中，LiDAR-Visible图像对之间存在噪声影响以及非常显著的强度差异。TOMI表现最好，只有TOMI和HOPC能达到亚像素精度，明显优于其他3种算法，STV其次，而MI和NCC在该图像对上配准效果很差。因为测试的图像对之间存在非常丰富的结构信息，使得3种基于结构的方法(TOMI、STV、HOPC)在匹配性能上优于两种基于强度的方法(MI、NCC)。在case 4中，是一对城区的Optical-SAR图像对。TOMI配准精度和正确匹配率都是最高的，原因是TOMI具有良好的噪声稳健性，可以很好地抵抗SAR图像上存在的散斑噪声的影响。同时图像对中存在非常丰富的几何结构和轮廓信息(如建筑和道路)，使得TOMI可以很轻易捕捉到这些结构信息来找对应点。在case 5中，Map-Optical图像对之间除了边界几乎没有任何共享的特征，使得TOMI、STV和HOPC的配准精度低于MI和NCC。综合而言，相比较其他4种算法，TOMI算法结合图像的统计特性与纹理特征，在结构表达方面更具有优势，更能适应非线性强度变化，对图像噪声具有更好的稳健性，取得了最好的配准效果。

表 3 精配准精度评定(RMSE, CMR) Tab. 3 Accuracy evaluation of fine registration(RMSE, CMR)

图像对	TOMI		STV		HOPC		MI		NCC
图像对	RMSE	CMR	RMSE	CMR	RMSE	CMR	RMSE	CMR	RMSE	CMR
case 1	0.496 7	1.00	0.543 7	0.96	0.773 5	0.74	0.522 6	0.90	1.605 2	0.44
case 2	0.479 2	0.92	0.474 1	0.96	0.674 0	0.82	0.431 2	0.97	failed
case 3	0.960 6	0.65	1.219 7	0.48	0.975 3	0.59	2.232 2	0.06	2.809 1	0
case 4	0.722 1	0.81	1.005 8	0.57	0.979 3	0.62	0.990 5	0.58	1.411 6	0.14
case 5	1.212 9	0.76	1.263 4	0.73	0.985 2	0.65	0.629 2	0.93	0.763 2	0.87

表选项

2.4 噪声稳健性试验

检验所提出的相似度准则对噪声的稳健性，在case 1的图像对上进行模拟试验。通过给图像对添加均值为0，方差为v=[0.1%, 0.2%, …, 1%]的高斯噪声重复进行5次，生成5组噪声图像。用噪声图像的平均正确匹配率来对TOMI、STV、HOPC、MI和NCC算法的噪声稳健性进行评价。算法模板大小都选用64×64像素，对应点的点位误差小于1个像素视为正确匹配。

图 12展示了5种模板匹配算法随噪声等级提高，平均正确匹配率的变化。在增加噪声的条件下，TOMI在5种算法中表现最优，平均正确匹配率一直是最高的，其次是STV、MI、HOPC和NCC。多模态图像往往带有大量的噪声，TOMI能够很好地适应噪声引起的图像退化。对比基于结构张量的模板匹配算法，TOMI稳健性优于STV，因为STV是基于梯度方向构建各向异性滤波，而TOMI是基于张量方向构建各向异性滤波。张量方向比梯度方向对噪声更具有稳健性，且能够描述更细微的结构变化。同时，TOMI不仅利用方向平行度，还利用梯度分布构建相似度准则，进一步增加了算法的稳健性。

图 12 相似度准则在各种高斯噪声上的平均正确匹配率 Fig. 12 Average matching correct rates of similarity measures over the various Gaussian noise

图选项

2.5 模板大小分析试验

验证所提出的算法在不同模板大小下的匹配性能。将5种模板匹配算法在case 1-case 5中的多模态图像上进行试验，取5对图像的平均正确匹配率作为评价指标，模板大小取[32, 40, …, 112]，对应点的点位误差小于1个像素视为正确匹配。

图 13显示了不同模板大小下，5种模板匹配方法在case 1-case 5图像对上的平均正确匹配率对比结果。在5种模板匹配算法中，本文提出的TOMI算法在不同模板大小下实现了最高的匹配精度，这说明了TOMI对多模态图像匹配的优越性。NCC的性能最差，不能很好地处理图像间复杂的强度变化。对一些强度变化剧烈的图像对(如Visible-Infrared)甚至会出现配准失败的情况。尽管MI的表现比NCC好，不过它不能有效地处理这些多模态图像的匹配，由表 3可知，MI在case 3中表现不佳，不适合处理非线性强度变化和噪声影响下的LiDAR-Visible图像对。HOPC配准平均正确匹配率优于MI，在各个模态图像配准时都取得较好的表现，总体表现要优于MI。不过，HOPC的配准效果还是低于TOMI和STV，这是因为HOPC使用拓展的PC来提取图像结构信息，尽管PC可以抵抗光照和对比度的变化，但是PC图所含有的信息太少，PC图上的大部分像素值都接近于0。此外，PC图包含边缘信息受噪声影响，会导致特征描述不准确，对特征的描述不够稳健。

图 13 不同模板大小的平均正确匹配率 Fig. 13 Average matching correct rates of investigated algorithms over template size

图选项

3 结论

本文提出了一种多模态图像配准方法，以解决显著的非线性强度差异和噪声退化问题。在预配准阶段，对SIFT算法进行改进，粗略对齐多模态图像对。在精配准阶段，用各向异性结构张量来捕捉图像几何结构，大大降低了多模态图像间噪声的影响，可以更可靠地表现真实数据，同时对非线性强度差异有较好的稳健性。更进一步，将张量方向平行度与梯度互信息相结合，提出了TOMI相似度准则，利用图像统计特性与纹理特征，进一步提高算法对图像噪声的稳健性，增强了算法的匹配性能。试验结果表明，TOMI在配准精度上和对噪声的稳健性上均优于STV、HOPC、MI和NCC等先进的图像匹配方法。

然而，本文提出的算法仍然有一些局限性。通过试验发现，如果图像中包含的结构或形状信息较少，TOMI的性能会降低。在精配准试验中，TOMI在case 1-case 4中均取得亚像素级的配准精度，而在case 5这对纹理信息缺乏的图像对中，RMSE降低至像素级。此外，发现其余两种基于结构的算法STV与HOPC在该图像对中配准精度也在像素级，明显低于基于强度的配准算法MI与NCC。因此，在下一步的研究中，可以更深入地结合MI或NCC这类基于强度的配准方法，增强算法在纹理缺乏地区的配准效果。

参考文献

[1]	YE Yuanxin, SHEN Li. HOPC: a novel similarity metric based on geometric structural properties for multi-modal remote sensing image matching[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, Ⅲ-1: 9-16.

[2]	YE Yuanxin, SHAN Jie, BRUZZONE L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958. DOI:10.1109/TGRS.2017.2656380

[3]	LI Jiayuan, HU Qingwu, AI Mingyao. Optimal illumination and color consistency for optical remote-sensing image mosaicking[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(11): 1943-1947. DOI:10.1109/LGRS.2017.2743209

[4]	LIU Jianchen, GONG Jianya, GUO Bingxuan, et al. A novel adjustment model for mosaicking low-overlap sweeping images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 4089-4097. DOI:10.1109/TGRS.2017.2688385

[5]	LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2006: 2169-2178.

[6]	冯文卿, 张永军. 利用多尺度融合进行面向对象的遥感影像变化检测[J]. 测绘学报, 2015, 44(10): 1142-1151. FENG Wenqing, ZHANG Yongjun. Object-oriented change detection for remote sensing images based on multiscale fusion[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(10): 1142-1151. DOI:10.11947/j.AGCS.2015.20140260

[7]	张良培, 武辰. 多时相遥感影像变化检测的现状与展望[J]. 测绘学报, 2017, 46(10): 1447-1459. ZHANG Liangpei, WU Chen. Advance and future development of change detection for multi-temporal remote sensing imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10): 1447-1459. DOI:10.11947/j.AGCS.2017.20170340

[8]	MA Wenping, WEN Zelian, WU Yue, et al. Remote sensing image registration with modified SIFT and enhanced feature matching[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(1): 3-7. DOI:10.1109/LGRS.2016.2600858

[9]	ZITOVÁ B, FLUSSER J. Image registration methods: a survey[J]. Image and Vision Computing, 2003, 21(11): 977-1000. DOI:10.1016/S0262-8856(03)00137-9

[10]	YE Yuanxin, SHAN Jie. A local descriptor based registration method for multispectral remote sensing images with non-linear intensity differences[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 90: 83-95. DOI:10.1016/j.isprsjprs.2014.01.009

[11]	YE Yuanxin, BRUZZONE L, SHAN Jie, et al. Fast and robust matching for multimodal remote sensing image registration[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 9059-9070. DOI:10.1109/TGRS.2019.2924684

[12]	XIANG Yuming, WANG Feng, YOU Hongjian. OS-SIFT: a robust SIFT-like algorithm for high-resolution optical-to-SAR image registration in suburban areas[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(6): 3078-3090. DOI:10.1109/TGRS.2018.2790483

[13]	LI Jiayuan, HU Qingwu, AI Mingyao. RIFT: multi-modal image matching based on radiation-variation insensitive feature transform[J]. IEEE Transactions on Image Processing, 2020, 29: 3296-3310. DOI:10.1109/TIP.2019.2959244

[14]	KOVESI P. Image features from phase congruency[J]. Videre: Journal of Computer Vision Research, 1999, 1(3): 1-26.

[15]	COLE-RHODES A A, JOHNSON K L, LEMOIGNE J, et al. Multiresolution registration of remote sensing imagery by optimization of mutual information using a stochastic gradient[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1495-1511. DOI:10.1109/TIP.2003.819237

[16]	PLUIM J P W, MAINTZ J B A, VIERGEVER M A. Image registration by maximization of combined mutual information and gradient information[C]//Proceedings of 2000 International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI). Pittsburgh, PA, USA: Springer, 2000: 452-461.

[17]	SURI S, REINARTZ P. Mutual-information-based registration of TerraSAR-X and IKONOS imagery in urban areas[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(2): 939-949. DOI:10.1109/TGRS.2009.2034842

[18]	LU Jiazhen, HU Maoqing, DONG Jing, et al. A novel dense descriptor based on structure tensor voting for multi-modal image matching[J]. Chinese Journal of Aeronautics, 2020, 33(9): 2408-2419. DOI:10.1016/j.cja.2020.02.002

[19]	LOWE D G. Distinctive image features from scale: invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94

[20]	YU Le, ZHANG Dengrong, HOLDEN E J. A fast and fully automatic registration approach based on point features for multi-source remote-sensing images[J]. Computers & Geosciences, 2008, 34(7): 838-848.

[21]	DELLINGER F, DELON J, GOUSSEAU Y, et al. SAR-SIFT: a SIFT-like algorithm for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(1): 453-466. DOI:10.1109/TGRS.2014.2323552

[22]	MIKOLAJCZYK K, SCHMID C. Indexing based on scale invariant interest points[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2001: 525-531.

[23]	BIGVN J, GRANLUND G H, WIKLUND J. Multidimen-sional orientation estimation with applications to texture analysis and optical flow[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1991, 13(8): 775-790. DOI:10.1109/34.85668

[24]	BROX T, WEICKERT J, BURGETH B, et al. Nonlinear structure tensors[J]. Image and Vision Computing, 2006, 24(1): 41-55. DOI:10.1016/j.imavis.2005.09.010

[25]	KÖTHE U. Edge and junction detection with an improved structure tensor[M]//Lecture Notes in Computer Science. Berlin: Springer, 2003: 25-32.

[26]	YANG G Z, BURGER P, FIRMIN D N, et al. Structure adaptive anisotropic image filtering[J]. Image and Vision Computing, 1996, 14(2): 135-145. DOI:10.1016/0262-8856(95)01047-5

http://dx.doi.org/10.11947/j.AGCS.2021.20200492
中国科学技术协会主管、中国测绘地理信息学会主办。

文章信息

李培，姜刚，马千里，薛万峰，杨伟华

LI Pei, JIANG Gang, MA Qianli, XUE Wanfeng, YANG Weihua

结合张量与互信息的混合模型多模态图像配准方法

A hybrid model combining tensor and mutual information for multi-modal image registration

测绘学报，2021，50(7)：916-929

Acta Geodaetica et Cartographica Sinica, 2021, 50(7): 916-929

http://dx.doi.org/10.11947/j.AGCS.2021.20200492

文章历史

收稿日期：2020-10-21

修回日期：2021-04-21

文章信息

文章历史

相关文章

工作空间