综合上述分析, 本文提出基于生成对抗模型的异源图像匹配方法, 包括以下2个阶段. 1)引入图像转换机制作为匹配预处理阶段, 构建新的损失函数提高可见光-红外图像的转换效果, 消除不同模态图像间的成像差异;2)判断生成图像与真实红外图像的PCCs, 实现匹配任务约束. 设定阈值 $ \gamma $ , 若 $ {\text{PCCs}} \geqslant \gamma $ , 则实施SIFT匹配;反之, 则重新生成再判断直至满足匹配条件. 实验结果表明, 利用所提方法能够有效地处理多模数据, 实现可见光和红外图像的间接匹配.
生成式对抗网络是基于深度学习的网络框架, 具有2个相互竞争的神经网络模型, 即1个生成器模型(generative model, $ G $ ) 、1个判别器模型(discriminative model, $ D $ ). 对抗网络的目的是通过反复训练模型来学习输入图像与输出图像二者间的映射关系, 训练好的模型可以生成与给定目标数据集相似的图像,以欺骗判别器. 该网络描述了图像到图像的翻译过程, 如GAN可以实现单模态转多模态数据集, 生成全新图片, 方便后续目标检测、识别和跟踪任务时使用, 以提高数据样本较少时目标检测、识别的准确率. 该应用与本文研究的异源匹配问题高度一致, 即可以看作实现异源(可见光和红外)图像的风格转换问题.
考虑成对的异源图像获取相对困难, 根据GAN网络的核心思想, 利用循环一致性对抗网络(cycle-consistent generative adversarial networks, CycleGAN)[25 ] 不需要成对数据就可以训练、具有较强通用性、性能良好的优势, 完成异源匹配前的图像转换工作. CycleGAN是用2个对称的GAN构成环形网路, 即由2个生成器和2个判别器构成. 以可见光-红外图像的转换问题为例, 将可见光图像和红外图像分别定义为源域 $ V $ 和目标域 $ I $ , 此时,生成器表示为 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ , 判别器表示为 ${D_{{V}}}$ 和 ${D_{{I}}}$ , 2条环路的结构如图1 所示. 图中,v 为来自V 域的图像,i 为来自I 域的图像. 通过训练模型的2个映射: $ {G_{{\text{VI}}}} $ : $ V \to I $ 和 $ {F_{{\text{IV}}}} $ : $ I \to V $ , 使得 ${G_{{\text{VI}}}}(V)$ 无限逼近目标域 $ I $ 的图像, 再通过判别器进一步优化生成图像的细节信息. 该网络具备独特的循环一致对抗学习能力, 使得输入图像在依次通过2个生成器后仍能重构得到输入图像本身. 该思想既拟合了目标域图像的风格分布, 又保留了源域图像的内容特征, 有效减少了转换过程中错误信息及无用信息的加入. 引入的循环一致性约束条件防止生成器 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ 相互矛盾, 缓解了模型坍塌和梯度消失的问题, 进而增强不同域之间的整体转换效果, 实现多模图像风格的双向转换, 使转换模型训练更稳定, 方便后续图像匹配工作的开展.
图2 描述了生成对抗网络中生成器和判别器的结构组成. 图中, Conv为卷积层, Resnet为残差层, Deconv为反卷积层. 生成器 $ G $ 由编码器、转换器与解码器构成, 转换器由9个残差块结构构成, 合理利用了Highway Network的跨层连接思想, 一定程度上解决了传统卷积层或全连接层在信息传递时可能造成的信息丢失和损耗问题, 实现了输入到输出的恒等映射, 从而保证信息的完整性, 避免后续由于网络层数的加深造成准确率下降的问题. 生成器部分整体经过了先下采样后上采样的过程, 且随着网络深度的增加, 图像细节不断优化;判别器采用下采样方法, 主要用于判断生成器生成的假样本是否属于目标域I . 判别器部分采用Pix2Pix中的PatchGANs结构, 大小为 $ 70 \times 70 $ , 工作过程描述如下: $ 256 \times 256 $ 大小的图像, 将整幅图像分割成若干个 $ 70 \times 70 $ 感受野的图像块, 通过判断当前 $ 70 \times 70 $ 的patch为真或假, 再遍历整个图像上的patch块并取所有结果的平均值作为判别器 $ D $ 的最终输出. 若该图像来自生成网络, 则输出0;反之, 若来自真实的数据分布, 则输出1. 两者根据反馈结果不断更新参数, 直至达到纳什均衡.
(5) $ \begin{split} & {L_{{\text{loss}}}}\left( {{G_{{\text{VI}}}},{F_{{\text{IV}}}},{D_{{V}}},{D_{{I}}}} \right) = {L_{{\text{LSGAN}}}}\left( {{G_{{\text{VI}}}},{D_{{I}}},V,I} \right) + \\ &\;\;\;\;\;\;\;\;\;\; {L_{{\text{LSGAN}}}}\left( {{F_{{\text{IV}}}},{D_{{V}}},I,V} \right) + \alpha {L_{{\text{cycle}}}}\left( {{G_{{\text{VI}}}},{F_{{\text{IV}}}}} \right){\text{ + }} \\ &\;\;\;\;\;\;\;\;\;\; \beta {L_{{\text{identity}}}}\left( {{G_{{\text{VI}}}},{F_{{\text{IV}}}}} \right). \end{split} $
$ \begin{split} {L_{{\text{loss}}}}({G_{{\text{VI}}}},{F_{{\text{IV}}}},{D_{\text{V}}},{D_{\text{I}}}){\text{ = }}&{L_{{\text{LSGAN}}}}({G_{{\text{VI}}}},{D_{\text{I}}},V,I) + \\ & {L_{{\text{LSGAN}}}}({F_{{\text{IV}}}},{D_{\text{V}}},I,V) + \\ & \alpha {L_{{\text{cycle}}}}({G_{{\text{VI}}}},{F_{{\text{IV}}}}) + \\ & \beta {L_{{\text{identity}}}}({G_{{\text{VI}}}},{F_{{\text{IV}}}}). \\ \end{split} $
针对模型损失部分, 参考原始CycleGAN模型及相关变体模型, 可以发现,基于该模型下引入的循环一致性损失在总loss中的权值系数大部分位于[10, 40], 该范围在一定程度上保持了风格转换过程中图像的原始特征, 有效实现了原图的循环迁移. 结合生成图像质量评价指标PCCs, 将其作为权重 $ \alpha $ 的关联参数, 当PCCs越大时, 图像相关程度越高, 图像匹配性越强. 利用控制变量法, 以10为步长对权值区间进行遍历, 取不同的 $ \alpha $ $\left( {\alpha {\text{ = }}10、20、30、40、50} \right)$ ,分别对2组场景进行实验, 其他部分损失系数保持不变. 经实验可知, 权值调节趋势如图5 所示. 可以看出, 当 $ \alpha = 30 $ 时PCCs达到峰值, 兼顾生成图像的相关性及清晰度, 选定 $ \alpha $ 的合理取值为30. 考虑 $ {L_{{\text{identity}}}} $ 用于更好地保留源图像的颜色配置, 但为了避免过多的颜色信息影响, 将损失函数中L identity 权重 $ \;\beta $ 置为0.5. 当数据存在较大差异时, 根据模型的实际训练结果对网络结构及权值参数进行适当调整, 以达到期望的转换效果.
讨论不同场景作用于模型的训练结果, 为了获得最佳转换效果, 对网络模型进行优化处理, 并反复训练模型. 考虑图像转换的多样性问题, 选用网上公开的OTCBVS数据集[26 ] 中Dataset 3: OSUColor and Thermal Database数据库进行实验, 包含2组场景下的可见光图像A和红外图像B, 共计17 089张图像, 大小均为 $ 320 \times 240 $ 像素;本文模型在输入网络之前,须改变图像为固定大小, 即 $ 256 \times 256 $ 像素. 实验分别选取Location1中的Sequence3及Location2中的Sequence6共2组数据, 训练模型. 其中 Location1为低照度场景1, 共包含465张图像, 分别是324张红外图像和141张可见光图像; Location2为高强度场景2, 共包含3 304张图像, 分别是1652张红外图像和1 652张可见光图像. 由于场景1受光照强度、拍摄时间、光线角度等因素的影响, 获取的图像细节特征不明显, 相比场景2而言, 场景1的转换过程更具挑战性. 如图6 所示为随机选取的2组不同场景下可见光、红外图像数据集中的几组样本. 实验模型训练过程的参数设置与3.1节保持一致, 最多迭代100个批次. 如图7 所示为训练模型分别作用于场景1和场景2时对应的损失曲线图.
从表3 可以看出, 随着迭代次数的增加, 生成器越来越能创建更接近真实图像的假样本. 经过30个批次后, 图像的主要特征变得突出. 遍历50个批次后, 几乎能够生成表示真实图像特征的转换图像, 但存在模糊、码率低、波纹明显等问题;通过增加迭代次数尽可能消除上述现象, 经反复验证得出, 数据集被遍历100个批次时视觉效果更好, 图像质量几乎接近真实图像的红外图像, 且 $ {L_{{\text{identity}}}} $ 项的加入使得生成图像与真实图像的色差明显减小, 总体质量较高. 按照训练批次的不同, 分别列举权重为10和30时模型在上述2种场景下的表现, 记录2种场景下生成的假红外样本与真实红外图像之间的PCCs, 具体的数值结果如表4 所示.
从表4 可以看出, 当固定权重 $ \alpha $ 时, 随着迭代次数的增加, 由生成器生成的假样本更加趋近于真实图像, 两者的相似程度总体上呈递增趋势. 当固定遍历批次时, 利用不同 $ \alpha $ 对模型进行训练, 对比不同权值下生成器生成的假样本与真实图像之间的PCCs. 对比可以发现, 当 $ \alpha $ 调整为30时对应生成的图像质量更好, 生成器保持了较好的泛化能力. 综合上述2种情况, 采用权值 $ \alpha = 30 $ , $\; \beta {\text{ = }}0.5 $ , 对模型进行100个批次的训练, 设定PCCs阈值为0.55, 即当2幅图像的相关系数不小于阈值时, 表明生成器能够较好地欺骗判别器, 生成更接近于真实样本的图像. 判定满足该阈值约束条件的图像即可执行后续匹配任务, 否则返回重新训练模型.
为了验证将图像转换机制作为异源匹配预处理方法的可行性, 引入峰值信噪比(peak signal to noise ratio, PSNR)、结构相似性(smart sensors and integrated microsystem, SSIM)、归一化均方根误差(normalization root mean square error, NRMSE)以及信息熵(information entropy, IE) 4种图像质量评价指标, 对模型性能进行客观、全面的分析. 由于测试集3组图像是来自同一采集设备、同一时间的不同场景下的数据, 在温度、光照、视角等方面均相差不大, 且考虑篇幅限制, 仅选取场景1参与数值分析, 其他2组的分析思路与场景1一致. 如表9 所示分别为3种模型(原始图像、CycleGAN转换网络模型及添加L identity 项的CycleGAN)下场景1对应的数值对比结果.
从表9 可知, 原始可见光和红外图像在结构、细节信息方面差异较大, 相似性程度低, 影响最终的匹配效果. 通过CycleGAN模型转换后的生成图像结构更趋于原始红外图像, 且色彩变换和失真程度低, 鲁棒性方面表现良好. 与其他2种模型相比, CycleGAN+ $ {L_{{\text{identity}}}} $ 模型在4种指标上均具有明显优势, 表明生成图像较好地保留了原始特征, 图像失真小, 且更接近于真实红外图像. 数值结果验证了所提方法能够达到结构性更强、细节特征信息更接近真实图像的效果, 说明了将图像转换机制作为异源匹配预处理阶段是一个可行的思路, 且 $ {L_{{\text{identity}}}} $ 项的加入更好地保留了原始图像的整体色调, 提升了匹配效果.
[3]
XIONG Z, ZHANG Y A critical review of image registration methods
[J]. International Journal of Image and Data Fusion , 2010 , 1 (2 ): 137 - 158
DOI:10.1080/19479831003802790
[本文引用: 1]
[4]
SHI W, SU F, WANG R, et al. A visual circle based image registration algorithm for optical and SAR imagery [C]// IEEE International Geoscience and Remote Sensing Symposium . Munich: IEEE, 2012: 2109-2112.
[本文引用: 1]
[5]
SURI S, REINARTZ P Mutual-information-based registration of terraSAR-X and ikonos imagery in urban areas
[J]. IEEE Transactions on Geoscience and Remote Sensing , 2010 , 48 (2 ): 939 - 949
DOI:10.1109/TGRS.2009.2034842
[本文引用: 1]
[6]
HASAN M, PICKERING M R, JIA X Robust automatic registration of multimodal satellite images using CCRE with partial volume interpolation
[J]. IEEE Transactions on Geoscience and Remote Sensing , 2012 , 50 (10 ): 4050 - 4061
DOI:10.1109/TGRS.2012.2187456
[本文引用: 1]
[9]
REN S Q, HE K M, GIRSHICK R, et al Faster R-CNN: towards real-time object detection with region proposal networks
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2017 , 39 (6 ): 1137 - 1149
DOI:10.1109/TPAMI.2016.2577031
[本文引用: 1]
[10]
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 2117-2125.
[11]
胡惠雅, 盖绍彦, 达飞鹏 基于生成对抗网络的偏转人脸转正
[J]. 浙江大学学报: 工学版 , 2021 , 55 (1 ): 116 - 123
URL
[本文引用: 1]
HU Hui-ya, GAI Shao-yan, DA Fei-peng Face frontalization based on generative adversarial network
[J]. Journal of Zhejiang University: Engineering Science , 2021 , 55 (1 ): 116 - 123
URL
[本文引用: 1]
[12]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al Generative adversarial networks
[J]. Communications of the ACM , 2020 , 63 (11 ): 139 - 144
DOI:10.1145/3422622
[本文引用: 1]
[13]
DENTON E L, CHINTALA S, SZLAM A, et al Deep generative image models using a laplacian pyramid of adversarial networks
[J]. Computer Vision and Pattern Recognition , 2015 , 6 (1 ): 1486 - 1494
[本文引用: 1]
[14]
ZHU J Y, PHILIPP K, SHECHTMAN E, et al. Generative visual manipulation on the natural image manifold [C]// European Conference on Computer Vision . Cham: Springer, 2016: 597-613.
[本文引用: 1]
[15]
LI C, WAND M. Precomputed real-time texture synthesis with markovian generative adversarial networks [C]// European Conference on Computer Vision . Cham: Springer, 2016: 702-716.
[本文引用: 1]
[16]
唐贤伦, 杜一铭, 刘雨微, 等 基于条件深度卷积生成对抗网络的图像识别方法
[J]. 自动化学报 , 2018 , 44 (5 ): 855 - 864
URL
[本文引用: 1]
TANG Xian-lun, DU Yi-ming, LIU Yu-wei, et al Image recognition with conditional deep convolutional generative adversarial networks
[J]. Acta Automatica Sinica , 2018 , 44 (5 ): 855 - 864
URL
[本文引用: 1]
[17]
RADFORD A, METZ L, CHINTALA S, et al. Unsupervised representation learning with deep convolutional generative adversarial networks [C]// International Conference of Legal Regulators . Washington: [s. n.], 2016: 1-16.
[本文引用: 1]
[18]
ARJOVSKY M, CHINTALA S, BOTTOU L, et al. Wasserstein generative adversarial networks [C]// International Conference on Machine Learning . Sydney: [s. n. ], 2017: 214-223.
[本文引用: 1]
[19]
ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2223-2232.
[本文引用: 1]
[20]
HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation [C]// European Conference on Computer Vision . Cham: Springer, 2018: 172-189.
[本文引用: 1]
[21]
LEE H Y, TSENG H Y, HUANG J B, et al. Diverse image-to-image translation via disentangled representations [C]// European Conference on Computer Vision . Cham: Springer, 2018: 35-51.
[本文引用: 1]
[22]
CHANG H Y, WANG Z, CHUANG Y Y. Domain-specific mappings for generative adversarial style transfer [C]// European Conference on Computer Vision . Cham: Springer, 2020: 573-589.
[本文引用: 1]
[23]
SONG L, ZHANG M, WU X, et al. Adversarial discriminative heterogeneous face recognition [C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence . New Orleans: AAAI, 2018: 7355-7362.
[本文引用: 1]
[24]
MERKLE N, AUER S, MULLER R, et al Exploring the potential of conditional adversarial networks for optical and SAR image matching
[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing , 2018 , 11 (6 ): 1811 - 1820
DOI:10.1109/JSTARS.2018.2803212
[本文引用: 1]
[26]
DAVIS J W, SHARMA V Background-subtraction using contour-based fusion of thermal and visible imagery
[J]. Computer Vision and Image Understanding , 2007 , 106 (2/3 ): 162 - 182
[本文引用: 1]
A survey of image registration techniques
1
1992
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
Image registration methods: a survey
1
2003
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
A critical review of image registration methods
1
2010
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
1
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
Mutual-information-based registration of terraSAR-X and ikonos imagery in urban areas
1
2010
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
Robust automatic registration of multimodal satellite images using CCRE with partial volume interpolation
1
2012
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
基于图像混合特征的城市绿地遥感图像配准
1
2019
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
基于图像混合特征的城市绿地遥感图像配准
1
2019
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
多摄像机间基于最稳定极值区域的人体跟踪方法
1
2010
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
多摄像机间基于最稳定极值区域的人体跟踪方法
1
2010
... 现有匹配方法分为基于强度和基于特征两大类. 基于强度的方法是利用图像间的相似性度量信息实现匹配, 如归一化互相关(normalized cross correlation, NCC)[1 ] 、互信息(mutual information, MI)[2 ] 或交叉累积剩余熵(cross-cumulative residual entropy, CCRE)[3 ] 等; 基于特征的匹配方法通过提取图像的点[4 ] 、线[5 ] 、面[6 ] 等局部特征实现匹配, 如Harris算法、尺度不变特征变换(scale-invariant feature transform, SIFT)[7 ] 、最大稳定极值区域(maximally stable extremal regions, MSER)[8 ] 等. 以可见光和红外图像为例, 二者存在较大差异,导致匹配难度加大. 一方面是不同成像机理导致图像之间存在差异;另一方面是多模传感器的引入,使得区域图像特征更复杂. 传统的同源图像匹配方法难以直接应用于异源图像. ...
Faster R-CNN: towards real-time object detection with region proposal networks
1
2017
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
基于生成对抗网络的偏转人脸转正
1
2021
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
基于生成对抗网络的偏转人脸转正
1
2021
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
Generative adversarial networks
1
2020
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
Deep generative image models using a laplacian pyramid of adversarial networks
1
2015
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
基于条件深度卷积生成对抗网络的图像识别方法
1
2018
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
基于条件深度卷积生成对抗网络的图像识别方法
1
2018
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
1
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
Exploring the potential of conditional adversarial networks for optical and SAR image matching
1
2018
... 近年来, 大量网络模型应用于图像处理领域[9 -11 ] , Goodfellow等[12 ] 提出生成对抗网络(generative adversarial network, GAN)模型在图像生成[13 ] 、图像编辑[14 ] 、风格转换[15 ] 、照片增强[16 ] 等视觉图像方面发挥重要作用, 大量改进网络不断涌现, 如DCGAN[17 ] 、WGAN[18 ] 、CycleGAN[19 ] 等. 针对模式相差较大的转换任务, 研究者们提出MUNIT[20 ] 、DRIT[21 ] 、DSMAP[22 ] 等多种图像翻译框架. Song等[23 ] 开展近红外-可见光的人脸图像生成与识别工作, 改善了现有方法对于不同模式间差距较大的问题. Merkle等[24 ] 实现了光学与SAR图像的风格转换, 体现了生成对抗网络应用于图像匹配的可行性与实用性. ...
基于生成对抗网络的短波红外-可见光人脸图像翻译
1
2020
... 考虑成对的异源图像获取相对困难, 根据GAN网络的核心思想, 利用循环一致性对抗网络(cycle-consistent generative adversarial networks, CycleGAN)[25 ] 不需要成对数据就可以训练、具有较强通用性、性能良好的优势, 完成异源匹配前的图像转换工作. CycleGAN是用2个对称的GAN构成环形网路, 即由2个生成器和2个判别器构成. 以可见光-红外图像的转换问题为例, 将可见光图像和红外图像分别定义为源域 $ V $ 和目标域 $ I $ , 此时,生成器表示为 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ , 判别器表示为 ${D_{{V}}}$ 和 ${D_{{I}}}$ , 2条环路的结构如图1 所示. 图中,v 为来自V 域的图像,i 为来自I 域的图像. 通过训练模型的2个映射: $ {G_{{\text{VI}}}} $ : $ V \to I $ 和 $ {F_{{\text{IV}}}} $ : $ I \to V $ , 使得 ${G_{{\text{VI}}}}(V)$ 无限逼近目标域 $ I $ 的图像, 再通过判别器进一步优化生成图像的细节信息. 该网络具备独特的循环一致对抗学习能力, 使得输入图像在依次通过2个生成器后仍能重构得到输入图像本身. 该思想既拟合了目标域图像的风格分布, 又保留了源域图像的内容特征, 有效减少了转换过程中错误信息及无用信息的加入. 引入的循环一致性约束条件防止生成器 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ 相互矛盾, 缓解了模型坍塌和梯度消失的问题, 进而增强不同域之间的整体转换效果, 实现多模图像风格的双向转换, 使转换模型训练更稳定, 方便后续图像匹配工作的开展. ...
基于生成对抗网络的短波红外-可见光人脸图像翻译
1
2020
... 考虑成对的异源图像获取相对困难, 根据GAN网络的核心思想, 利用循环一致性对抗网络(cycle-consistent generative adversarial networks, CycleGAN)[25 ] 不需要成对数据就可以训练、具有较强通用性、性能良好的优势, 完成异源匹配前的图像转换工作. CycleGAN是用2个对称的GAN构成环形网路, 即由2个生成器和2个判别器构成. 以可见光-红外图像的转换问题为例, 将可见光图像和红外图像分别定义为源域 $ V $ 和目标域 $ I $ , 此时,生成器表示为 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ , 判别器表示为 ${D_{{V}}}$ 和 ${D_{{I}}}$ , 2条环路的结构如图1 所示. 图中,v 为来自V 域的图像,i 为来自I 域的图像. 通过训练模型的2个映射: $ {G_{{\text{VI}}}} $ : $ V \to I $ 和 $ {F_{{\text{IV}}}} $ : $ I \to V $ , 使得 ${G_{{\text{VI}}}}(V)$ 无限逼近目标域 $ I $ 的图像, 再通过判别器进一步优化生成图像的细节信息. 该网络具备独特的循环一致对抗学习能力, 使得输入图像在依次通过2个生成器后仍能重构得到输入图像本身. 该思想既拟合了目标域图像的风格分布, 又保留了源域图像的内容特征, 有效减少了转换过程中错误信息及无用信息的加入. 引入的循环一致性约束条件防止生成器 $ {G_{{\text{VI}}}} $ 和 $ {F_{{\text{IV}}}} $ 相互矛盾, 缓解了模型坍塌和梯度消失的问题, 进而增强不同域之间的整体转换效果, 实现多模图像风格的双向转换, 使转换模型训练更稳定, 方便后续图像匹配工作的开展. ...
Background-subtraction using contour-based fusion of thermal and visible imagery
1
2007
... 讨论不同场景作用于模型的训练结果, 为了获得最佳转换效果, 对网络模型进行优化处理, 并反复训练模型. 考虑图像转换的多样性问题, 选用网上公开的OTCBVS数据集[26 ] 中Dataset 3: OSUColor and Thermal Database数据库进行实验, 包含2组场景下的可见光图像A和红外图像B, 共计17 089张图像, 大小均为 $ 320 \times 240 $ 像素;本文模型在输入网络之前,须改变图像为固定大小, 即 $ 256 \times 256 $ 像素. 实验分别选取Location1中的Sequence3及Location2中的Sequence6共2组数据, 训练模型. 其中 Location1为低照度场景1, 共包含465张图像, 分别是324张红外图像和141张可见光图像; Location2为高强度场景2, 共包含3 304张图像, 分别是1652张红外图像和1 652张可见光图像. 由于场景1受光照强度、拍摄时间、光线角度等因素的影响, 获取的图像细节特征不明显, 相比场景2而言, 场景1的转换过程更具挑战性. 如图6 所示为随机选取的2组不同场景下可见光、红外图像数据集中的几组样本. 实验模型训练过程的参数设置与3.1节保持一致, 最多迭代100个批次. 如图7 所示为训练模型分别作用于场景1和场景2时对应的损失曲线图. ...