
导读雨、雪、雾等恶劣天气会使可见光图像产生雨丝、雾化、过曝以及纹理缺失等问题并且还会使红外图像中局部对比度降低。对于红外-可见光融合而言困难之处不在于“把两幅图合并在一起”而是在于如何进行退化恢复与跨模态互补。本文提出的方法AMG-Fuse并没有直接使用“先恢复后融合”的两步法而是在此基础上建立起了一个mask引导下的统一融合框架在其中一方面用Pseudo Ground Truth来减小训练难度的同时另一方面又用mask去学习各个区域是应该更加相信可见光还是红外。核心思想可以用一句话来概括使用模态贡献Mask把伪标签中可见光部分与红外部分分开并且不让网络记住伪融合图在恶劣天气条件下能够实现动态地对两种模态进行分配。核心信息论文题目Multi-modality Image Fusion under Adverse Weather: Mask-Guided Feature Restoration and Interaction恶劣天气下的多模态图像融合Mask 引导的特征恢复与交互作者Xilai Li、Xiaosong Li*、Haishu Tan、Tao Ye、Huafeng Li、Hongbin Wang单位Foshan UniversityChina University of Mining and Technology, BeijingKunming University of Science and Technology代码https://github.com/ixilai/AMG-Fuse论文https://arxiv.org/pdf/2606.26812关键词图像融合/恶劣天气/特征恢复/跨模态交互/Mask 引导学习01问题在恶劣天气的情况下融合不等于融合图1 清源监督和伪地面真值监督比较伪GT不是万能解IVIF中的模态偏差与动态分配之道传统红外与可见光融合方法通常默认两模态均处于理想状态通过L1损失约束融合结果同时逼近可见光和红外图。然而在雨、雪、雾或夜间低照度等复杂场景下可见光图像本身已严重退化直接以退化源图像为监督目标会使退化伪影“遗传”至融合结果导致细节丢失与对比度失衡。如图1 所示在源图像直接监督下网络需同时兼顾特征提取与退化去除优化目标冲突融合结果中常残留雨痕和色彩失真。为缓解此问题研究者引入“伪GT”Pseudo Ground Truth由清晰源图像经现有融合方法预先生成作为监督目标。图1亦表明伪GT监督能有效简化优化难度帮助网络更快地保留全局结构与精细细节此即引入伪GT的核心动机。图2 由“伪真实标签”监督在干净场景下产生的模态差异的可视化然而伪GT并非完美解。直接以其为监督虽能保证训练稳定性却易使网络仅拟合伪GT的静态分布而忽视红外模态的互补信息。如图2所示伪GT监督会引入明显的模态偏差红外热目标的贡献被显著低估关键行人或车辆区域在融合结果中被弱化甚至丢失模型未真正学会跨模态的动态分配机制。针对上述局限本文提出显式建模各区域对不同模态的依赖程度并根据退化情况动态调整权重即引入“模态贡献掩码Mask”。通过掩码解耦伪GT中的模态信息引导网络学习动态跨模态交互而非死记硬背伪目标分布从而在退化场景下实现自适应的鲁棒融合。关键矛盾恶劣天气融合要同时做到两点一是在退化的图像里恢复出清晰的特征二是在红外和可见光之间提取到互相补充的信息。仅仅进行恢复是不够的仅拟合伪标签也是不行的。02Mask由伪融合图逆向推理出各个模态所起的作用图4 Modality-Contribution Mask 和可见光、红外特征分解论文的主要切入点为因为融合的结果可以看作是可见光与红外图像的叠加所以能不能从融合结果里反推出每一个像素点上两种模态各自的贡献度呢作者将融合过程建模为近似的线性组合Mask表示各像素可见光模态的贡献权重融合结果在某区域更接近可见光则Mask增大反之则减小。此举旨在解决伪GT作为静态黑箱输出网络仅能拟合其外观而无法感知各模态贡献比例的问题。若不显式解耦模型易陷入对伪GT的过拟合丧失跨模态动态分配能力。为此本文从线性组合假设出发逆向推导出Mask的闭合近似解作为可解释的模态分配先验引导网络关注“各模态如何组合”而非仅关注“组合结果是什么”。因此Mask并非抽象注意力图而是具有明确物理语义的模态分配图。M为可见光部分所占的比例1-M为红外部分所占的比例。本文并没有直接用到(Fuse-IR)/(VI-IR)而是把FUSE加到了分母里去来解决由于可见光亮度差异以及分母趋近于零所引起的数值不稳定性问题。为什么这一环节很重要呢Mask可以把Pseudo GT由一张图片分成可见光部分与红外部分。网络学到的不是“伪融合图是什么样子”而在于“伪融合图里哪一部分是来自于哪一个模态”。03AMG-FuseMask 引导下的特征恢复和交互图3 AMG-Fuse 整体结构图AMG-Fuse 主要包括卷积层、残差块、HTB以及MCCA等部分。输入的退化可见光和红外图像首先进行特征提取然后得到初步融合特征在此基础上使用Mask-Guided Feature Extraction Module来实现特征恢复以及模态交互。HTB 是指Histogram Transformer Block在此过程中会按照像素强度来分层空间特征并且在不同的强度区间内进行自注意机制从而捕捉到相隔较远但是退化模式相同的雨、雪、雾等特征。MCCA 为Masked-Cross-modal-Cross-attention。把红外特征、可见光特征当作Query把融合后的特征当作Key和Value并且使用Mask对Query进行加权以此来告诉网络该区域是应该更加重视可见光纹理还是红外目标。MCCA 的作用并不是把两种模态直接拼接在一起而是在Mask参与下进行跨模态注意在融合的空间里实现解耦、选择和重组。MFEM 目标在同一个模块中完成退化特征恢复与跨模态信息交互的过程并且不采用两阶段恢复-融合模式来防止错误传播。04训练伪标签并不是目的而是一个过程在训练过程中作者首先利用已经在一个干净的多模态图像上训练好的融合模型来产生Pseudo Ground Truth接着根据干净图像与伪融合图来计算出MPse并且将伪标签中各个模态所起的作用拆分成FVI和FIR。MGLS的作用就是限制网络输出中可见光部分与红外部分接近该分解的结果。这样就可以用上Pseudo GT稳定的监督来训练模型了并且不会让模型只去学伪标签的静态像素分布。FVI、FIR 为伪融合结果中被拆出的模态分配监督。MGLS使网络学习伪GT背后模态的贡献方式并不是仅仅去拟合最后的结果图。图5 Mask×VisibleImage之后的退化抑制效果而TDAS更多地关注于退化区。论文认为如果Fuse为清楚融合图的话那么Mdeg×VIDeg得到的可见光有效分量也应当尽可能地没有退化、清晰。所以作者引入了恢复模型R(.)并希望VI_F和R(VI_F)要尽量接近。当Mask选择的是清晰区域的时候恢复网络前后的差别就比较小而一旦选择了雨丝、雾化或者噪声等区域则会出现较大的差异。λ 会随训练轮数增加而递减在模型初期利用伪标签进行稳定的学习在后期主要依靠原始图像来约束。05实验雪、雨、雾以及实际环境都必须进行验证图6 Snow/Rain/Haze/Clean 四个场景下的定性比较论文选取了AWMM-100k中的Snow、Rain和Haze三种类型的天气作为样本并且每个类型都用了1000张用于训练、150张用来做测试另外还在真实的退化图片上进行泛化性的检验。在理想的条件下还可以用M3FD、MSRS、LLVIP来加以验证。所用的方法有LRRNet、Text-DiFuse、EMMA、Text-IF、GIFNet、SAGE和AWFusion等。本文把大部分普通的融合方式都作为AdaIR恢复融合来作比较。表1 各种天气条件下定量比较的结果从量化的结果来看在三种恶劣天气条件下AMG-Fuse 的大部分指标都排在了第二名的位置上并且在雪天、雨天以及雾天的情况下相比于其他的方法分别提高了大约3.67%3.86%3.56%。表2 真实场景下不同方法的定量比较结果雪天结果AdaIR 可以去除了雪花但是会使得细节变得不清晰而 AMG-Fuse 能够更好地保持住重要的结构以及模态之间的互补信息。雨天结果去除了雨丝之后常常会出现比较平整的情况并且有些方法无法很好地凸显出红外线AMG-Fuse 对于可见光细节与红外纹理之间的关系处理得比较好。雾天结果由于雾的影响而造成深度相关的退化现象在很多情况下都会出现对比度降低或者色彩失真的情况AMG-Fuse可以很好地抑制住雾化并且能够产生出自然、有纹理感的融合图像。06消融与下游Mask 并不是用来装饰的图7 TDAS/MGLS/MCCA消融实验可视化表3 各模块的消融实验定量测试结果消融实验证明移除TDAS之后模型没有了恢复任务带来的退化感知约束融合的结果在结构和视觉质量方面都降低了移除了MGLS之后模型更倾向于依靠Pseudo GT的静态分布在复杂的区域中进行自适应模态分配的能力也减弱了。去掉MCCA之后Mask就不能很好地参与到跨模态交互中去这说明Mask不仅仅用来产生中间的可视化结果在特征的选择和融合重组过程中也起着作用。论文也做了下游任务的验证即目标检测与语义分割。因此在评价融合图时不能只看一个视觉上的标准对检测和分割而言目标边界的清晰度、热目标明显的程度以及结构连贯性都非常重要。图8 不同方法在目标检测任务上的定性比较结果表4 在 M3FD 数据集上目标检测性能比较结果值得注意的限制论文还提到HTB会增大计算成本。对于224×224输入而言AMG-Fuse 要求达到242.03G FLOPs和59.74M 参数后面还需要继续进行轻量化工作。07一句话概括AMG-Fuse 的主要贡献并不是只提出了一个新融合网络而是把在恶劣天气下进行多模态融合重新定义为特征恢复与模态交互要一起完成。用Pseudo Ground Truth来减小训练难度并且用模态贡献Mask防止网络被假标签固定住使用MGLS学习到伪标签中各个模态的分布情况用TDAS使模型能够察觉并且抑制退化的部分。也就是说这篇论文的观点是不能只教给网络学习“融合图是什么样子”还要教会它哪些地方可以看见可见光、哪些地方只能看到红外线、哪些地方需要避开通路。要记住的是该工作的一个优点就是把Mask由普通的注意力权重提高到模态贡献先验并且将它同时应用于训练监督以及特征交互之中。对于图像融合的研究有所启发在复杂的场景下进行融合并不是仅仅使用一个大的网络就可以实现的而要加入可以对模态贡献、退化分布以及任务目标做出有效先验的东西。END往期推荐