【CVPR2024】Distribution-Consistent Modal Recovering for Incomplete Multimodal Learning

type

status

date

slug

summary

原文摘要翻译

在缺失模态学习领域，恢复丢失模态的做法十分流行，因为这样通常有助于下游任务。然而，目前的方法经常使用深度学习网络直接从观测到的模态估计丢失的模态，忽略了不同模态之间分布的差异，造成了恢复模态与真实数据分布不一致。为了解决这个问题，在这篇工作中，我们提出了一个新颖的模态修复范式——DiCMoR来将可用模态的分布转换为缺失模态的分布，维持了修复模态数据分布的统一。确切的来说，我们设计了一种基于类别特定流的模态恢复方法，以在样本类别的条件下转换跨模态分布，利用正则化流的可逆性和精确密度估计，能够为缺失模态预测出一个分布一致的空间。生成的数据从预测的分布中提取，并与可用模态结合用于分类任务。实验表明，DiCMoR 在各种缺失模式下表现出优越的性能，并且比现有的最先进方法更具鲁棒性。可视化结果显示，恢复模态与缺失模态之间的分布差异有所减小。代码已发布于：https://github.com/mdswyz/DiCMoR。

1. 解决了什么问题？

这篇论文主要解决了缺失模态学习中的一个关键问题：如何在恢复缺失模态时保持与真实数据分布的一致性。传统方法直接从观测模态估计缺失模态，往往忽略了不同模态间的分布差异，导致恢复的模态与实际数据分布不符。该研究提出了一种新的模态恢复范式DiCMoR，通过将可用模态的分布转换为缺失模态的分布，以维持恢复模态数据分布的统一性，从而提高多模态学习的性能和鲁棒性。

2. 核心思想&创新点

发现了“数据分布不一致”这一痛点，用了一个和 Diffusion Model 类似的标准化流来“转换”不同模态之间的数据分布特征。

3. 核心方法

三个组件，分别负责提取特征、多模态分布转换和多模态融合

特征提取只是用了简单的一维卷积层。给图片也用一维是我没想到的
这篇工作前面铺垫了很久的“保持恢复出来的数据和真实数据分布要保持一致”的重要性，但继续读下去，这不过是一个简单的标准化流？
多模态融合阶段，是一个现成的多模态 Transformer

4. 启发？

Wang. 等人的这篇工作将标准化流的功能锚定在 “Distribution Consistency”，不为是一个颇好的问题切入点。这篇工作后面也通过可视化的方式展示了在“Distribution Consistency”方面，与state-of-the-art的对比：

5. 实验

5.1 横向对比实验

数据集

CMU-MOSI
CMU-MOSEI

参照组

DCCA
DCCAE
MCTN
MMIN
GCNet

自变量

固定模态缺失情况

有L无V、A；有V，无L、A；……

随机模态缺失情况

缺失率：取值为0.0到0.7

评价标准（因变量）

回顾一下，是查准率和查全率的调和平均数：

6 代码分析

整体结构十分清晰，作者代码规范程度很高。通过代码分析，作者分别在MOSI和MOSEI两个数据集，以MR=0.0（完整模态）的情况下预训练了两个模型，对后再以MR=0.1、0.2等等数据训练。如果从直接开train的角度来看，整个代码的入口是 train.py ，这个文件只有几行，它调用了 run.py 里面的DICMOR_run( )函数。