【论文阅读】：Med-2E3：A 2D-Enhanced 3D Medical Multimodal Large Language Model

⭐论文信息

文献类型：预印本 arxiv

发表刊物：arxiv

发表时间：2024

发表单位：清华大学

1.1 拟解决的科学问题

✨ 本论文旨在构建一个适用于3D医学影像理解的多模态大模型，主要解决三维特征提取问题。
✨ 本文属于医学大模型、多模态大模型、3D特征提取、局部全局特征融合等领域。

⭐论文背景

2.1 摘要写作解读

第一句【挖坑一】：介绍3D医学影像分析的重要性，但在不同医学场景的通用性有限，现有的任务特定模型变得越来越不足。
第二句【填坑一】：多模态大模型（MLLMs）为这个挑战提供了一个有前途的解决方案。
第三句【挖坑二】：然而，现有的MLLMs在提取3维医学图像丰富、分层的信息方面仍然不足。
第四句【介绍本文方法】：受放射科医生同时关注3D结构和2D切片内容的实践启发，我们提出了、Med-2E3，一个新的多模态大模型，同时利用了2D编码器和3D编码器。
第五句【填坑二】：为了更有效地聚合2D切片特征，我们设计了文本引导的切片间评分模块（TG-IS）对每个2D切片进行注意力打分。
第六句【强调创新点】：据我们所知，Med-2E3是第一个同时集成3D和2D功能的医学影像分析的MLLM。
第七句【实验性能介绍】：在大规模开源3D医学多模态基准测试上表现好……
第八句【代码】：文章接收后会开源代码和模型。

2.2 挖坑

✨任务特定的模型很难处理复杂的多模态医学图像分析任务。

However, traditional task-specific models [12, 36, 52] often face challenges such as limited data and small model sizes, which make it difficult to handle complex multimodal tasks.
填坑：LLMs（大模型）在解决复杂的医疗多模态任务方面显示出广阔的潜力，为弥合模型研究和临床应用之间的差距提供了前景。
These models have shown promising potential in addressing complex medical multimodal tasks, offering the prospect of bridging the gap between model research and clinical application.

✨现有的医学MLLMs聚焦于2维图像，而很少研究3维图像…(中间作者在介绍为什么很少研究3维图像，因为没有现成可以用的3维图像编码器)3维图像编码器需要从头开始训练，表征能力有限。

However, existing medical MLLMs primarily focus on 2D medical images, with limited research on 3D medical MLLMs [9, 10, 13, 19].
As a result, 3D encoders must be trained from scratch on 3D medical images, which limits their representational capacity.

2.3 相关工作

3D医学图像分析

LLM出现之前：都是任务特定的模型，主要是面向医学图像分割或分类。

LLM出现之后：研究人员已经开始收集大规模 3D 医疗多模态数据集，用于3D医学多模态大模型训练和评估。长期以来，从 3D 图像中提取特征一直是 3D 医学图像分析中的一个挑战。以前的研究通常遵循以下两种方法之一。

【直接提取3D图像特征】：这种流派主张直接对3D图像进行提取特征，然而，由于3D医学图像的独特模态，这些编码器需要从头开始对3D数据进行训练，并且在捕获切片内细节方面往往无法达到通用域编码器的性能水平。
【2D逐切片聚合3D特征】：另一种方法涉及逐个切片提取特征，在聚合之前独立处理每个2D切片。虽然这种方法允许使用根据3D数据微调的预训练2D编码器，但它很难对3D图像中的切片间关系进行建模。

医学多模态大模型

医学MLLM的早期研究主要集中在2D医学图像上，而对3D医学图像的研究相对较少。

现有的3D医疗MLLM主要依靠3D编码器进行特征提取。这种单编码器设计在3D医疗多模态任务中无法实现与2D MLLM在2D多模态任务中相同的卓越性能。

2.4 一句话总结技术

我们提出了 Med-2E3，这是一种用于 3D 医学图像分析的新型MLLM，集成了3D和2D编码器。为了更有效地聚合2D特征，我们设计了一个文本引导的切片间（TG-IS）评分模块，该模块根据切片内容和任务说明对每个2D切片的注意力进行评分。

we propose Med-2E3, a novel MLLM for 3D medical image analysis that integrates 3D and 2D encoders. To aggregate 2D features more effectively, we design a Text-Guided Inter-Slice (TG-IS) scoring module, which scores the attention of each 2D slice based on slice contents and task instructions.

2.5 主要贡献

✨ 我们提出了Med-2E3，一种用于3D医学图像分析的新型MLLM。据我们所知，Med-2E3是第一款集成3D和2D编码器的3D医疗MLLM。
✨ 我们设计了一个文本引导切片间（TG-IS）评分模块，以模拟放射科医生在3D医学图像分析中使用的注意力机制。该模块根据切片内容和任务说明对每个切片的注意力进行评分。
✨ 我们提出的 Med-2E3 在最大的3D医疗多模态基准测试中实现了最先进的性能。

⭐论文方法

Med-2E3的输入有俩个，即3D医学影像$\boldsymbol{x_I}$和对应的文本问题$\boldsymbol{x_T}$，模型的输出是一个文本答案$\boldsymbol{x_R}$。模型的整体架构如上图所示。他们的形状即如下：

3D医学影像$\boldsymbol{x_I}=\{\boldsymbol{x_I}^j\}$：$N \times H \times W$：$N$表示切片数，$W$表示宽度，$H$表示高度。$\color{red}\{ \}$表示集合。
第j切片2D图像$\boldsymbol{x_I}^j$：$H \times W$
文本问题$\boldsymbol{x_T}$：文本。
文本答案$\boldsymbol{x_R}$：文本。

接下来，Med-2E3将分别对3维图像使用3D编码块、对逐个2维图像使用2D编码块（一个编码块包含一个编码器+连接器）得到对应特征表示$\boldsymbol{z_{3D}}$和$\{\boldsymbol{z_{2D}^j}\}$。尽管作者说$\boldsymbol{z_{3D}}$是一个一维的特征向量，在技术路线图也画成一维的形式，然而我多次推敲探究，按我的理解，其应该是一个二维矩阵，且形状是$L \times D$，这个形状也是作者自己写的，似乎与自己说的“一维的特征向量”的描述有所矛盾？因此按照我的理解，图中$\boldsymbol{z_{3D}}$中每一个色块不能当做一个标量值，而应该理解为一个长度为D的向量。因此，得到的特征表示$\boldsymbol{z_{3D}}$和$\{\boldsymbol{z_{2D}^j}\}$的形状分别是：

3D编码块输出$\boldsymbol{z_{3D}}$：$L_2 \times D$：$L_2$表示3D编码器的输出长度，$D$表示提取后的特征维度。
2D编码块输出$\{\boldsymbol{z_{2D}^j}\}$：$N \times L’ \times D$：$L’$表示2D编码器的输出长度。
第$j$切片2D编码块输出$\boldsymbol{z_{2D}^j}$：$L_2 \times D$

接着，初步提取的俩种特征将送入到TG-IS模块中进行切片间评分，得到每个切片的注意力分数，并利用该注意力分数聚合2D特征并与初步的3D特征连接。这些2D增强的3D特征以及文本特征由LLM处理以生成响应。

3.1 3D和2D编码块

论文并没有详细介绍3D和2D编码块，经过我的研究，他们的工作机理应该如下描述：
【3D编码块】：
3D编码块包括一个冻结参数的3D编码器和一个可训练的3D连接器。3D编码器用于提取3D医学图像的特征，连接器用于下采样（池化）。3D编码块接收的输入是三维的3D医学图像$\boldsymbol{x_I}$，输出是3D特征（2维）$\boldsymbol{z_{3D}}$。

按照我的理解，本文使用的3D编码器是基于VIT的3D编码器，即将3D图像分割成若干个3D块（patch），然后将每个3D块展平为一个向量，最后将这些向量输入到VIT中进行处理。

如上图，3D编码器的输入是3D医学图像$\boldsymbol{x_I} \in \mathbb{R}^{N \times H \times W}$，论文使用的3D编码器把该3D图像分割成若干patch，每个patch的大小即$N_1 \times H_1 \times W_1$，然后以patch为单位进行提取特征，简单的说，对于每一个patch，编码器就会输出一个D维向量表征其特征。那共有多少个patch呢？显然可以推算到一共有$L_1$个patch，$L_1$的计算公式如下：

$L_1 = \frac{N}{N_1} \cdot \frac{H}{H_1} \cdot \frac{W}{W_1}$

接着，经过3D图像编码后，3D编码器会输出一个$L_1 \times D$的矩阵，表示每个patch的特征。接下来，连接器会对该矩阵进行下采样（池化），得到一个$L_2 \times D$的矩阵，$L_2$表示下采样后的长度。下采样的过程可以如图所示：

如上图所示，经过3D编码器后，3D医学图像$\boldsymbol{x_I}$会被分割成$L_1$个patch，输出特征即$L_1 \times D$的矩阵，图中即按照$L_1$个较大的矩阵块，每个较大的矩阵块对应$D$个特征。以平均池化为例，连接器会对每个较大的矩阵块进行平均池化，即选取$P \times P \times P$个patch取平均(对应图中的红色框线)，这样每$P \cdot P \cdot P$个patch就会被池化成一个特征，最终得到$L_2$个特征。$L_2$的计算公式如下：

$L_2 = \frac{L_1}{P^3}$

最终3D编码块的输出即表示为：

$z_{3D} \in \mathbb{R}^{L_2 \times D}, L_2 = \frac{L_1}{P^3} = \frac{N}{N_1} \cdot \frac{H}{H_1} \cdot \frac{W}{W_1} \cdot \frac{1}{P^3}$

【2D编码块】：
2D编码块包括一个冻结参数的2D编码器和一个可训练的2D连接器。2D编码器用于提取2D医学图像的特征，连接器用于下采样（池化）。2D编码块接收的输入是二维的2D医学图像$\boldsymbol{x_I}^j$，输出是2D特征（3维）$\boldsymbol{z_{2D}^j}$。

整个过程如下图所示：

首先经过2D编码器后，每一张2D医学图像$\boldsymbol{x_I}^j$会被分割成$L_1$个patch，输出特征即$L_1 \times D$的矩阵，图中即按照$L_1$个较大的矩阵块，每个较大的矩阵块对应$D$个特征。接着，连接器会对该矩阵进行下采样（池化），最后得到一个$L_2$个特征。$L_2$的计算公式如下：

$L_2 = \frac{L_1}{P^2}$

最终每一张图片在2D编码块的输出即表示为：

$z_{2D}^j \in \mathbb{R}^{L_2 \times D}, L_2 = \frac{L_1}{P^2} = \frac{H}{H_1} \cdot \frac{W}{W_1} \cdot \frac{1}{P^2} \\$

因此，2D编码块的输出集合为：

$\{ z_{2D}^j\} \in \mathbb{R}^{N \times L_2 \times D}$

显然，这是一个三维的矩阵，与3D编码块的输出是一个二维的矩阵不同。

3.2 TG-IS模块

TG-IS模块的输入是2D编码块的输出$\{z_{2D}^j\}$和3D编码块的输出$z_{3D}$，输出是每个2D切片的注意力分数$\boldsymbol{s}$。该模块的原理即综合利用初步提取的3D特征$z_{3D}$和2D特征$\{z_{2D}^j\}$，对每个2D切片进行注意力评分。该模块首先将3D特征$z_{3D}$进行形状转换（对应图中的split）以将其转换为与2D特征$\{z_{2D}^j\}$同样三维的形状，接着对转换后的3D特征和2D特征进行拼接，最后将拼接后的特征与文本特征计算每个2D切片的注意力分数。该模块的输出即为每个2D切片的注意力分数$\boldsymbol{s}$，其形状为$N \times 1$，表示每个2D切片的注意力分数。

【形状转换】：
由于3D编码块的输出$z_{3D}$是一个二维的矩阵，而2D编码块的输出$\{z_{2D}^j\}$是一个三维的矩阵，因此需要对$z_{3D}$进行形状转换。首先我们知道初步的三维特征形状如下：

$z_{3D} \in \mathbb{R}^{L_2 \times D}, L_2 = \frac{L_1}{P^3} = \frac{N}{N_1} \cdot \frac{H}{H_1} \cdot \frac{W}{W_1} \cdot \frac{1}{P^3}$

因此可以通过reshape函数将其转换为下面形状：

$(L_2, D) \rightarrow (\frac{N}{N_1\cdot P}, \frac{H}{H_1\cdot P}, \frac{W}{W_1\cdot P}, D)$

接着把第一维度$\frac{N}{N_1\cdot P}$进行复制$N_1\cdot P$次，并且交叉拼接起来（怎么交叉的，论文没有描述），即可以得到：

$(\frac{N}{N_1\cdot P}, \frac{H}{H_1\cdot P}, \frac{W}{W_1\cdot P}, D) \rightarrow (N, \frac{H}{H_1\cdot P}, \frac{W}{W_1\cdot P}, D)$

最后把第二维度和第三维度合并，即设定$L = \frac{H}{H_1\cdot P} \cdot \frac{W}{W_1\cdot P}$，最终得到的形状为：

$z_{3D} \in \mathbb{R}^{N \times L \times D}$

【拼接】：
经过形状转换后，3D特征$z_{3D}$和2D特征$\{z_{2D}^j\}$的形状分别是$N \times L \times D$和$N \times L_2 \times D$，接下来对这两个特征进行拼接。拼接的方式是将3D特征$z_{3D}$和2D特征$\{z_{2D}^j\}$在第二维度上进行拼接，换句话说即对每一个$z_{3D}^j$和$z_{2D}^j$在第一维度上进行拼接。拼接后的特征形状为$N \times (L + L_2) \times D$，因此获得的特征拼接后的集合形状是$N \times (L + L_2) \times D$。

接下来，TG-IS模块会对拼接后的特征进行平均池化以消除第二维度$L + L_2$，得到一个$N \times D$的矩阵，整个过程即可描述为：

$\boldsymbol{z^j}=\text{AvgPool}(\text{Concat}(z_{3D}^j, z_{2D}^j))$

即第j个切片的综合特征为$\boldsymbol{z^j} \in \mathbb{R}^{D}$，所有切片的综合特征集合为$\{\boldsymbol{z^j}\} \in \mathbb{R}^{N \times D}$。

【注意力打分】：
什么叫做文本引导的切片间评分？简单来说就是模型输入的文本问题不同，模型对每个切片的注意力分数也不同。因此作者即利用文本的特征和每张2D切片的特征进行交互获得每张切片的注意力打分。具体来说，作者使用了一个文本编码器来提取文本问题的特征，文本编码器的输出是一个$L_T \times D$的矩阵，$L_T$表示文本编码器的输出长度。

同样地，对文本特征进行平均池化，即可以获得$\mathbb{R}^{D}$的特征。作者通过点积来逐个计算文本对每个切片的注意力即：

$\boldsymbol{s_r^j} = \text{AvgPool}(\boldsymbol{z_T}) \cdot \boldsymbol{z^j}$

其中$\boldsymbol{s_r^j}$表示第j个切片的注意力分数，$\boldsymbol{z_T}$表示文本特征。最终所有切片的注意力分数集合为$\{\boldsymbol{s_r^j}\} \in \mathbb{R}^{N}$，接下来，按照打分的惯例，用softmax函数对注意力分数进行归一化处理，得到每个切片的注意力分数$\boldsymbol{s}$，即：

$\boldsymbol{s} = \text{softmax}(\boldsymbol{\{s_r^j}\})$

最终的注意力分数集合为$\boldsymbol{s} \in \mathbb{R}^{N}$。

3.3 2D特征增强3D特征

通过TG-IS，我们已经获得了每个切片的注意力分数$\boldsymbol{s}$，接下来我们需要利用该注意力分数来聚合2D特征$\{z_{2D}^j\}$，即使用加权求和：

$\boldsymbol{z_{2D}} = \sum_{j=1}^{N} s_j \cdot \boldsymbol{z_{2D}^j}$

接下来，用聚合后的2D特征与3D特征$z_{3D}$进行连接，即可以得到增强后的3D特征：

$\boldsymbol{z_{I}} = \text{Concat}(\boldsymbol{z_{3D}}, \boldsymbol{z_{2D}})$

最后分别将问题文本特征$\boldsymbol{z_T}$和增强后的3D特征$\boldsymbol{z_I}$送入到LLM中进行处理，得到最终的文本答案$\boldsymbol{x_R}$。

$\boldsymbol{x_R}= \text{LLM}(\boldsymbol{z_T}, \boldsymbol{z_I})$

⭐实验设定

4.1 数据集与实验细节

本文所使用的数据集来源于大规模3D医学多模态数据集，主要包含各种病变各种区域的CT影响。为了公平比较，作者只使用了数据集的标题和VQA数据。具体地数据集来源于M3D-Cap和M3D-VQA。数据集包含 120K 的3D CT图像和对应的标题或VQA数据。

VQA指的是视觉问答，即给定一张图片和一个问题，模型需要回答该问题。VQA数据集通常包含大量的图像和对应的问题-答案对，用于训练和评估模型在视觉问答任务上的性能。具体地，VQA可以分为开放式VQA和封闭式VQA。开放式VQA是指模型可以回答任何问题，例如“这张图片中有什么？”或“这张图片的主题是什么？”。封闭式VQA是指模型只能回答特定的问题，例如“这张图片中有多少个物体？”或“这张图片中的物体是什么颜色的？”，一般封闭式VQA是多选题的形式。

训练集分布:

M3D-Cap：训练集包含 115K 标题数据。
部分M3D-VQA：用部分的VQA数据集进行微调，总共420K的开放式VQA数据和420K的封闭式VQA数据，封闭式VQA数据以多选题的形式进行训练。

测试集分布:

M3D-Cap：测试集包含 2K 标题数据。
M3D-VQA：测试集包含 13K的开放式VQA数据和13K的封闭式VQA数据，封闭式VQA数据以多选题的形式进行测试。

此外，本文终于介绍本文使用的3D编码器和2D编码器，作者使用了M3D-CLIP作为3D编码器，使用了SigLIP作为2D编码器。用Phi-3作为文本编码器。

4.2 SOTA对比实验

作者分别在M3D-Cap和M3D-VQA上进行对比实验，本文的对比实验主要是与现有的医学MLLM进行对比。在M3D-Cap上，作者与现有的医学MLLM进行对比，结果如下表所示：

在M3D-VQA上，作者与现有的医学MLLM进行对比，结果如下表所示：

可以看出，本文的Med-2E3在M3D-Cap和M3D-VQA上均取得了最好的结果，其中†表示该实验结果是通过开源代码复现的，没有该标记则直接使用别人的实验数据。

4.3 消融实验

✨不同特征提取方法的消融实验

为了验证本文2D增强3D特征提取的有效性，作者设计了一个消融实验，分别使用不同的特征提取方法，即分别选择是否使用3D编码器和2D编码器进行特征提取。实验结果如下表所示：

表中可以看出，综合使用了3D编码器和2D编码器进行特征提取的Med-2E3在报告生成和医学VQA俩个任务上都取得最好的性能。此外，表中还有俩个现象。其一是在报告生成任务上只使用3D编码器和效果要优于只使用2D编码器的效果；其二是，在医学VQA任务上只使用2D编码器的效果要优于只使用3D编码器的效果。作者认为前者是因为本文使用的3D编码器预训练时接受的是医学报告类似的数据，所以在报告生成任务上效果更好，而后者是因为VQA任务比较简单，2D编码器在自然图像中预训练，其足够鲁棒到处理医学VQA任务。

✨不同切片间评分方法的消融实验

为了验证本文设计的TG-IS模块的有效性，作者设计了一个消融实验，分别使用不同的切片间评分方法，具体地，作者设计的消融实验有三种选择：1）是否使用文本引导（文本编码器），如果不使用文本编码器，则直接对2D增强后的3D特征进行线性映射获得切片注意力分数。2）是否使用3D编码器的特征。3）是否使用2D编码器的特征。实验结果如下表所示：

表中看到，本文提出的TG-IS模块（即3个特征都使用）的性能要优于其他评分方案。作者还补了一句：“尽管表中发现似乎3D特征稍微重要一点，但并不能始终认为到底是3D特征重要还是2D特征重要”，本实验验证了TG-IS模块的有效性。

4.4 可视化实验

作者最后设计了案例实验，来说明自己方法的有效性，并增加了文章的趣味性。

首先比较问题1和问题5，或比较问题2和问题6，我们发现相同的问题在不同的CT图像中，模型对每张切片的注意力分数分布是显著不同的，这说明图像特征多样性在TG-IS评分模块中的作用。

比较问题1和问题2，或比较问题5和问题6，我们发现相同的CT图像在不同的问题中，模型对每张切片的注意力分数分布是显著不同的，这说明表示注意力分数由任务说明指导，与我们的设计一致。。

比较问题3和问题4，或比较问题7和问题8，我们发现尽管问题的格式不一样（一个是开放式VQA，一个是封闭式VQA），但是模型对每张切片的注意力分数分布是显著相似的，这说明使用AvgPool对文本特征池化有效地提取了文本的特征。

有一些问题的注意力分布比较尖锐，例如问题6；而也有一些问题的注意力分布比较平滑，例如问题8。作者说到这种差异主要来源于CT影响的不同或问题的不同，基本上不是由于问题的格式导致的。

⭐笔者总结

这篇文章为提取CT影响3D特征提供了一个新的思路，即2D增强3D特征，并且设计了一个TG-IS模块来对每个切片进行注意力评分，来模拟放射科医生的思维过程。但是实际上，这篇文章在技术上描述地模棱两可，让人直接看论文理解有些困难。此外，作者在3D特征形状变换时利用了一些复制的手段，这一部分，应该还有改善的空间。