论文阅读记录2 – lumosのblog

本文最后更新于33 天前，其中的信息可能已经过时，如有错误请发送邮件到3046699620@qq.com

本篇文章将对《Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens》进行阅读记录。两篇文章都是在CLIP的基础上，所以又去了解了CLIP（CLIP – lumosのblog (setabout.cn)）。

摘要

基于对比学习的视觉-语言预训练方法，如CLIP，在许多视觉语言任务中取得了巨大成功。这些方法实现跨模态对齐，通过编码一个配对的带有相似特征嵌入的图像文本对，图像文本对的生成是通过聚合来自视觉补丁的和语言标记的信息。然而，使用这种表示直接对齐跨模态信息是具有挑战性的，因为视觉补丁和文本标记在语义级别和粒度上有所不同。为了解决这个问题，提出了一个有限基于离散令牌（FDT）的多模态表示。FDT是一组可学习的标记，代表某些视觉语义概念。文本和图片首先使用共享的FDT进行多模态输入，嵌入到FDT空间，然后增强激活的FDT特征。由同一组离散器件通过稀疏激活约束的令牌表示匹配的视觉和语义概念。（本文解决问题的方法，看的有点懵）。结果就是，两个模块之前的粒度差距减少了。通过定量和定性分析，在视觉识别和视觉语言的任务中，我们证明在CLIP样式中使用FDT表示模型改进了跨模态对齐和性能。此外，证明了他们的方法可以学习更全面的表示，以及学习的FDT捕获有意义的跨模态从对象到行为和属性的对应关系。

ps：从摘要中可以看出，这边文章的优化点，聚焦在数据上，也就是优化图片文本对来提升模型性能，这与Noisy-Correspondence Learning for Text-to-Image Person Re-identification有点不同，NC这篇文章在原始CLIP模型上做出了改变，优化模型去改善图片文本对的问题，而本文聚焦于图片文本对本身，对模型好像没有大改（粗略阅读摘要获得的信息，观点有待证实）。

主要观点

在CLIP中，用双流方法对齐文本和图像信息，其中图像和文本特征是通过两个独立的编码器进行提取。InfoNCE损失用于训练编码器，使得匹配的图像文本对更接近。

\( \text { InfoNCE Loss }=-\frac{1}{N} \sum_{i=1}^{N} \log \left(\frac{\exp \left(\frac{q_{i} \cdot k_{i}+}{\tau}\right)}{\sum_{j=1}^{N} \exp \left(\frac{q_{i} \cdot k_{j}}{\tau}\right)}\right) \)

T为温度，是一个超参数，q 表示样本的特征向量，\( k_{+} \)表示正例的特征向量。每个训练样本，都有一个正例，K个负例，InfoNCE会计算样本与正负例之间的余弦相似度，通过softmax函数进行归一化，接着套入负对数函数中。

图像和文本中传达的信息具有不同的粒度级别，模型并没有被考虑到。比如说，狗的形象也描绘了各种较低层次属性，例如其品种、毛皮颜色、体型和形状，而文本描述，如“一只微笑的狗”，是通常更抽象和具体。在 CLIP 中，图像和文本通过视觉补丁和文本标记的聚合来表示，而没有明确对齐视觉和语义概念处于同一粒度级别。它可能会给多模态表示带来挑战学习，甚至可能导致性能下降。此外，学习的模型可能会忽略某些语义概念。所以，他们认为统一图像和文本的信息粒度可以帮助生成更好的多模态表示。

他们基于特征提出的FDT（Finite Discrete Tokens,即有限分离符号），FDT 是一组可学习的符号，用于编码跨模态共享语义概念。

如图1所有图片和文本共享在模态中间以致于信息粒度统一，也就是没有经过任何处理直接对文本和图片进行编码。论文中，图片的嵌入补丁首先被图片编码器提取，FDT和图像之间的联系通过所有补丁的FDT的注意力权重的最大池化来衡量，FDT的注意力加权和作为图片的FDT表示。文本也使用同样的方式。这样做使得匹配的图片文本距离更近，使用loss更易区分匹配和不匹配的图片文本对。利用跨模态的共享 FDT 使得匹配的视觉和语义能够用相同的离散符号表示。比如图片中有狗，和一个单词dog，会激活同一个FDT集合。

所以本文的创新点就在编码器编码后，使用FDT生成特征向量。

方法

这里我根据论文的结构进行记录，一般是在论文第三章。

Revisiting Feature Representations in CLIP

解读CLIP中的特征表示，图像编码器将image作为输入，并根据自注意力（第四周(2)自注意力机制(Self-Attention) – 知乎 (zhihu.com)）或卷积操作提取补丁或局部区域嵌入点。将获得的补丁特征通过使用 attention pooling 或 [CLS] 令牌聚合为图像编码器\( f_{v} \)的最终表示。

\( \begin{array}{c}
w_{p_{i}}=\frac{e^{}}{\sum_{j}^{N_{v}} e^{}}, \
f_{v}=\sum_{i}^{N_{v}}\left(w_{p_{i}} \cdot f_{p_{i}}\right) .
\end{array} \)

其中，\( w_{p_{i}} \)第i个patch的权重，\( N_{v} \)表示patch的数量，\( f_{p_{i}} \)表示第i个块的embedding，\( f_{g} \) 表示attention pooling 或 [CLS] 令牌，包含全局照片信息。依此类推，文本编码器如下：

\( f_{t}=\sum_{i}^{N_{t}}\left(w_{t_{i}} \cdot f_{t_{i}}\right) \)

公式说明图片和文字被两个不同的底层表示，底层是动态的，不同图像的patch和文本语言tocken是不同的，会增加学习图像和文本特征。编码器可能无法捕获两种模态中的重要信息，会对不相关的信息进行编码。

FDT-based Representation

使用\( \left { c_{i} \mid i=1, \ldots, C \right } \)来表示FDT，其中C是共享标签的数量，\( c_{i} \)是第i个具体的标签。图片首先经过图片编码器得到patch embeddings，然后使用投影函数将提取的patch embeddings投影到FDT空间。图片和标签之间的相关性是通过计算投影的patch embeddings和令牌的内积，并选出最大值。

\( r_{i}^{v}=\max {j}{p_{j}}, c_{i}> \)

\( r_{i}^{v} \)表示的是图片和第i的token的相关性。所提出的补丁级相关性计算机制可能具有两个优点：（1）它可以捕获存在于单个patch中的小细节;（2）它有帮助消除不相关的嘈杂patch的影响，这些patch与所有FDT的相关性低。图像和FDT之间的相关性使用softmax进行计算，产生了每个token的最后权重。

\( w_{i}^{v}\)表示第 i 个token相对于图像的权重，文本也是同样的处理，如下公式。

FDT可以被视为图像或文本的先验知识。在FDT的帮助下，两种模态的提取特征都基于一个共享的流形空间，从而实现跨模态交互。

Normalizing Concept Weights with Sparse Constraints

想要归一化权重是稀疏的。稀疏性对于FDT学习跨模态对应至关重要，当一个token对应相同的图像和文本语义。我们使用 Sparsemax 函数计算稀疏权重。

r是相关系数向量，是图片（文本）和FDT之间。首先计算了一个阈值，然后离散设置权重在0~阈值之间。对比之后，发现Softmax 函数不能以恰好为零的概率显式明确分配 FDT。

Generating FDT-based Embeddings

是添加权重的FDT，公式可以看出图像和文本特征是由相同的FDT表示，明确统一了图像和文本信息的粒度。提供基于FTD的特性，编码器和FDT经过训练，可以在基于 FDT 的特征之间创建相似性匹配的图片-文本对数量大于不匹配的图片-文本对数量对。

结论

引入了一种新的使用有限离散标记（FDT）的多模态表示。具体来说，所有模态共享的一组可学习标记用于表示图像和文本模态中传达的多模态信息。论文方法是一种轻量级的方式来实现跨模态交互，其中FDT充当多模态锚点，以更好的完整性从每个输入中捕获信息。有助于缓解在原版CLIP模型中常见的模型退化问题。FDT可以从头开始使用对比学习方案进行训练，而不会出现冷启动问题。定量和定性结果表明，FDT表示在各种下游任务上实现了更好的跨模态对齐和性能，包括图像分类、跨模态检索和VQA。此外，学习的FDT捕获有意义的跨模态对应，范围从对象到动作和属性。

分析与思考

看完论文第三节，发现好像跟之前那篇论文区别不大，都是在图片上做文章，之前那篇文章其实也没有对CLIP做修改，是在编码器上做了优化，得到更好的图片文本对，方便模型训练，这篇文章也是为了获得更匹配的图片文本对，两者做的操作不同，目的基本一致。

可借鉴部分

这篇是考虑图片和文本跨模态交互，导致图片文本对不太匹配，该论文是使用一个共享的空间将文本和图片分别编码，使得编码之后在一个模态中，更利于匹配，这一点值得借鉴。

摘要