论文阅读记录 – lumosのblog

本文最后更新于76 天前，其中的信息可能已经过时，如有错误请发送邮件到3046699620@qq.com

该文章主要是对《Noisy-Correspondence Learning for Text-to-Image Person Re-identification》这篇论文进行一个记录。

摘要

TIReID（Text-to-image person re-identification）是一个十分引人注目的话题，TIReID旨在基于文本查询识别出目标人物。

虽然大量的TIReID已经取得了十分不错的表现，但是他们默认训练的图片文本对是完全对齐的，这在真实世界不太可能。在训练中，图片文本对会出现图片和文本相关性不强，或者存在错误关联（NC）的情况，图片的质量和错误文本描述都会导致这些问题。

为了解决这个问题，我们提出了一个新型鲁棒嵌入方式（RED，有点专业，不太理解），这个方式甚至可以在NC样本上学习强大的视觉语义关联。RED包含两个主要部分：1）一个自信的共识部门（CCD）模块，利用双嵌入模块，获得共识集清楚的训练数据集，使模型能够正确学习和可靠的视觉语义关联。2）三重对齐丢失（TAL）放宽了传统的三重对齐等级最难负样本的损失为对数指数所有负数的上限，从而防止在 NC 下模型坍塌，还可以专注于硬负样品以获得有希望的性能。（修改了损失函数，降低了标准）

在三个公开数据集上进行了广泛的实验，即CUHK-PEDES、ICFG-PEDES 和RSTPReID，以评估 RDE 的性能和稳健性。在所有三个数据集上无论是有合成噪声还是没有噪声的数据，都能取得最好的实验结果。

主要观点

首先这篇论文主要解决的问题，即在有噪声的情况下，如何使得语义信息识别行人变得更加精确，也就是如何减少噪声对识别精度的影响。它提出的方法就是，在噪声低的地方能够准确提取出文本信息，然后再使用新的损失函数，目的是放宽了传统的三重对齐等级最难负样本的损失为对数指数所有负数的上限，从而防止在 NC （Noisy-Correspondence）下模型崩溃，也可以专注于硬负样品以获得有希望的性能。

在论文中，提出现有研究在行人局部特征和总体特征都有一定的突破。但也指出，这些突破都是在训练图像-文本对均正确对齐的假设下，实际上这是非常困难的，因为不可控因素太多，如人的姿势和摄像头角度等等。

提出问题后，论文也提出他们的创新点。他们是第一个提出NC可能会误导模型学习不正确的视觉语义关联。此外，他们还提出一种方法，称为 RDE，通过拟议的置信共识分部（CCD）和新型三重对齐损失（TAL）以缓解NC 的不利影响。通过使用 CCD 和 TAL，RDE 可以获得令人信服的共识对，并降低训练中的误导性风险。并且在三个数据集上都有很好的表现，无论是有NC还是无NC的图片。

在TIReid领域，大家主要从两个方面入手，一个是全局匹配，一个是局部匹配。全局匹配尝试学习通过使用具有匹配损失的文本和视觉主干，在公共潜在空间中进行跨模态嵌入。但是呢，它只关注整体，而忽略了有较好文本连接的某一部分。局部匹配的研究中，为了实现细粒度的交互，探索了正文区域和文本实体，以实现更精细的对齐方式。

这篇文章的主要工作，就是发现了NC的问题，以及NC对模型的影响，然后针对NC提出了一个新的方法RED，并且这个方法在三个传统数据集上有很好的表现。

方法

论文中，包含两个集合，一个文本集 \(\tau = \left \{ T_{i},y_{i}^{v} \right \}_{i=1}^{N_{t}}\) ，一个图片集 \(\nu = \left \{ I_{i},y_{i}^{p},y_{i}^{v} \right \}_{i=1}^{N_{t}}\)。在TIPeID中使用\(\rho = \left \{ (I_{i},T_{i}),y_{i}^{v},y_{i}^{p} \right \}_{i=1}^{N}\) 表示图片文本对。其中\(y_{i}^{p}\)是种类标签（文本），\(y_{i}^{v}\)是图片标签。然后用一个标签\(l_{ij}\)来记录图片文本对的匹配度，\(l_{ij}\)的值为0or1，1表示图片和文本信息匹配。

跨模态嵌入模型

使用预训练模型CLIP做跨模态交互。CLIP模型是一种多模态预训练神经网络，是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务，包括OCR，地理定位，动作识别，并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。该模型的核心思想是使用大量图像和文本的配对数据进行预训练，以学习图像和文本之间的对齐关系。CLIP模型有两个模态，一个是文本模态，一个是视觉模态，包括两个主要部分：

Text Encoder：用于将文本转换为低维向量表示-Embeding。
Image Encoder：用于将图像转换为类似的向量表示-Embedding。

符号表示

对于输入图片\(I_{i}\in \nu\)使用CLIP编码器\(f^{v}\)转换为序列，这个序列表示为\(V_{i}=f^{v}(I_{i})=\left \{ v_{g}^{i},v_{1}^{i},v_{2}^{i},···,v_{N_{0}}^{i} \right \}^{T} \in R^{( N_{0}+1 )\times d }\)，序列长度为\(N_{0}+1\)，维度为d。其中，\(v_{g}^{i}\)是类别标签，可以代表全局特征。对于输入的文本\(T_{i}\)，也是使用CLIP中的\(f^{t}\)编码器，特别的使用到IRRA中提到的方法，标签序列使用[SOS][EOS]分别作为序列的开头和结尾，最后文本序列表示为\( T_{i} = \left \{ t_{s}^{i},t_{1}^{i},···,t_{N_{0}}^{i},t_{e}^{i} \right \}^{T} \in R^{ ( N_{0}+2 )\times d }\)。

双嵌入模块

为了计算文本图片对的相似度，使用全局特征CLS和EOS通过余弦相似度计算基本全局嵌入相似度（BGE），计算公式为\(S_{ij}^{b}=v_{g}^{i}t_{e}^{j}/||v_{g}^{i}||||t_{e}^{j}||\)。BGE并没有获得两个模态之间细粒度之间的关系，这限制了性能改进。他们提出了利用部分特征来学习更具判别性的嵌入表示，从而挖掘细粒度的对应关系。CLIP全局特征CLS和EOS是局部特征的加权聚合，这些权重反应了局部与全局的关系，这些相关权重选择信息性标记来聚合局部特征，以实现更具代表性的全局嵌入。在实际中，这些相关系数可以在编码器的最后一个transformer中获取，得到权重序列\(A_{i}^{v}\)（图片）\(A_{i}^{t}\)（文本）。选取权重较高的部分(\(K_{i}^{v}\))作为嵌入，选出的集合表示为\(V_{i}^{s}=\)，对应的权重序列\(a_{i}^{v}\)，文本序列处理也与此类似。然后使用下述公式进行相似度的计算。

鲁棒相似度学习

详细介绍如何使用由双嵌入模块计算的图像-文本相似性来实现鲁棒 TIReID。这部分主要分两个部分，第一个部分就是说明如何将NC数据划分出来，第二部分就是说明使用到的损失函数。

整体算法的过程，计算每个样本的损失，然后根据BGE和TSE的预测值划分训练集，获取共识划分以重新校准对应标签，在每一个batch中，提前样本x的 BGE 和 TSE 特征，计算选取出的特征K相似度（理解有偏差），计算最终的损失。

结论

揭示并研究了TIReID中噪声对应（NC）的新挑战性问题，该问题违反了现有方法的普遍假设图像-文本数据完美对齐。提出了一种鲁棒的方法，即RDE，以有效处理所揭示的NC问题并实现卓越的性能。在三个数据集上进行了广泛的实验，以全面证明RDE在NC或非NC数据上的效果。

分析和思考

在论文中，创新点就在发现了nc数据集的影响，并提出如何解决。nc数据集如何划分？全局相似度和局部相似度结合来判断，这是不同于之前的一个点。

可借鉴部分

局部特征相似度和全局特征相似度综合评判，损失函数的优化。

摘要