大连理工提出小样本识别DeepBDC6项基准性能最好

发布时间:2024-08-21 18:56:40    浏览:

  金年会金字招牌诚信至上在本文中,来自大连理工大学等机构的研究者提出了 DeepBDC 用于小样本分类任务,DeepBDC 通过度量样本对之间的联合分布从而获得更准确的相似度,极大的提升了小样本分类的性能。论文已被 CVPR 2022 接收为 Oral Presentation。

  本文首次将布朗距离协方差这一基于概率和统计的相似性度量引入到深度学习中,提出了一种端到端的小样本识别方法 DeepBDC。所提出的方法在包括一般目标识别、细粒度分类和跨域分类等任务的 6 个标准数据库上都取得了当前最好的性能。论文已被 CVPR 2022 接收为 Oral Presentation。

  人类在认识新事物时,通常仅需要很少量的学习数据便可以快速掌握相关知识,比如通过几张图片便可以认识一些之前从未见过的动物等。而现代的人工智能系统所依托的深度学习算法往往需要大量的数据进行训练,训练代价非常大。同时,获得大量的人工标注数据也是非常耗时耗力的。因此理想状态下的人工智能系统需要具备人类相同的快速学习能力,也就是说在每一类训练数据仅有极少量标注样本的情况下,使得深度学习模型具备出色的识别能力,这个便是小样本分类任务。

  这个任务非常具有挑战性,因为从少量的样本中很难学习到丰富的知识,同时也容易导致过拟合。目前一种可行的解决方案是基于元学习(或者称之为 “Learning to learn”) 去跨任务学习更深层的知识,并迁移到新的任务上。在这种情况下,训练是由一系列子任务构成,这种被称为 episode 训练。在最新的研究中,基于度量的方法吸引了大量的关注,其核心在于通过深度神经网络提取 query 和 support 图像的表征,并度量表征之间的距离,从而进行类别的判断。

  从统计学上讲,query 图像的特征 (或 support 图像) 可以看作是高维空间中的一个随机向量 X (或 Y)。因此,图像之间的相似性可以通过概率分布来度量。然而,建模高维特征的分布是困难的,常用的方法是建模统计矩。ProtoNet 及其变体通过一阶矩 (mean vector) 表示图像,并使用欧几里德距离或余弦相似度进行度量学习。为了获取更丰富的统计量,前人一些工作研究了二阶矩 (Covariance matrix) 或一、二阶矩的组合 (Gaussian distribution),并采用了 Frobenius 范数或 Kullback-Leiberler (KL) 散度作为相似度度量。然而,这些方法只利用边缘分布 (Marginal distribution) 而忽略了联合分布 (Joint distribution),没有充分挖掘分布之间的统计特性。此外,使用协方差只能度量两个具有分布之间的线性相关,而深度神经网络的高维特征往往是非线性的,因此很难准确的进行度量。

  一般情况下,X 和 Y 之间的相关性应根据它们的联合分布来衡量。最优传输理论中的推土距离(EMD 距离)是测量这种相关性的一种有效方法。如在前人的一些工作中所述,EMD 寻求最优联合分布

  在小样本分类中,DeepEMD 提出了可微分 EMD 对图像区域进行最优匹配,从而能够更好的利用图像之间的联合分布去度量相似度。尽管 DeepEMD 实现了很有竞争力的性能,但是因为其计算时需要求解线性规划方程,导致计算成本很高,实际的训练和测试会很耗时。除此之外,互信息 (Mutual Information, MI) 也是一种典型的度量方法,它可以通过两个随机变量的联合分布与边缘乘积之间的 KL - 散度来量化其相关性。但遗憾的是,在高维空间中,MI 的计算比较困难,往往涉及到复杂的概率密度建模或 KL-divergence 的下界估计。

  在本文中,该研究提出了一种基于深度布朗距离协方差 (DeepBDC) 的方法用于小样本分类任务。布朗距离协方差 (Brownian Distance Covariance, BDC) 最早由 Gábor 等人提出,其定义为联合特征函数与边缘乘积之间的欧氏距离。它可以很自然地量化两个随机变量之间的相关性。

  在 DeepBDC 中,该研究将 BDC 实现成一个即插即用的模块,可以灵活的接入到深度神经网络中,获得 BDC 矩阵,以此作为图像的表征。通过计算一对图像的 BDC 矩阵内积便可得到两个图像的相似度。

  同时,该研究实现的 BDC 模块也可以应用在基于简单迁移学习的框架下,比如 Chen 等人提出的 baseline/baseline++。相比于经典协方差,布朗距离协方差能够刻画非线性随机变量之间的相关性和独立性,因此可以更准确的度量分布之间的相似度。

  和同样考虑联合分布的 EMD 相比,BDC 的计算效率很高,几乎不影响网络的推理速度。同时由于 BDC 不需要建模概率密度,因此相比于 MI 来说,计算更简洁。在上表 1 中,该研究展示了 DeepBDC 和其对应方法之间的差异。

  该研究首次将布朗距离协方差 (BDC) 引入基于深度网络的小样本分类,表明了 BDC 在深度学习中有巨大潜力和未来应用价值。

  该研究将提出的 DeepBDC 实现成一个即插即用的模块,可适用于不同的小样本学习框架。同时,该研究结合两种不同范式的小样本学习框架对 DeepBDC 进行了实例化,即基于原型网络框架的 Meta DeepBDC 和基于简单迁移学习框架的 STL DeepBDC。

  该研究对提出的方法进行了深入的消融研究,并在 6 个小样本分类基准上进行了广泛的实验。实验结果表明,两种实例都取得了当前最好的分类性能。

  BDC 理论最早是 Gábor 等人建立的,可以表示为随机变量之间的联合特征函数和其边缘分布的乘积之间的欧式距离。记

  的平移和标准正交变换是不变的,对它们的各自尺度变换是等变的。即对于任意向量

  从上节可以得知,对于一对输入图像来说,可以独立的计算其 BDC 矩阵,再进行内积操作获得二者的相似度。因此该研究将该过程实现为一个独立的模块,用于计算每张图像高层卷积特征的 BDC 矩阵。且由于 BDC 矩阵的大小为输入卷积特征维度的二次方,因此为了控制输出维度,该研究引入了一个 1×1 的卷积层进行降维。

  一种典型的小样本学习范式是以 ProtoNet 为代表的元学习,在每次训练时抽取一部分数据组成支撑集和查询集进行学习,使得网络能够从各种任务中学习到如何学习,并将这种能力迁移到全新的类别上。同时另一种基于简单迁移学习的学习框架也取得了不错的泛化性能,其在训练阶段是一个一般的图像分类任务,通过学习使得网络获得更好的嵌入特征,在新的类别上测试时,能够快速适应。基于这两种学习框架,该研究构建了基于元学习的 Meta DeepBDC 和基于简单迁移学习的 STL DeepBDC。

  如图 1 所示,Meta DeepBDC 是在 ProtoNet 架构的基础上构建的,通过对支撑集图像得到的 BDC 表达进行平均得到了每一类的原型表达,通过计算查询图像的 BDC 表达和每一类原型表达之间的内积,获得与每类之间的距离,从而进行类别判断。在实验环节,该研究评估了几种不同的获取原型表达的方式。

  STL DeepBDC 基于一个典型的迁移学习框架 Good-Embed,使用大量的标注数据进行训练,获得一个更好的基础模型用来得到图像的嵌入特征。在新的类别空间里,通过线性层或者回归器对得到的嵌入特征进行学习,得到一个分类器用于识别。如图 2 所示,该研究将 BDC 矩阵当作输入图像的嵌入特征送到尾部的分类器中进行学习,利用交叉熵损失函数进行网络的优化。

  本文中该研究在通用识别任务 miniImageNet 和 tieredImageNet,以及细粒度识别任务 CUB, Cars, Aircraft 上进行了评估。在这些数据集上,为了和前人的工作可以公平比较,该研究使用了标准的数据集划分,数据增广和训练策略。其中每个数据集都被划分为 meta-training,meta-validation 和 meta-testing 三个子集,每个子集之间的类别不重叠。除 CUB 使用 224×224 大小的图像作为输入之外,其他实验均使用 84×84 分辨率的输入。

  在跨域任务上,该研究以 miniImageNet 为源域,以三个细粒度数据集 CUB,Cars,Aircraft 为目标域进行跨域评估。他们将 miniImageNet 的全集作为训练集,分别在目标域数据集上进行测试。结果如表 3 所示,在 miniImageNet→CUB 上,基于协方差的 CovNet 是非常有竞争力的,仅略低于当前最好的 FRN。和 FRN 相比,Meta DeepBDC 和 STL DeepBDC 分别比高性能 FRN 高出 0.8% 和 3.1%;在 miniImageNet→Aircraft 上,该研究的两种实现也比其他方法有着显著的提高,性能提升大于 3.2%;在 miniImageNet→Cars 上,该研究的方法同样也是处于领先,其中比最好的 ADM 在 1-shot 和 5-shot 上分别提高了 0.7% 和 4.2%。这些结果都充分证明了本文方法具有很好的域迁移能力。

  表 2:在通用分类任务和细粒度识别任务上的性能比较。黑色表示最好的性能,红色表示次好性能。

  表 3:在领域迁移任务上的性能比较。黑色表示最好的性能,红色表示次好性能。

  首先该研究评估了降维层对 DeepBDC 和同类方法的性能影响。由上文可知,降维层输出特征通道数为 d, 研究分别评估了 d 取不同值时的 5-shot 性能。如图 3 可以看出随着维度的升高,ADM 和 CovNet 分别在 d=196,和 d=256 时达到最高,之后性能会下降,和一阶的 ProtoNet 接近。Meta DeepBDC 也是类似的情况,但只有当维度超过 640 时,才会出现性能降低。另外我们也可以看出该研究两种实现在各个维度上都能显著的高于同类方法,进一步的展示了利用布朗距离协方差的优异性能。

  紧接着该研究分别针对 Meta DeepBDC 和 STL DeepBDC 进行评估。Meta DeepBDC 中的一处关键实现是计算两个表达之间的距离,该研究在相同的实验设置下评估了其他两种常用的度量方式,即欧式距离和余弦距离,结果如表 4 所示。

  从中我们可以看到各个距离函数的计算代价基本是可比的,其中在 1-shot 任务中,使用内积可以获得最好的性能;在 5-shot 中使用欧式距离可以获得最好的性能。针对 STL DeepBDC,该研究评估了使用不同分类器对性能的影响,其中可以看出使用 SVM 具有最小的时间代价,但是性能不理想;使用逻辑回归器可以获得最好的性能,同时计算效率并没有受太大影响,尤其是和 Softmax 分类器相比时,具有明显的优势。根据这两个实验结论,该研究在所有实验中使用这样的设置。

  此外,该研究还对各个方法的运行时间进行了比较。在相同的计算设备上,测量 DeepBDC 和同类方法在 meta-training 和 meta-testing 时每个任务的运行时间(ms/episode)。结果如表 6 所示,可以看出在同类方法中考虑联合分布的 DeepEMD 性能最好,但是其训练和测试代价极大,远超过其他所有方法。DeepBDC 的训练和测试代价略高于 CovNet 和 ProtoNet,但是性能有着显著的优势。因此这部分实验证明了 DeepBDC 是性能优异且高效的方法,能够适用于实际的应用中。

  同时该研究也探究了 DeepBDC 在容量更大的模型上的表现。目前的小样本学习方法通常使用 ResNet-12 或者 ResNet-18 作为基础骨干模型,因此该研究使用更深层的 ResNet-34 进行了实验。他们在 miniImageNet 和 CUB 上分别和同类方法进行了比较,结果如表 7 和表 8 所示。我们可以看出当使用更大容量模型时,该研究的两种实现均有持续的性能提升。

  最后,该研究在一些线性和非线性相关的样本上展示了布朗距离相关系数(BDCorr)和经典协方差相关系数(Corr)上的建模相关性的能力。如图 9 所示,BDCorr 在线性相关的样本上和 Corr 具有相似的能力,且由于其非负性,BDCorr 无法反映方向性;二者都不能反映斜率的大小。但从图 10 中我们可以看出,对于所有的非线性相关样本,Corr 都等于 0,无法度量非线性相关性;而 BDCorr 可以刻画这种复杂非线性情况下的相关性。这一点充分证明了 BDC 在度量分布之间的相关性时,比经典协方差的能力更强。

  在本文中,该研究提出了 DeepBDC 用于小样本分类任务,DeepBDC 通过度量样本对之间的联合分布从而获得更准确的相似度,极大的提升了小样本分类的性能。据了解,这是首次将布朗距离协方差这一潜力巨大、但又严重低估的统计学方法引入到深度学习中,并将其实现为一个高效的即插即用的模块,可以灵活的嵌入到任意深度卷积网络中。该研究提供的两种实现方案,即无论是基于度量学习的 Meta DeepBDC 还是基于简单迁移学习的 STL DeepBDC 都证明了这种易用性。

  大量的实验表明,该研究的方法都在多个通用、细粒度、跨域小样本学习任务上获得了非常具有竞争力的性能,取得了当前最好的结果。该研究提出的 DeepBDC 是一种基本的度量距离 / 相似性和建模相关性的深度学习技术,在计算机视觉和机器学习中具有广泛的应用前景。© THE END

  原标题:《CVPR 2022 Oral 大连理工提出小样本识别DeepBDC,6项基准性能最好》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。