度量学习

机器学习中，对高维数据进行降维的主要目的是希望找到一个合适的低维空间，在此空间中进行学习能比原始空间性能更好。事实上，每个空间对应了在属性上定义的一个距离度量，而寻找合适的空间，实质上就是在寻找一个合适的距离度量。度量学习（metric learning）的基本动机就是直接尝试“学习”出一个合适的距离度量。

如果要对距离度量进行学习，必须有一个便于学习的距离度量的表达式，对两个\(d\)维样本\(\pmb{x}_i\)和\(\pmb{x}_j\)，它们之间的平方欧氏距离为 \[dist_{ed}^2(\pmb{x}_i, \pmb{x}_j) = ||\pmb{x}_i - \pmb{x}_j||_2^2 = dist_{ij,1}^2 + dist_{ij,2}^2 + \cdots + dist_{ij,d}^2\] 其中\(dist_{ij,k}\)表示\(\pmb{x}_i\)和\(\pmb{x}_j\)在第\(k\)维上的距离，若假定不同属性的重要性不同，则可引入属性权重\(\pmb{w}\)，得到 \[\begin{align} dist_{wed}^2(\pmb{x}_i, \pmb{x}_j) &= ||\pmb{x}_i - \pmb{x}_j||^2 = w_1·dist_{ij,1}^2 + w_2·dist_{ij,2}^2 + \cdots + w_d·dist_{ij,d}^2 \nonumber \\ &= (\pmb{x}_i - \pmb{x}_j)^T \mathbf{W} (\pmb{x}_i - \pmb{x}_j) \nonumber \end{align}\] 其中\(w_i \geq 0\)，\(\mathbf{W} = diag(\pmb{w})\)是一个对角矩阵，\((\mathbf{W}_{ii}) = w_i\)。
上式中的\(\mathbf{W}\)可通过学习确定，但是还可以更进一步：\(\mathbf{W}\)的非对角元素均为0，这意味着坐标轴是正交的，即属性之间无关；但是现实问题中往往不是这样，如人的身高和体重，它们显然正相关，其对应的坐标轴不再正交。为此，可将上式中的\(\mathbf{W}\)替换为一个普通的半正定对称矩阵\(\mathbf{M}\)，于是就得到了马氏距离（Mahalanobis distance）： \[dist_{mah}^2 (\pmb{x}_i, \pmb{x}_j) = (\pmb{x}_i - \pmb{x}_j)^T \mathbf{M} (\pmb{x}_i - \pmb{x}_j) = ||\pmb{x}_i - \pmb{x}_j||_{\mathbf{M}}^2\] 其中\(\mathbf{M}\)也称为"度量矩阵"，而度量学习则是对\(\mathbf{M}\)进行学习。注意到为了保持距离非负且对称，\(\mathbf{M}\)必须是（半）正定对称矩阵，即必有正交基\(\mathbf{P}\)使得\(\mathbf{M}\)可写成\(\mathbf{M} = \mathbf{P} \mathbf{P}^T\)。

标准马氏距离中\(\mathbf{M}\)是协方差矩阵的逆，即\(\mathbf{M} = \pmb{\Sigma}^{-1}\)，在度量学习中\(\mathbf{M}\)被赋予了更大的灵活性。

对\(\mathbf{M}\)的学习需要设置一个目标，假定我们希望提高近邻分类器的性能，则可将\(\mathbf{M}\)直接嵌入到近邻分类器的评价指标中去，通过优化该性能指标相应地求得\(\mathbf{M}\)。

下面以近邻成分分析（Neighbourhood Component Analysis，NCA）为例：

近邻分类器在进行判别时通常使用多数投票法，邻域中的每个样本投1票，邻域外的样本投0票。这里将其替换为概率投票法，对于任意样本\(\pmb{x}_j\)，它对\(\pmb{x}_i\)分类结果影响的概率为 \[p_{ij} = \frac{exp(- ||\pmb{x}_i - \pmb{x}_j||_{\mathbf{M}}^2)}{\sum_l exp(- ||\pmb{x}_i - \pmb{x}_j||_{\mathbf{M}}^2)}\] 当\(i=j\)时，\(p_{ij}\)最大。显然，\(\pmb{x}_j\)对\(\pmb{x}_i\)的影响随着它们之间距离的增大而减小。若以留一法正确率的最大化为目标，则可计算\(\pmb{x}_i\)的留一法正确率，即它被自身之外的所有样本正确分类的概率为 \[p_i = \sum_{j \in \Omega_i} p_{ij}\] 其中\(\Omega_i\)表示与\(\pmb{x}_i\)属于相同类别的样本的下标集合。于是，整个样本集上的留一法正确率为 \[\sum_{i=1}^m p_i = \sum_{i=1}^m \sum_{j \in \Omega_i} p_{ij}\] 带入概率计算公式，同时考虑\(\mathbf{M} = \mathbf{P} \mathbf{P}^T\)，则NCA的优化目标为 \[\min_{\mathbf{P}} \quad 1-\sum_{i=1}^m \sum_{j \in \Omega_i} \frac{exp(-||\mathbf{P}^T \pmb{x}_i - \mathbf{P}^T \pmb{x}_j||_2^2)}{\sum_l exp(-||\mathbf{P}^T \pmb{x}_i - \mathbf{P}^T \pmb{x}_l||_2^2}\] 求解上式即可得到最大化近邻分类器正确率的距离度量矩阵\(\mathbf{M}\)。

实际上，我们不仅能把错误率这样的监督学习目标作为度量学习的优化目标，还能在度量学习中引入领域知识。例如，若已知某些样本相似、某些样本不相似，则可定义“必连”约束集合\(\mathscr{M}\)与“勿连”约束集合\(\mathscr{C}\)，\((\pmb{x}_i, \pmb{x}_j) \in \mathscr{M}\)表示\(\pmb{x}_i\)与\(\pmb{x}_j\)相似，\((\pmb{x}_i, \pmb{x}_k) \in \mathscr{C}\)表示\(\pmb{x}_i\)和\(\pmb{x}_k\)不相似。显然，我们希望相似的样本之间距离较小，不相似的样本之间距离较大，于是可通过求解下面这个凸优化问题获得适当的度量矩阵\(\mathbf{M}\)： \[\begin{align} & \min_{\mathbf{M}} \quad \sum_{(\pmb{x}_i, \pmb{x}_j) \in \mathscr{M}} ||\pmb{x}_i - \pmb{x}_j||_{\mathbf{M}}^2 \nonumber \\ & s.t. \qquad \sum_{(\pmb{x}_i, \pmb{x}_j) \in \mathscr{C}} ||\pmb{x}_i - \pmb{x}_k||_{\mathbf{M}} \geq 1 \nonumber \\ & \qquad \qquad \mathbf{M} \succeq 0 \nonumber \end{align}\] 其中约束\(\mathbf{M} \succeq 0\)表明\(\mathbf{M}\)必须是半正定的。上式要求在不相似样本间的距离不小于1的前提下，使相似样本间的距离尽可能小。

不同的度量学习方法针对不同目标获得“好”的半正定对称距离度量矩阵\(\mathbf{M}\)，若\(\mathbf{M}\)是一个低秩矩阵，则通过对\(\mathbf{M}\)进行特征值分解，总能找到一组正交基，其正交基数目为矩阵\(\mathbf{M}\)的秩\(rank(\mathbf{M})\)，小于原属性数\(d\)。于是，度量学习学得的结果可衍生出一个降维矩阵\(\mathbf{P} \in \mathbf{R}^{d \times rank(\mathbf{M})}\)，可用于降维。