理解计算：从根号2到AlphaGo -14: 第6季多维的浪漫：统计学习理论与支持向量机-2

-loading-

2019-10-11 , 208 , 0 , 183

听音频 🔊 . 看视频 🎦

最优分类器与理想的统计学习

在对于任意的数据集（X,Y）损失函数L以及联合概率分布p(x,y)，那么是否存在一个能将期望风险降到最低的最优分类器？

实际上，这个分类器是存在的，即贝叶斯分类器fb。

它是各种分类器中分类错误概率最小或者在预先给定代价L的情况下平均风险最小的分类器, 它的设计方法是按照贝叶斯决策理论进行设计的一种最优分类器。

我在本季中不展开讲解贝叶斯理论，大家只需要知道设计贝叶斯分类器的关键是要知道样本 x的各种后验概率密度函数，这些要求决定了在实际情况下贝叶斯分类器的实际使用范围很有限，因为后验概率密度函数几乎与联合概率密度函数一样复杂且未知。

在前面的例子中我们给定了一个分类器，并了解了这个分类器对应的经验风险和期望(真实)风险。

统计学习理论的目标就是在有限n个数据样本的情况下，学习某个分类器fn，同时需要证明fn的性能与与贝叶斯最优分类器fb性能的之间的差距可以通过某种方式逐渐接近。

例如在样本数趋于无穷的时候，我们学习的分类器fn的性能如果够无限接近贝叶斯分类器fb的性能。

在理论上来说，就是分类器fn在样本无限多时能以任意大的概率和任意小的差距逼近贝叶斯最优分类器的性能，且对联合概率分布p (x,y)没有任何假设，这是我们最理想的统计学习策略。

最优学习策略说明只要不断增加数据，就能使学习得到的fn的分类性能(风险)就能够逐渐接近最优分类器fb的分类性能 (风险)。

在这里我们依然采用风险来度量分类器的性能。然而这个目标依然非常严格，达到这个目标非常困难。

这是因为，我们的学习算法实际上只是从一个函数空间F(假设空间)中选择某个函数f，但是我们的这个函数空间F很大程度上可能并不包含贝叶斯分类器，那么理论上在这个空间中，(随着样本数目的增加)任何学习算法都不可能获得接近fb性能的分类器，如图所示假设空间2不包含贝叶斯分类器fb。

图4 无法学习到的最优分类器[1].webp

图4 无法学习到的最优分类器[1]

尽管可能无法学习到贝叶斯分类器，我们依然希望了解采用某种方式学习得来的分类器fn和贝叶斯分类器fb之间的差距到底在哪里？为了进一步了解，我们看下面的图：

图5 学习的分类器与最优分类器的性能差距[1].webp

图5 学习的分类器与最优分类器的性能差距[1]

橙色点是贝叶斯分类器fb，绿色点是我们的假设空间中最优的分类器fF,，即可以看作是空间F分类器中使期望风险最低的分类器，灰色点是我们的学习算法在利用n个样本训练得到的分类器fn , fn∈F，此时相较于贝叶斯最优分类器fb，性能差距为：

在假设F给定的情况下，如果对任意的概率分布p(x,y)，学习算法均能够贝叶斯一致，那么这个学习算法具有全局一致性。

-loading-

随着前提条件越来越放松，一致性的要求越来越高。别说贝叶斯一致了，就是在假设空间F中一致性实际上也并不容易实现。全局一致的算法看起来更难找到。

UfqiLong

神奇的是，在1977年科学家们证明了一种最简单的K近邻算法(K-Nearest Neighbor,KNN)在K为无穷大时，全局一致。

这个算法非常简单，如果一个实例在特征空间中的K个最相似（即特征空间中最近邻）的实例中的大多数属于某一个类别，则该实例也属于这个类别。

这也从侧面证明了这个简单算法的强大之处，但是K为无穷大时的全局一致性只能是一种理论存在。

经验风险学习的性能

尽管我们介绍了fn和fF以及fb之间的关系，并且说明了学习方法应该具有一致性。但是依然忽略了采用哪种风险来学习得到fn。

实际上，我们手上只有经验风险看起来比较容易得到，如果利用经验风险最小化的方法(ERM)去学习fn，ERM学习是否能够满足一致性的要求，能够满足哪种一致性要求呢？

现在我们只考虑最宽松的一致性，即在ERM定义的经验风险Remp的情况下，随着样本数目n的增加，Remp(fn)是否能无限逼近F中期望风险最小的最优分类器R (fF)，我们将看到，F空间的大小起到了很重要的作用。

单一函数假设空间|F|=1

在经验风险情况下，一种极端情况，在分类器的假设空间中只有一种选择f，那么无论何时fn=fF=f 都成立。显然，任何学习算法都能在F中一致。

我们现在关注的问题是，当n → ∞时，Remp(f) → R(f)吗？换言之，当样本增多时，f的经验风险Remp(f)是否可以无限逼近真实风险R(f)？

从之前经验风险和期望风险的定义可以看出，当f固定时，Remp(f) 是损失L的样本均值，真实(期望)风险R(f)是损失L的期望, 在n逐渐增多时，利用统计学中一个重要的定理：辛钦大数定律(样本数量很大的时候，样本均值和真实均值(期望)充分接近)直接得出结论：当f固定时，当n趋于无穷时，经验风险Remp (fn)可以依概率收敛到真实(期望)风险R(fF)。

图6 单一函数空间中学习的一致性.webp