支持向量机(SVM)-点头深度学习网站

什么是SVM?

SVM 是一类强大的用于分类和回归问题的监督学习算法。在分类方面，SVM 可以被视为最大间隔线性分类器。

SVM 使用的目标明确鼓励低样本外误差（良好的泛化性能）。通过最大化类的超平面之间的余量，将 D 维数据划分为类。

请注意，我们假设数据中的两个类是线性可分离的。稍后，对于非线性边界，我们将使用核技巧来利用更高维度（可能是无限）的 z 空间，其中类是线性可分的，找到该空间中的支持向量并将其映射回我们的问题。

线性可分类：

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# use seaborn plotting defaults
import seaborn as sns; sns.set()

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=50, centers=2,
                  random_state=0, cluster_std=0.60)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer');

我们知道的线性分类器会在类之间画一条直线。通过这个例子，我们可以手动完成此操作。但是，有多个决策边界（线）可以实现最小样本内误差。让我们在下面绘制它们。

多种可能的决策面：

xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plt.plot([0.6], [2.1], 'x', color='green', markeredgewidth=2, markersize=10)

for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
    plt.plot(xfit, m * xfit + b, '-k')

plt.xlim(-1, 3.5);

最大间隔线性分类器:

对于由权重 $w$ 和偏差 $b$ 定义的超平面，线性判别式由下式给出：
$$
w^T x+b\left\{\begin{array}{l}
\geq 0 \text { class }+1 \\
<0 \text { class }-1
\end{array}\right.
$$

在上图中，我们注意到，对于接近决策边界 $w^T x+b=0$ 的点 $x ， x$ 的微小变化可能会导致分类发生变化。现在假设数据是线性可分的，我们对训练数据强加决策边界应该与数据分开一定的有限量 $\epsilon^2$ :
$$
w^T x+b\left\{\begin{array}{c}
\geq \epsilon^2 \text { class }+1 \\
<-\epsilon^2 \text { class }-1
\end{array}\right.
$$

对于上面的不等式，我们方便地设置 $\epsilon=1$ ，使得类 +1 中最接近决策边界的点 $x_{+}$满足
$$
w^T x_{+}+b=1
$$

类 – 1 中最接近决策边界的点 $x_{-}$满足
$$
w^T x_{-}+b=-1
$$

再次绘制边界:

xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')

for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]:
    yfit = m * xfit + b
    plt.plot(xfit, yfit, '-k')
    plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
                     color='#AAAAAA', alpha=0.4)

plt.xlim(-1, 3.5);

使用 SVM 时，会选择最大化此“间距”的决策边界作为最佳模型。

SVM 使用示例:

使用之前的数据，现在让我们使用 Scikit-Learn 的支持向量分类器训练 SVM 模型。我们将把有关内核的讨论推迟到课程的后面部分。目前，我们将使用“线性”内核并将“C”参数设置为任意大的数字。

from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear', C=1E10)
model.fit(X, y)

可视化SVM的决策边界:

def plot_svc_decision_function(model, ax=None, plot_support=True):
    """Plot the decision function for a 2D SVC"""
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    # create grid to evaluate model
    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)
    Y, X = np.meshgrid(y, x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    # plot decision boundary and margins
    ax.contour(X, Y, P, colors='k',
               levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    
    # plot support vectors
    if plot_support:
        ax.scatter(model.support_vectors_[:, 0],
                   model.support_vectors_[:, 1],
                   s=300, linewidth=1, facecolors='none');
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plot_svc_decision_function(model);

划分数据的粗线最大化了两组点之间的余量。计算刚刚触及边缘的训练点的数量。这三个点称为“支持向量”。这些完全满足边距的点存储在 Scikit-Learn 中分类器的“support_vectors_”属性中。

model.support_vectors_

array([[0.44359863, 3.11530945],
       [2.33812285, 3.43116792],
       [2.06156753, 1.96918596]])

讨论:

在硬间隔 SVM 分类器中，只有支持向量的位置很重要。远离边缘的点对用于拟合模型的损失函数没有贡献。详见下述示例

def plot_svm(N=10, ax=None):
    X, y = make_blobs(n_samples=200, centers=2,
                      random_state=0, cluster_std=0.60)
    X = X[:N]
    y = y[:N]
    model = SVC(kernel='linear', C=1E10)
    model.fit(X, y)
    
    ax = ax or plt.gca()
    ax.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
    ax.set_xlim(-1, 4)
    ax.set_ylim(-1, 6)
    plot_svc_decision_function(model, ax)

fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, N in zip(ax, [60, 120]):
    plot_svm(N, axi)
    axi.set_title('N = {0}'.format(N))

在左侧面板中，我们看到模型和 60 个训练点的支持向量。在右图中，我们将训练点数增加了一倍，但模型没有改变：左图中的三个支持向量仍然是右图中的支持向量。这种对远距离点的确切行为不敏感是 SVM 模型的优势之一。

交互式可视化:

from ipywidgets import interact, fixed
interact(plot_svm, N=(10, 200, 10), ax=fixed(None));

核技巧和分线性决策边界:

线性与非线性可分数据

线性可分数据：数据集可以被一个线性边界（在二维空间中是一条直线，更高维度中是一个超平面）完美分隔。
非线性可分数据：数据集不能被一个线性边界完美分隔。

对于非线性可分的数据，传统的线性SVM模型无法有效工作。这就是核技巧发挥作用的地方。

核技巧的基本概念 核技巧的核心思想是将数据映射到一个更高维度的空间，在这个空间中，原本在原始空间里非线性可分的数据可能变得线性可分。这种映射是通过一个称为“核函数”的数学函数实现的。

常见的核函数

线性核：没有映射，保持原始特征空间。适用于线性可分的数据。
多项式核：通过对原始特征的不同组合和次方进行计算，创建额外的特征。
径向基函数核（RBF，通常称为高斯核）：创建无限维的特征空间，非常强大，适用于多种非线性场景。
Sigmoid核：类似于神经网络中的激活函数。

核函数的选择 核函数的选择依赖于数据和任务。没有一个核适用于所有情况。线性核对于线性可分的数据效果很好，而RBF核因其灵活性和能处理复杂数据的能力而广泛使用。

优点与计算效率 核技巧的一个主要优点是它允许在高维空间中进行运算，而无需显式计算高维空间中的数据点。这是因为核函数可以简洁地计算出高维空间中数据点的内积，而不需要实际地将数据点映射到那个空间。这个特性大大提高了SVM处理非线性问题的计算效率。

现在让我们绘制一些不可线性分离的数据：

from sklearn.datasets import make_circles
X, y = make_circles(100, factor=.1, noise=.1)

clf = SVC(kernel='linear').fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plot_svc_decision_function(clf, plot_support=False);

运行几次后，我想你就会发现，没有任何线性决策边界能够将数据分开。这时，核就派上用场了。我们可以将数据投影到存在线性分离器的高维空间中。一种广泛使用的投影方法是使用以中间团块为中心的径向基函数进行计算。

r = np.exp(-(X ** 2).sum(1))

可视化高维映射:

from mpl_toolkits import mplot3d

def plot_3D(elev=30, azim=30, X=X, y=y):
    ax = plt.subplot(projection='3d')
    ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap='summer')
    ax.view_init(elev=elev, azim=azim)
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.set_zlabel('r')

interact(plot_3D, elev=(-90, 90), azip=(-180, 180),
         X=fixed(X), y=fixed(y));

clf = SVC(kernel='rbf', C=1E6)
clf.fit(X, y)

让我们逐个解析这些参数：

SVC：这是 scikit-learn 中用于分类的支持向量机模型的类。SVC 代表 Support Vector Classification，即支持向量分类。
kernel='rbf'：
- kernel 参数指定了SVM将使用的核函数。核函数用于将输入数据映射到一个更高维的空间，这对于处理非线性可分数据是非常有用的。
- 'rbf' 代表径向基函数（Radial Basis Function）核，也称为高斯核。这是一种非常流行的核，特别适合于处理不同区域内的数据点具有不同的特性的情况。RBF核可以处理非线性可分的数据，是实际应用中常用的默认选择。
C=1E6：
- C 参数是一个正则化参数，其值决定了模型对于错误分类样本的容忍度。C 的值越大，模型越不能容忍错误分类，会尽量使所有样本都被正确分类，这可能导致过拟合（即模型在训练数据上表现良好，但在新的、未见过的数据上表现不好）。
- 1E6 是一个数学表示，等同于 1×1061×106，即 1000000。这是一个很大的 C 值，意味着模型会尽量减少分类错误，即使这可能导致模型变得复杂并可能过拟合。
可视化的结果如下所示：

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plot_svc_decision_function(clf)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
            s=300, lw=1, facecolors='none');