signed

QiShunwang

“诚信为本、客户至上”

第三周【任务1】学习支持向量机(打卡)

2020/12/29 1:00:09   来源:

**任务标题:**学习花书5.7.2-5.7.3章,看LDA、SVM两个视频

**任务简介:**学习支持向量机,其他监督学习算法 (视频LDA,SVM)

详细说明:

1.支持向量机

  • 对于一个线性可分的数据集,定义样本到分割超平面的最短距离为间隔。间隔越大,分割超平面对两个类别的划分越稳定,不容易受噪声影响。支持向量机的目标即寻找间隔最大的超平面。
  • 寻找最大间隔分割超平面可写为一个凸优化问题,根据KKT条件求解。
  • 支持向量机的最优决策函数可重写为输入向量与各支持向量的内积求和。用核函数代替内积,可隐式地将样本从原始特征空间映射到更高维的空间,解决原始特征空间中的线性不可分问题。
  • 常见的核函数包括高斯核,又称radial basis function (RBF)核。
  1. LDA
  • 理解类间方差和类内方差,LDA损失函数

学习目标:

a. 监督学习:SVM,LDA

b.了解支持向量机的动机

c. 掌握支持向量机算法

d.了解如何通过核函数解决线性不可分问题

e.理解LDA与PCA的不同

打卡内容:

问题一:

假设我们要学习一个硬间隔SVM, 其线性决策函数为 w ⊤ x + b = 0 \mathbf{w}^{\top} \mathbf{x}+b=0 wx+b=0. 输入特征为 x 1 , x 2 x_1, x_2 x1,x2,标签 y ∈ { − 1 , + 1 } y \in\{-1,+1\} y{1,+1}

分别用 △ \triangle ∘ \circ 表示。如图

在这里插入图片描述

1. 根据最大间隔原则,在图中标出支持向量,并大致画出对应的分割超平面。

2. 若超平面 H 1 H_1 H1的表达式是 w ⊤ x + b = 1 \mathbf{w}^{\top} \mathbf{x}+b=1 wx+b=1,写出超平面 H 2 H_2 H2表达式

w ⊤ x + b = − 1 \mathbf{w}^{\top} \mathbf{x}+b=-1 wx+b=1

3.线性硬间隔支持向量机的限制可以写作 y i ( w ⊤ x i + b ) ≥ 1 , ∀ i ∈ { 1 , … , N } y_{i}\left(\mathbf{w}^{\top} \mathbf{x}_{\mathbf{i}}+b\right) \geq 1, \forall i \in\{1, \ldots, N\} yi(wxi+b)1,i{1,,N},解释其原因

首先我们设点 x 0 x_0 x0到超平面的距离为 r r r,在超平面上的投影为 x 1 x_1 x1, 那么法向量 w w w一定与向量 x 1 x 0 → \overrightarrow{\boldsymbol{x_{1}} \boldsymbol{x_{0}}} x1x0 平行,此时若考虑求两个向量内积的绝对值可得
∣ w T ⋅ x 1 x 0 → ∣ = ∥ w ∥ ⋅ ∣ ± 1 ∣ ⋅ ∥ x 1 x 0 → ∥ = ∥ w ∥ ⋅ r \left|\boldsymbol{w}^{\mathrm{T}} \cdot \overrightarrow{\boldsymbol{x}_{1} \boldsymbol{x}_{0}}\right|=\|\boldsymbol{w}\| \cdot|\pm 1| \cdot\left\|\overrightarrow{\boldsymbol{x}_{1} \boldsymbol{x}_{0}}\right\|=\|\boldsymbol{w}\| \cdot r wTx1x0 =w±1x1x0 =wr
又因为
w T ⋅ x 1 x 0 → = w 1 ( x 0 1 − x 1 1 ) + w 2 ( x 0 2 − x 1 2 ) + … + w n ( x 0 n − x 1 n ) = w 1 x 0 1 + w 2 x 0 2 + … + w n x 0 n − ( w 1 x 1 1 + w 2 x 1 2 + … + w n x 1 n ) = w 1 x 0 1 + w 2 x 0 2 + … + w n x 0 n − ( − b ) = w 1 x 0 1 + w 2 x 0 2 + … + w n x 0 n + b = w T x 0 + b \begin{aligned} \boldsymbol{w}^{\mathrm{T}} \cdot \overrightarrow{\boldsymbol{x}_{1} \boldsymbol{x}_{0}} &=w_{1}\left(x_{0}^{1}-x_{1}^{1}\right)+w_{2}\left(x_{0}^{2}-x_{1}^{2}\right)+\ldots+w_{n}\left(x_{0}^{n}-x_{1}^{n}\right) \\ &=w_{1} x_{0}^{1}+w_{2} x_{0}^{2}+\ldots+w_{n} x_{0}^{n}-\left(w_{1} x_{1}^{1}+w_{2} x_{1}^{2}+\ldots+w_{n} x_{1}^{n}\right) \\ &=w_{1} x_{0}^{1}+w_{2} x_{0}^{2}+\ldots+w_{n} x_{0}^{n}-(-b) \\ &=w_{1} x_{0}^{1}+w_{2} x_{0}^{2}+\ldots+w_{n} x_{0}^{n}+b=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{0}+b \end{aligned} wTx1x0 =w1(x01x11)+w2(x02x12)++wn(x0nx1n)=w1x01+w2x02++wnx0n(w1x11+w2x12++wnx1n)=w1x01+w2x02++wnx0n(b)=w1x01+w2x02++wnx0n+b=wTx0+b
可以理解 x 0 \boldsymbol{x_0} x0这个从坐标原点为起点的向量先投影在法向量 w \boldsymbol{w} w上,然后减去 b b b这个原点到超平面的距离,就得到了 x 1 x 0 → \overrightarrow{\boldsymbol{x_{1}} \boldsymbol{x_{0}}} x1x0 在法向量上的投影长度

所以
∣ w T ⋅ x 1 x 0 ‾ ∣ = ∣ w T x 0 + b ∣ = ∥ w ∥ ⋅ r ⇒ r = ∣ w T x + b ∣ ∥ w ∥ \left|\boldsymbol{w}^{\mathrm{T}} \cdot \overline{\boldsymbol{x}_{1} \boldsymbol{x}_{0}}\right|=\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{0}+b\right|=\|\boldsymbol{w}\| \cdot r\\ \Rightarrow r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|} wTx1x0=wTx0+b=wrr=wwTx+b
我们又定义函数间隔:给定数据集 D = { ( x 1 , y 1 ) ⋅ ( x 2 , y 2 ) … ( x m