signed

QiShunwang

“诚信为本、客户至上”

凸优化与支持向量机理解

2020/12/26 17:28:18   来源:

凸优化问题

  • 对于AI任务的理解:
    • AI问题由两个方面组成:模型优化,通过程序实现,程序的实现又可以拆解为数据结构+算法
  • 凸优化是在机器学习和深度学习中常用的优化方法的理论基础

优化问题分类

  • 优化问题可以从四个方面分类:
    • 是否为凸优化问题
    • 是否连续
    • 是否带条件
    • 是否平滑
  • 其中最重要的是问题是否为凸优化问题

凸优化的重要概念

  • convex set 凸集
    • 对于任意x, y ∈ \in C 且任意参数, α ∈ \alpha \in α[0, 1],有 α x + ( 1 − α ) y ∈ C \alpha x+(1-\alpha)y \in C αx+(1α)yC,则为凸集。示意图如下:
      *在这里插入图片描述
    • 两个凸集的交集也是凸集
  • convex function 凸函数
    • 函数定义域为凸集,对于定义域任意x、y,函数满足 f ( θ x + ( 1 − θ ) y ) < = θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)<= \theta f(x)+(1-\theta)f(y) f(θx+(1θ)y)<=θf(x)+(1θ)f(y) 如下
    • 在这里插入图片描述

凸优化的应用

  • 利用凸优化解决线性规划问题
  • 思路流程:
    • 确定变量
    • 确定目标
    • 寻找限制条件
    • 判断目标类型
    • 寻找设计方法
  • 凸优化最基本形式:
    • minimize f 0 ( x ) f_0 (x) f0(x)
    • subject to f i ( x ) < = 0 , i = 1 , . . . , m f_i(x)<=0, i=1, ..., m fi(x)<=0,i=1,...,m
    • subject to h i ( x ) = 0 , i = 1 , . . . , p h_i(x)=0, i=1, ... , p hi(x)=0,i=1,...,p
    • 其中f(x)为凸函数

对偶问题(duality)

  • 对于一般的优化问题,f(x)为非凸函数,基本形式与凸优化一致
  • 通过对偶转化可以将一般优化问题转化为凸优化问题
  • 根据拉格朗日方法,转化为拉格朗日函数为:
    • L ( x , α , β ) = f ( x ) + ∑ i α i g i ( x ) + ∑ i β i h i ( x ) L(x, \alpha, \beta)=f(x)+\sum_i \alpha_i g_i(x)+\sum_i \beta_i h_i(x) L(x,α,β)=f(x)+iαigi(x)+iβihi(x)
    • 其中 alpha和beta为拉格朗日乘数
  • 通过拉格朗日转化可以把原来的约束优化化问题转变为无约束优化问题
  • 关于对偶问题与凸优化问题以下博文给予了极其详尽的阐述:
  • https://www.cnblogs.com/dreamvibe/p/4349886.html
  • https://blog.csdn.net/bbbeoy/article/details/72461586

支持向量机

在这里插入图片描述

  • 支持向量机求解核心问题为使得右图上下两条线的margin越大越好
  • 可通过推导得到 margin=2||w||
  • 因此支持向量机的求解问题就变成了优化问题
    • m i n w , b 1 2 ∣ ∣ W ∣ ∣ 2 min_{w,b} \frac{1}{2}||W||^2 minw,b21W2 subject to y i ( W T x i + b ) > = 1 , i = 1 , . . . , n y^i(W^Tx^i+b)>=1, i=1,...,n yi(WTxi+b)>=1,i=1,...,n
    • 约束条件为 g i ( w ) = − y i ( W T x i + b ) + 1 < = 0 g_i(w)=-y^i(W^Tx^i+b)+1<=0 gi(w)=yi(WTxi+b)+1<=0
    • 进行拉格朗日转化为: L ( w , α , β ) = 1 2 ∣ ∣ W ∣ ∣ 2 − ∑ i n α i [ y i ( W T x i + b ) − 1 ] L(w,\alpha,\beta)=\frac{1}{2}||W||^2-\sum_i^n \alpha_i[y^i(W^Tx^i+b)-1] L(w,α,β)=21W2inαi[yi(WTxi+b)1]
    • 分别对w和b求导,得到上述公式基于alpha和beta的表达,对该公式构造dual(对偶问题)求解