SVM理论与算法分析

资源描述

硬间隔线性支撑向量机假设给定一个特征空间上的训练数据集 1 1 2 2 其中为第 i 个特征向量或实例为的类标记当时称为 1 1 1 2 1 正例当时称为负例为样本点 1 假设训练数据集是线性可分的存在硬间隔那么学习的目标是在特征空间找到一个分离超平面能将实例分到不同的类分离超平面方程它由法向量 w 和截距 b 决定可用表示分离超平面 0 将特征空间分为两部分一部分是正类一部分是负类法向量指向的一侧为正类另一侧是负类一般地当训练数据集线性可分时存在无穷个分离超平面可将两类数据正确分开感知机利用误分类最小的策略求得分离超平面不过这是的解有无穷多线性可分支撑向量机利用间隔最大化求最优分离超平面解唯一一模型推导 1 函数间隔一般来说一个点距离分离超平面的远近可以表示分类预测的确信程度在超平面确定的情况下能够相对地表示注意真实距离为点距离超平面的远近 0 而的符号与类标记的符号是否一致能够表示分类是否正确所以可用标量来表示分类的正确性及确信度值为正表示分类正确值为负表示分类错误超平面关于样本点的函数间隔为超平面关于训练数据集 T 的函数间隔 min 1 2 min 1 2 2 几何间隔函数间隔可以表示分类预测的正确性及确信度但是选择分离超平面时只有函数间隔还不够因为只要成比例地改变 w 和 b 虽然超平面并没有改变但函数间隔它是的线性函数却依原比例同等改变为了将表示的超平面的唯一化即每个超平面对应中的唯一向量可以对法向量 w 1 加以规范化约束这时函数间隔称为几何间隔 1 超平面关于样本点的几何间隔为超平面关于训练数据集 T 的几何间隔为 min 1 2 min 1 2 3 间隔最大化支撑向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面对于线性可分的训练数据集而言线性可分分离超平面有无穷多个每一个都是一个感知机但是几何间隔最大的分离超平面时唯一的间隔最大化的直观解释是对训练数据集找到几何间隔最大的超平面意味着以充分大的却新都对训练数据进行分类也就是说不仅将正负实例点要分开而且对最难分的实例点离超平面最近的点也有足够多大的确信度将它们分开因此所要优化的问题表示为 max 1 2 改写为 max 1 2 的取值不影响最优化问题的解如果是最优解那么也是最优解因此是变动的可以取到任意值如果固定也就变得唯一了令等价变换为 1 max 1 1 1 2 目标函数是支撑间隔约束是样本点在间隔边界或外侧目标是寻找支撑向量使得间隔最大化等价变换为标准无等式约束的凸二次规划这是为了运算方便 min 12 2 1 0 1 2 凸二次规划问题存在全局最优解 4 分离超平面与分类决策函数分离超平面 0 分类决策函数 5 支撑向量与间隔边界在线性可分情况下训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支撑向量支撑向量是使约束条件等号成立的点即对于正例点支撑向量在超平面上对于1 0 1 负例点支撑向量在超平面上没有实例点落在这两个平行的超平面间隔边界之间这两 1 个超平面之间的距离称为间隔它依赖于分离超平面的法向量 w 等于 2 在决定分离超平面时只有支持向量起作用而其他实例点并不起作用如果移动支持向量将改变所求的解但是如果在间隔边界以外移动其他实例点甚至去掉这些点则解是不会改变的显然支撑向量是训练集中重要的样本二模型求解将原始问题转化为 Lagrange 对偶问题通过求解对偶问题来获得原始问题的最优解对每个不等式约束引入 Lagrange 乘子 1 Lagrange 对偶函数 12 2 1 1 其中为拉格朗日乘子向量 1 2 0 1 2 2 对偶问题 max min 1 求 min 1 0 1 0 得出 1 1 0 带入拉格朗日函数得出 min 12 1 1 1 1 1 12 1 1 1 2 求 max min max 12 1 1 1 1 0 0 1 2 转换为求极小 min 12 1 1 1 1 0 0 1 2 根据对偶理论对上述对偶优化存在使是原始问题的解是对偶问题的解因此求解原始问题可以转化为求解对偶问题 3 最优解根据 KKT 条件 a 1 0 b 1 0 c 1 0 1 2 d 1 0 1 2 e 0 1 2 由 a 求得 1 其中至少有一个如果那么无解显然它不是原始最优化问题的解结合 KKT 0 0 0 条件 c 得出 1 0 将带入 KKT 条件得出 1 1 两边同时乘以由于 2 1 1 1 1 因此分类决策函数为 1 从中可以看出它们仅仅依赖于的特征点即支撑向量因为 0 所有在分隔边界上 1 0 1 软间隔线性支撑向量机一模型推导如果样本集中存在特异点使得样本集线性不可分即不能满足函数间隔大于等于 1 不等式约束条件为了解决这个问题可以对每个样本点引入一个松弛变量使函数间隔加上松弛变量大于等于 1 这样 0 约束条件变为 1 同时对每个松弛变量支付一个代价目标函数变成 min 12 2 1 这里称为惩罚参数一般由应用问题决定 C 值大时对误分类的惩罚增大 C 值小时对误分类的惩罚 0 减小最小化上述目标函数有两层含义要使的尽量小即间隔尽量大同时使的误分类的点的个数尽 12 2 量小 C 是调和二者的系数这时的间隔称为软间隔因为间隔内含义特异点原始优化问题 min 12 2 1 1 0 1 2 0 1 2 这仍是一个二次凸优化存在全局最优解 w 的解是唯一的但 b 的解不唯一 b 的解存在于一个区间二模型求解仍使用 Lagrange 对偶方法求解 1 Lagrange 函数 12 2 1 1 1 1 其中 0 0 2 对偶问题 max min 1 求 min 1 0 1 0 1 0 得出 1 1 0 0 带入拉格朗日函数得出 min 12 1 1 1 注意它与无关 2 求 max min max 12 1 1 1 1 0 0 1 2 0 1 2 0 1 2 消去转换为求极小 min 12 1 1 1 1 0 0 1 2 0 3 最优解根据 KKT 条件 a 1 0 b 1 0 c 1 0 d 1 0 1 2 e 0 1 2 f 0 1 2 g 1 0 1 2 h 0 1 2 i 0 1 2 由 a 求得 1 由 c e i 得出 0 0 再结合 f 得出如果那么如果 j 0 1 0 0 1 由 j k 得出如果那么因此 0 0 1 0 1 1 由 j g 得出如果那么这说明 0 0 1 位于间隔边界上或以外由 j k 得出如果那么 1 0 此种情况下进一步讨论如果那么在间隔边界上 0 如果那么分类正确在间隔边界与分离超平面之间 0 1 因此可以看出软间隔的支撑向量或者在间隔边界上或者在间隔边界与分离超平面之间或 0 者在分离超平面误分一侧 3 支撑向量的另一种解释最小化以下目标函数 1 1 2 第一项是经验损失或经验风险函数称为合页损失函数下标表 1 示以下取正值得函数 0 0 0 也就是说当样本点被正确分类且函数间隔大于 1 时损失函数为 0 否则为支撑向量时损失函数是第二项是系数为的 w 的范数是正则化项这两种优化是等价的通过变量替换方法 1 L2 非线性支撑向量机对于分类问题是非线性的线性模型无法将正负实例正确分开可以利用核技巧进行一个非线性变换将非线性问题变换为线性问题通过解变换后的线性问题的方法求解原来的非线性问题用线性分类方法求解非线性分类问题问题分两步首先使用一个变换将原空间的数据映射到新空间然后再新空间里用线性分类学习方法从训练数据中学习分类模型核技巧应用到支持向量机其基本思想通过一个非线性变换将输入空间欧氏空间或离散集合对应于一个特征空间希尔伯特空间 H 使得在输入空间中的超曲面模型对应于特征空间 H 中的超平面模型支撑向量机这样分类问题的学习任务通过在特征空间中求解线性支撑向量机就可以完成一非线性支撑向量机在线性支撑向量机的对偶问题中无论是目标函数还是决策函数分离超平面都只涉及输入实例与实例之间的內积如果把这个內积看作是希尔伯特空间中的两个特征的內积其中那么对于在低维线性不可分的样本集如果通过映射变换到高 1 2 维希尔伯特空间变得线性可分假设能找到这样的合适的映射那么就可以使用核函数 1 2 代替计算这里未知但已知使用核函数后的对偶问题的目标函数成为 12 1 1 1 最优解成为 1 1 分类决策函数成为 1 在实际应用中往往依赖领域知识直接选择核函数核函数选择的有效性需要通过实验验证二核函数方法核函数设 X 是输入空间欧氏空间的子集或离散集合 H 为特征空间希尔伯特空间如果存在一个从 X 到 H 的映射使得对所有函数满足条件则称为核函数为映射函数为和內积希尔伯特空间是完备化的內积空间其中的每个元素是一个向量可以无穷维向量之间定义有內积运算且空间关于內积诱导出的范数是完备的核技巧的想法是在学习与预测中只定义核函数而不显示地定义映射函数因为通常直接计算比较容易而通过和计算并不容易注意是输入空间到特征空间 H 的映射特征空间 H 一般是高维的甚至是无穷维的我们需要的是特征空间中两个特征的內积结果而不是特征的表示如果我们能通过简单的函数得到的內积那就简化了问题不用考虑的形式这正是核函数的妙用之处对于给定的核函数特征空间 H 希尔伯特子空间和映射函数的取法不唯一因为核函数给出的是映射后的內积结果所选取的映射过程可能是不同的核函数判定定理设是对称函数则为正定核函数的充要条件是对任意对应的 Gram 矩阵是半正定的 1 2 对于一个具体函数来说检验它是否为正定核函数并不容易因为要去对任意有限输入集验证 K 对应的 Gram 矩阵是否为半正定在实际问题中往往应用已有的核函数常用核函数 1 多项式核函数对应的支撑向量机是一个 p 次多项式分类器 1 2 高斯核函数对应的支撑向量机是高斯径向基函数分类器 22 2 3 字符串核函数 1 基本定义有限字符表字符串 s 字符串 s 的长度空字符串长度为 0 1 2 字符串连接 s 和 t 分别是字符串长度为 n 的字符串集合所有字符串的集合 0 s 的子串 u 给定一个指标序列其长度 1 2 1 1 2 2 映射定义假设 S 是长度大于或等于 n 字符串的集合 s 是 S 的元素建立字符串集合 S 到特征空间的映射表示定义在上的实数空间其每一维对应一个字符串映射将字符串 s 对应于空间中的一个向量其在 u 维上的取值为这里是一个衰减参数表示字符串 i 的长度求和在 s 中所有与 u 相同的子串上进行 0 2 2 由得出 1 1 2 2 1 1 2 2 1 1 1 2 2 1 1 1 2 2 1 1 1 2 2 2 2 变量的启发式选择方法 SMO 算法在每个子问题中选择两个变量优化其中至少一个变量是违反 KKT 条件的 1 第一个变量的选择 SMO 称选择第 1 个变量的过程为外层循环外层循环在训练样本中选取违反 KKT 条件最严重的样本点并将其对应的变量作为第 1 个变量具体地检验训练样本点是否满足 KKT 条件即具体推导见软间隔 SVM 文章如果那么 0 0 1 如果那么因此 0 0 1 0 1 如果那么 1 0 0 1 1 0 1 1 1 1 该检验是在范围内进行的在检验过程中外层循环首先遍历所有满足条件的样本点即在间隔 0 边界上的支撑向量点检验它们是否满足 KKT 条件如果这些样本点都满足 KKT 条件那么遍历整个训练集检验它们是否满足 KKT 条件 2 第二个变量的选择 SMO 称选择第 2 个变量的过程为内层循环假设在外层循环中已经找到第 1 个变量现在要在内层循环中 1 找第 2 个变量第 2 个变量的选择的标准是希望能使有足够大的变化这样新的也会有足够大的变化 2 2 1 从而尽快趋向满足 KKT 条件的值从上面的推导中可以发现依赖于为了加快计算速度一种简单的做法是选择使其对应 2 1 2 2 的最大因为已定也是确定的如果是正那么选择最小的作为如果如果是负 1 2 1 1 1 2 1 那么选择最大的作为为了节省时间将所有的值保存在一个列表中 2 在特殊情况下如果内层循环通过以上方法选择的不能使目标函数有足够的下降那么采用以下启发式规 2 则继续选择遍历在间隔边界上的支撑向量点依次将其对应的变量作为试用直到目标函数有足够的 2 2 下降若找不到合适的那么遍历训练数据集若仍找不到合适的则放弃第 1 个再通过外层循环 2 2 1 寻求另外的 1 3 计算阈值 b 和差值每次完成两个变量的优化后都要重新计算阈值 b 和使用迭代的方法更新 b 根据定义预测误差展开得 1 1 1 1 1 3 1 1 1 1 11 2 2 21 f 1 1 3 1 1 1 11 2 2 21 下面讨论如何迭代更新 b 即获得显然每次更新完后的选择应该使得 KKT 条件成立 1 2 a 如果时由 KKT 条件可知 0 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 11 2 2 21 1 3 1 1 1 1 11 2 2 21 带入 f 得出 1 1 1 1 11 2 2 21 1 1 11 2 2 21 g 1 1 1 11 1 1 2 21 2 2 同样如果那么0 2 h 2 2 1 12 1 1 2 22 2 2 b 如果时由 KKT 条件可知 1 0 1 1 1 1 1 3 1 1 1 11 2 2 21 1 带入 f 得出 1 1 1 1 1 11 2 2 21 1 1 11 2 2 21 1 1 1 1 1 11 1 1 2 21 2 2 1 1 1 1 1 11 1 1 2 21 2 2 同样如果时那么 2 0 2 2 2 1 12 1 1 2 22 2 2 C 如果时由 KKT 条件可知 1 1 1 1 1 1 3 1 1 1 11 2 2 21 1 带入 f 得出 1 1 1 1 1 11 2 2 21 1 1 11 2 2 21 1 1 1 1 1 11 1 1 2 21 2 2 1 1 1 1 1 11 1 1 2 21 2 2 同样如果时那么 2 2 2 2 1 12 1 1 2 22 2 2 综上可以得出结论如果那么取可以证明两者相等 0 1 或 0 2 1或 2 否则如果那么这种情况应该排除 1 2 0或 1 2 0或因此如果中一个是 0 另一个是 C 那么和以及它们之间的数都是符合 KKT 1 2 1 2 1 2 条件的阈值这时选择它们的中点作为在每次完成两个变量的优化后还必须更新对应的值并将它们保存在列表中值得更新要用到值以及所有支撑向量对应的其中 S 是所有支撑向量的集合由于非支撑向量对用的因此在 S 上求和与在整个样本集上是一致 0 的序列最小最优化 SMO 算法实现输入训练数据集其中 1 1 2 2 精度 C 1 1 1 2 输出近似解 1 取初值令 0 0 0 2 选取优化变量 1 1 1 2 1 选择第 1 个变量在范围内在训练样本中选取违反 KKT 条件最严重的样本点首先遍历满足 1 1 条件的所有样本点如果它们都满足 KKT 条件那么遍历整个训练集 0 a 0 1 1 b 0 1 1 c 1 1 2 选择第二个变量如果是正那么选择最小的作为如果如果是负那么选择最大 1 2 1 2 1 的作为在特殊情况下如果以上方法选择的不能使目标函数有足够的下降那么遍历在间隔边 2 2 界上的支撑向量点依次将其对应的变量作为试用直到目标函数有足够的下降若找不到合适的 2 2 那么遍历训练数据集若仍找不到合适的则放弃第 1 个返回 1 重新选择 2 1 1 3 计算阈值 b 和差值 1 的计算 1 1 1 11 1 1 2 21 2 2 2 2 1 12 1 1 2 22 2 2 如果那么 0 1 或 0 2 2 2 1 1 1 2 2 2 其中如果那么如果 2 1 0 1 2 2 1 2 那么 2 1 0 2 1 2 1 2 3 更新为 1 5 若在精度范围内满足下列停机条件则转 6 否则令转 2 1 1 1 0 2 0 1 2 3 其中 1 1 1 0 0 1 6 取 1

展开阅读全文