SVM
1.判断题
(1) 在SVM训练好后,我们可以抛弃非支持向量的样本点,仍然可以对新样本进行分类。(T) (2) SVM对噪声(如来自其他分布的噪声样本)鲁棒。(F)
2.简答题
现有一个点能被正确分类且远离决策边界。如果将该点加入到训练集,为什么SVM的决策边界不受其影响,而已经学好的logistic回归会受影响?
答:因为SVM采用的是hinge loss,当样本点被正确分类且远离决策边界时,SVM给该样本的权重为0,所以加入该样本决策边界不受影响。而logistic回归采用的是log损失,还是会给该样本一个小小的权重。
3.产生式模型和判别式模型。(30分,每小题10分)
图2:训练集、最大间隔线性分类器和支持向量(粗体)
(1)图中采用留一交叉验证得到的最大间隔分类器的预测误差的估计是多少(用样本数表示即可)?
从图中可以看出,去除任意点都不影响SVM的分界面。而保留所有样本时,所有的样本点都能被正确分类,因此LOOCV的误差估计为0。
(2)说法“最小结构风险保证会找到最低决策误差的模型”是否正确,并说明理由。(F) 最小结构风险(SRM)只能保证在所有考虑的模型中找到期望风险上界最小的模型。 (3)若采用等协方差的高斯模型分别表示上述两个类别样本的分布,则分类器的VC维是多少?为什么?
等协方差的高斯模型的决策边界为线性,因为其VC维维D+1。题中D=2.
4、SVM分类。(第1~5题各4分,第6题5分,共25分)
下图为采用不同核函数或不同的松弛因子得到的SVM决策边界。但粗心的实验者忘记记录每个图形对应的模型和参数了。请你帮忙给下面每个模型标出正确的图形。
N(1)、min1w2Ci, s.t.
2i1i0, yiwTxw01i, i1,....,N,
其中C0.1。 线性分类面,C较小,
正则较大,||w||较小,Margin较大, 支持向量较多(c)
N(2)、min1w2Ci, s.t.
2i1i0, yiwTxw01i, i1,....,N,
其中C1。
线性分类面,C较大,
正则较小,||w||较大,Margin较小 支持向量的数目少(b)
NNN(3)、maxi1ijyiyjkxi,xj
2i1j1i1s.t. 0iC, i1,....,N, iyi0
i1N其中kx,xxTxxTx。
2二次多项式核函数,决策边界为二次曲线 (d)
NNN1(4)、maxiijyiyjkxi,xj 2i1j1i1s.t. 0iC, i1,....,N, iyi0
i1N12其中kx,xexpxx。
2RBF核函数,决策边界为曲线, σ=1较大,曲线更平滑 (a)
NNN1(5)、maxiijyiyjkxi,xj 2i1j1i1s.t. 0iC, i1,....,N, iyi0
i1N其中kx,xexpxx2。 RBF核函数,决策边界为曲线, σ=sqrt(1/2)较小,曲线更弯曲 (e)
(6)考虑带松弛因子的线性
SVM
N分类器:min1w2Ci, s.t.2i1i0, yiwTxw01i, i1,....,N, 下面有一些关于某些变量随参数C的增大而变化的表
述。如果表述总是成立,标示“是”;如果表述总是不成立,标示“否”;如果表述的正确性取决于C增大的具体情况,标示“不一定”。 (1) w0不会增大 (2) wˆ增大
(不一定)
(不一定)
(3) wˆ不会减小
(是)
(4) 会有更多的训练样本被分错(否)
(5) 间隔(Margin)不会增大(是)
N125、考虑带松弛因子的线性SVM分类器:minwCi, s.t. yiw0wTxi1i, i。
i12在下图中,C0.1, 1, 10, 100,并且已经标出分界面和支持向量。请给每幅图标出最可能的C的取值,并分析原因(20分)。
答:
Cii12w, subject to yiw0wTxi1i, i 2等价于
ii12w, subject to yiw0wTxi1i, i 2C2所以C, w, 1w2,即margin减小(当C增大到一定程度时,Margin不再变化),不
允许错分太多样本(对错分样本的惩罚大),支持向量(落在Margin内的样本和错分的样本)的数目减少。
6. SVM
(1) 下面的情况,适合用原SVM求解还是用对偶SVM求解。 1) 特征变换将特征从D维变换到无穷维。(对偶)
2) 特征变换将特征从D维变换到2D维,训练数据有上亿个并且线性可分。(原)
(2) 在线性可分情况下,在原问题形式化中怎样确定一个样本为支持向量?
*在原问题中,给出了w,w0,支持向量满足:yiw0w*Txi1。
7.SVM和松弛因子。
考虑如图给出的训练样本,我们采用二次多项式做为核函数,松弛因子为C。请对下列问题做出定性分析,并用一两句话给出原因。
(1) 当C∞时,决策边界会变成什么样?
答:当C很大时,错分样本的惩罚会非常大,因此模型会尽可能将样本分对。(记住这里决策边界为二次曲面)
C∞ C0
(2) 当C0时,决策边界会变成什么样? 可以错分少量样本,但Margin大
(3) 你认为上述两种情况,哪个在实际测试时效果会好些?
我们不能过于相信某个特定的样本,因此C0的效果会好些,因为它最大化样本云团之间的Margin.
(4) 在图中增加一个点,使得当C∞时,决策边界会不变。
能被原来的分类器正确分类,不会是支持向量。
(5) 在图中增加一个点,使得当C∞时,该点会显著影响决策边界。
能被原来的分类器正确分类,不会是支持向量。
当C很大时,错分样本的惩罚会非常大,因此增加一个不能被原来分类器正确分类的样本会影响决策边界。
8.对outlier的敏感性。
我们知道在SVM用于回归时,等价于采用ε不敏感的损失函数(如下图所示),即SVM的目标为:
N12ˆminwwC,iiw,ξ,ξ2i1s..tyifxiiyifxii。
i0,i0
课堂已经讨论L2损失对outliers比较敏感,而L1损失和huber损失相对不敏感些。 (1) 请说明为什么L2损失比较L1损失对outliers更敏感。
Outlier为离群点,因此其预测残差r会比较大。L2损失为残差r的平方r2,L1损失为残差r的绝对值|r|。当r>1时,r2>|r|,从而L2损失在outliter样本点的值会非常大,对结果影响更大。
(2) 请给出一个outlier影响预测子的例子。
(3) 相比于L2损失和L1损失,分析SVM的ε不敏感的损失函数对outliers敏感性。
ε不敏感的损失函数对outliers的敏感性更接近于L1损失,因此比L2损失更不敏感。初看起来,ε不敏感的损失函数在区间[-ε,ε]不施加惩罚,似乎比L1对outliers更不敏感。但实际上outliers对应的残差通常很大,所以不会落在区间[-ε,ε],所以ε不敏感的损失函数对outliers的敏感性和L1损失相似。
(4) SVM也等价于MAP估计,则该MAP估计对应的先验和似然是什么?
同岭回归类似,先验为0均值得高斯分布,但方差为2C,同时各维,即
pwj0,2C,
似然函数在区间[-ε,ε]为常数,其他地方为Laplace分布:
122py|w,x1expywTx22ywTx0
otherwise
9. 多个数据源的SVM
假设你在两天内用两个不同的仪器收集了两批数据,你觉得数据集1标签的可信度为数据集2的两倍。 我们分别用
1xi,yii1表示数据集1,
N12ui,vii1表示数据集2,数据集1的松弛
N2因子表示为ξ,数据集2的松弛因子表示ζ,二者的Lagrange乘子分别表示为α和β。 关于怎样处理这两批数据,你的朋友们给出了不同的建议。 张三:将数据集1的松弛惩罚乘以2,因此优化问题为:
N1N112minw2CiCjw,,2i1j1subject to yiw0wTxi1i, i1,2.,,,,N1, vjw0wTuj1j, j1,2.,,,,N2, i0, i1,2.,,,,N1, j0, j1,2.,,,,N2,
李四:将数据集1的Lagrange乘子乘以2,因此优化问题为:
max2CiCj2αiαjyiyjxi,xj2αijyivjxi,ujα,βi1j1i1j1i1j1N1N2N1N1N1N21N2N2ijvivjui,uj2i1j1subject to c2i0, i1,2.,,,,N1, cj0, j1,2.,,,,N2, N1N22yviiji1j1j0
王五:将数据集1的数据点复制一份(即数据集1中的每个样本点变成2个),然后照常处理。
问题:请说明上述处理是否等价(得到的分界面相同)。
解:我们从张三的建议的对偶表示开始,即
N1N212Lα,β,e,f,w0,ww2CiCj2i1j1 iyiw0wxi1iiviw0wui1ieiifiiTTi1i1i1i1N1N2N1N2subject to i1,2.,,,,N1, j1,2.,,,,N2, i0, j0, ei0, fj0 yiw0wTxi1i, i1,2.,,,,N1, vjw0wTuj1j, j1,2.,,,,N2, eii0, fjj0Tiywwxi1ii00,Tjvwwuj1jj00
优化e,f,w0,w,目标函数对e,f,w0,w求导等于0,
N1N2L0wiyixiiviui,(1) wi1i1N1N2L0iyiivi0, (2) w0i1i1L0i2Cei, (3) iL0iCfi, (4) i由于有约束i0, j0, ei0, fj0 ,公式(3)(4)变成 c2i0, cj0, 。
将上述公式代入L,消除w0,w,i,j,得到对偶表示:
N1N21N1N11N2N2Lα,βCiCjαiαjyiyjxi,xjαijyivjxi,ujijvivjui,uj2i1j12i1j1i1j1i1j1N1N2subject to c2i0, i1,2.,,,,N1, cj0, j1,2.,,,,N2, N1N22yviiji1j1N1j0可以看出,这和下面李四的建议不同。
max2CiCj2αiαjyiyjxi,xj2αijyivjxi,ujα,βi1j1i1j1i1j1N2N1N1N1N21N2N2ijvivjui,uj2i1j1subject to c2i0, i1,2.,,,,N1, cj0, j1,2.,,,,N2, N1N22yviiji1j1j0
王五的建议如下,
N1N1N112minwCiCiCj, w,,2i1i1j1和张三的建议相同,即张三 = 王五。