御医皇后统计学习方法读后感(二)-海内外交流服务

统计学习方法读后感(二)-海内外交流服务

读后感(一)中提到“过拟合”情况。
什么是过拟合呢?
如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型。如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合over-fitting。
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
书中介绍了应用10个数据点(x0,x1,x2,御医皇后x3,x4,x5,x6,x7,x8,x9),用0-9次多项式函数对数据进行拟合。
设M次多项式为

那么,多项式函数在经过每一个数据点,也就是M=9时,训练误差为0。

对给定训练数据拟合角度来说季桃,效果是最好的。
但是,因为训练数据本身存在噪音(包含错误或存在偏离期望的孤立点,扩展到包含所有难以被机器正确理解和翻译的数据),这种拟合曲线对未知数据的预测能力往往并不是最好的。
模型选择时,不仅要考虑对已知数据的预测能力,而且还要考虑对未知数据的预测能力。
训练误差随着多项式次数(模型复杂度)的增加减小,直至趋向于0
但测试误差会随着多项式次数(模型复杂度)的增加先减小后增大。

而最终的目的是使测试误差达到最小。
那么,怎么选择复杂度适当的模型,以达到使测试误差最小呢?