御医皇后统计学习方法读后感（二）-海内外交流服务-全部文章-李爱静

统计学习方法读后感（二）-海内外交流服务

读后感（一）中提到“过拟合”情况。
什么是过拟合呢？
如果在假设空间中存在“真”模型，那么所选择的模型应该逼近真模型。如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合over-fitting。
过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。
书中介绍了应用10个数据点（x0,x1,x2,御医皇后x3,x4,x5,x6,x7,x8,x9），用0-9次多项式函数对数据进行拟合。
设M次多项式为

那么，多项式函数在经过每一个数据点，也就是M=9时，训练误差为0。

对给定训练数据拟合角度来说季桃，效果是最好的。
但是，因为训练数据本身存在噪音（包含错误或存在偏离期望的孤立点，扩展到包含所有难以被机器正确理解和翻译的数据），这种拟合曲线对未知数据的预测能力往往并不是最好的。
模型选择时，不仅要考虑对已知数据的预测能力，而且还要考虑对未知数据的预测能力。
训练误差随着多项式次数（模型复杂度）的增加减小，直至趋向于0
但测试误差会随着多项式次数（模型复杂度）的增加先减小后增大。

而最终的目的是使测试误差达到最小。
那么，怎么选择复杂度适当的模型，以达到使测试误差最小呢？

2020-06-12

御医皇后统计学习方法读后感（二）-海内外交流服务

作者:admin | 分类:全部文章 | 浏览:288