机器学习之模型选择

模型选择

在选择模型时,我们将数据分为的 3 个不同部分:

  • 训练集:模型训练,一般数据集中的 80
  • 验证集:模型评估,一般数据集中的 20,又叫做留出集或开发集
  • 测试集:模型预测,未知数据
    一旦选择了模型,就会在整个数据集上进行训练,并在测试集上进行测试。如下图所示:

3gJmLgm5z5.png!large

交叉验证

交叉验证,记为 CV,是一种不必特别依赖于初始训练集的模型选择方法。下表汇总了 几种不同的方式:

9MHLzmBx5G.png!large

最常用的模型选择方法是 k折交叉验证,将训练集划分为 k 个子集,在 k − 1 个子集上训练模型,在剩 余的一个子集上评估模型,用这种划分方式重复训练k次。交叉验证损失是 kk 折交叉验证的损失均值。

fuLKBoqWil.png!large

正则化

正则化方法可以解决高方差问题,避免模型对于训练数据产生过拟合。下表展示了常用的正则化方法:

abqxSp63dL.png!large

本作品采用《CC 协议》,转载必须注明作者和本文链接
不要试图用百米冲刺的方法完成马拉松比赛。
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!