机器学习之模型选择

Galois 的个人博客 / 0 / 0 / 创建于 6年前 / 更新于 6年前

模型选择

在选择模型时，我们将数据分为的 3 个不同部分：

训练集：模型训练，一般数据集中的 80
验证集：模型评估，一般数据集中的 20，又叫做留出集或开发集
测试集：模型预测，未知数据
一旦选择了模型，就会在整个数据集上进行训练，并在测试集上进行测试。如下图所示：

3gJmLgm5z5.png!large

交叉验证

交叉验证，记为 CV，是一种不必特别依赖于初始训练集的模型选择方法。下表汇总了几种不同的方式：

9MHLzmBx5G.png!large

最常用的模型选择方法是 k折交叉验证，将训练集划分为 k 个子集，在 k − 1 个子集上训练模型，在剩余的一个子集上评估模型，用这种划分方式重复训练k次。交叉验证损失是 k 次 k 折交叉验证的损失均值。

fuLKBoqWil.png!large

正则化

正则化方法可以解决高方差问题，避免模型对于训练数据产生过拟合。下表展示了常用的正则化方法：

abqxSp63dL.png!large

本作品采用《CC 协议》，转载必须注明作者和本文链接

不要试图用百米冲刺的方法完成马拉松比赛。

版主 1.4k 声望

Coder @ Galois

出来混，迟早要还的。

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Coder @ Galois

私信

文章归档

1 篇 2021 年 4 月 1 篇 2021 年 2 月 4 篇 2020 年 12 月 8 篇 2020 年 10 月 5 篇 2020 年 9 月 7 篇 2020 年 7 月 15 篇 2020 年 6 月 32 篇 2020 年 5 月 3 篇 2020 年 4 月 41 篇 2020 年 3 月 12 篇 2020 年 2 月 20 篇 2020 年 1 月

5年前 brew 报错 error: Not a valid ref: refs/remotes/origin/master 的解决方法 5年前 windows 安装 scoop 命令（windows 中的 brew） 5年前 pandas 无法打开 .xlsx 文件 5年前 jieba 词性标注 & 并行分词 5年前 jieba 基于 TF-IDF 算法的关键词提取

11 初入计算机技术领域的萌新需要理清的逻辑 7 心理素质究竟有多重要？ 6 YouTube-dl 命令下载 YouTube 的视频 5 Masonite 熟悉步骤小记录（二、连接数据库） 5 PyQt5 之主窗口

博客标签

Penetration testing

成为赞助商