机器学习之数据集的划分

Lois 的个人博客 / 0 / 0 / 创建于 6年前 / 更新于 6年前

通常将数据集划分为三个子集 ( 如下图所示 ) ,您可以大幅降低过拟合的发生几率:

图 2.将单个数据集划分为三个子集

使用验证集评估训练集的效果.然后, 在模型“通过”验证集之后,使用测试集再次检查评估结果. 下图展示了这一新工作流程:

图 3.更好的工作流程

在这一经过改进的工作流程中:
1.选择在验证集上获得最佳效果的模型.
2.使用测试集再次核查该模型.
该工作流程之所以更好, 原因在于它报漏给测试集的信息更少.
注意:
不断使用测试集和验证集会使其逐渐失去效果.也就是说, 您使用相同的数据来决定超参数设置或其他模型改进的次数越多, 您对于这些结果能够真正的泛化到未见过的新数据的信心就越低.请注意, 验证集的失效速度通常比测试集缓慢.
如果可能的话, 建议您收集更多的数据来“刷新”测试集和验证集.重新开始是一种很好的重置方式.

机器学习

本作品采用《CC 协议》，转载必须注明作者和本文链接

Hacking

版主 441 声望

暂无个人描述~

推荐文章：

更多推荐...

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

文章归档

10 篇 2020 年 8 月 38 篇 2020 年 7 月 44 篇 2020 年 6 月 2 篇 2020 年 5 月 2 篇 2020 年 4 月

5年前第七章：因数分解与算数基本定理（2） 5年前第七章：因数分解与算数基本定理（1） 5年前第六章：线性方程与最大公因数（2） 5年前第六章：线性方程与最大公因数（1） 5年前第五章：整除性与最大公因数（2）

4 随机数生成器 3 机器学习之多类别神经网络：Softmax 2 置换密码 2 对称与非对称密码体制 2 替代密码

博客标签

上下标问题

latex写博客技巧

latex 写博客技巧

写博客注意事项

Markdown 博客

成为赞助商