数据预处理-数据归约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。原数据可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多,与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。

数据规约常用方法如下:

常用维归约

常用维归约、 数值归约等方法实现:维归约也称为特征规约,是指通过减少属性特征的方式压缩数据量,通过移除不相关的属性, 可以提高模型效率。维归约的方法很多。例如,AIC准则可以通c过选择最优模型来选择属性: LASS通过定约束条件选择变量:分类树、随机森林通过对分类效果的影响大小筛选属性;小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数。

数值归约

数值归约也称为样本规约,样本归约就是从数据集中选出一个有代表性的样本的子集。子集大小的确定要考虑计算成本、存储要求、估计量的精度及其他一些与算法和数据特性有关的因素。例如,参数方法中使用模型估计数据,就可以只存放模型参数代替存放实际数据,如回归模型和对数线性模型都可以用来进行参数化数据归约。对于非参数方法,可以使用直方图、聚类、抽样和数据立方体聚集为方法。

本作品采用《CC 协议》,转载必须注明作者和本文链接
文章!!首发于我的博客Stray_Camel(^U^)ノ~YO
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!