首页 / 科技百科 / 正文

处理数据空缺值常用的三个方法 

处理数据空缺值常用的三个方法是:

1. 均值插补:如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值。如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。

2. 同类均值插补:首先将样本进行分类,然后以该类中样本的均值来插补缺失值。

3. 建模预测:将缺失的属性作为预测目标来预测,将数据集按照是否含有特定属性的缺失值分为两类,利用现有的机器学习算法对待预测数据集的缺失值进行预测。

需要注意的是,插补缺失值的过程中,可能会出现数据倾斜的问题,需要仔细检查和处理。

如有侵权请及时联系我们处理,转载请注明出处来自