处理数据空缺值常用的三个方法
处理数据空缺值常用的三个方法是:
1. 均值插补:如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值。如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。
2. 同类均值插补:首先将样本进行分类,然后以该类中样本的均值来插补缺失值。
3. 建模预测:将缺失的属性作为预测目标来预测,将数据集按照是否含有特定属性的缺失值分为两类,利用现有的机器学习算法对待预测数据集的缺失值进行预测。
需要注意的是,插补缺失值的过程中,可能会出现数据倾斜的问题,需要仔细检查和处理。
如有侵权请及时联系我们处理,转载请注明出处来自
推荐文章
科技快看 广州壹创集信息科技有限公司 版权所有 粤ICP备2021122624号