首页 / 科技数码 / 正文

数据处理步骤

数据清理–>数据集成 —>数据归约–>数据变换

1.数据清理。就是处理脏数据,包括填写缺失值、清除噪声数据(降噪)、纠正不一致数据、识别或删除离群点等。常用工具例如:ETL工具

2.数据集成(data integration)。集成多个数据库数据。将数据由多个数据源合并成一个一致数据存储,如:数据仓库。

3.数据归约(data reduction)。可以通过如聚集、删除冗余特征或聚类来降低数据规模,提高运行速度,但不影响挖掘结果。数据归约有两种方法

如有侵权请及时联系我们处理,转载请注明出处来自