首页 / 科技数码 / 正文

数据建模的基本流程 

数据建模的基本流程包括以下几个步骤:

1. 收集数据:通过公司自建的数据库系统或开源数据获取数据,存储数据的媒介如MySQL,Hive,Excel等。

2. 准备输入数据:机器学习模型对输入数据的类型有严格的格式要求,需要将数据转化为可以输入模型的格式,如在SVM中将object转化为int。常用的工具有pandas,numpy。

3. 分析输入数据:分析数据的分布,以及数据的缺失情况,异常情况,确保数据的质量。常用的工具有pandas,matplotlib。

4. 训练算法:通过数据建立模型,常用的模型有SVM,随机森林,xgboost,神经网络等。按输入的数据和需要的输出数据为标准设计算法。常用工具有sklearn,TensorFlow。

5. 测试算法:建立好模型后需要评估其效果,对于已经知道目标值的监督算法,需要已知用于评估算法的目标变量值;对于无监督学习,也需要用其他的评测手段来检验算法的成功率,然后根据实际问题进行改进。常用工具有sklearn,TensorFlow。

6. 使用算法:模型上线到实际的应用场景,然后进行正常工作。如果碰到新问题则进行改进。

如有侵权请及时联系我们处理,转载请注明出处来自