大数据清洗的方法数据清洗的基本流程

12月 23 2019

星云联动 > 行业资讯 > 大数据清洗的方法及流程

数据清洗简单概述就是对企业在运行经营过程中，产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分，以下我们将数据清洗分为两部分进行介绍，既数据清洗的方法、数据清洗基本流程。

1、缺失值处理

在数据清洗中对缺失值的处理有删除、均值填补、热卡填补、回归填补、多重填补、K-最近邻法、有序最近邻法、贝叶斯等，以下介绍三种使用频率较高的缺失值补全方法：

删除：缺失部分在整体数据样本中占比较低时，直接删除即可；

均值填补：依据数据值属性相关度，对影响最大的那一组数据拆分成几个部分，计算出每部分的均值，加入到缺失数据中即可；

热卡填补法：若缺失值包含变量，那么在数据库中寻找与它相似度最高的一组数据进行填补；

2、异常值处理
在数据清洗中对异常值的处理有3∂原则、箱型图分析、模型检测、距离、密度、聚类、统计分析等，以下照例介绍三种使用频率较高的异常值处理方法：

统计分析：拿到数据之后，对其进行简单的描述性统计。通过选取最大最小阈值来判断是否符合常识；

模型检测：根据正常状态，建立数据模型。将数据表现与模型不拟合的数据定义为异常值；

3∂原则：如果数据服从正态分布，在3∂原则下，异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布，距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003，属于极个别的小概率事件。如果数据不服从正态分布，也可以用远离平均值的多少倍标准差来描述；

3、噪音处理

在数据清洗中，对噪音处理的方法为分箱法和回归法；以下对去处理方法做简要介绍：

分箱法：通过考察对比数据周边值来光滑有序数据值，这些数值被分布到一些箱中，再由分箱考察对比周边近邻值。以箱为单位对素质进行平均值替换或者中位数替换，箱中最大值最小值被视为边界，箱中的每个值被最近的边界值替换。

回归法：线性回归将拟合两个属性的最佳直线，使得一个属性能够预测另一个。多线性回归是线性回归的扩展，涉及将多个属性数据拟合到一个多维面；

1、数据预处理

将数据导入到处理工具当中，通过工具自动“查看”采集到的元数据信息，然后人工查看数据，归纳总结工具处理可能存在的遗漏或偏差，为下一步数据处理做准备；

2、数据分析处理

缺失值清洗：通过去重除噪、缺失值处理、通过其他渠道重新获取丢失的重要数据进行数据填充及补全；

（2）格式内容清洗：对格式的清洗，小到日期/数值/半全角显示，大到数值内容中是否存在不该有的字符或是与内容不符的字符，都必须通过数据清洗处理掉；

（3）逻辑错误清洗:重复性数据、与常识不符的异常数据、属性依赖冲突的数据以及非需求数据进行清除；

3、校验

最后对数据清洗的结论进行效验，如格式效验和数据关联性效验；

随着企业从传统的人力巡检到半自动的数据化转型，越来越多的商业领域将涉及数据清洗的业务。例如制造业、农业在将设备接入物联网云平台之后，每天都会产生大量数据，通过数据清洗提高生产效率，降低运维成本。

小结：大数据清洗的方法数据清洗的基本流程介绍到此就暂告一段落。若要了解更多相关资讯，请点击“行业资讯”。如若有业务需求,点击左侧发起实时对话,咨询适合自身企业的能源管理解决方案。

相关阅读推荐：
| 中小型企业工厂管理软件推荐 | 物联网应用领域 | 通用组态软件的特点 |

大数据清洗的方法及流程