数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。

数据清洗方法

1、缺失值处理

在数据清洗中对缺失值的处理有删除、均值填补、热卡填补、回归填补、多重填补、K-最近邻法、有序最近邻法、贝叶斯等,以下介绍三种使用频率较高的缺失值补全方法:

删除:缺失部分在整体数据样本中占比较低时,直接删除即可;

均值填补:依据数据值属性相关度,对影响最大的那一组数据拆分成几个部分,计算出每部分的均值,加入到缺失数据中即可;

热卡填补法:若缺失值包含变量,那么在数据库中寻找与它相似度最高的一组数据进行填补;

2、异常值处理
在数据清洗中对异常值的处理有3∂原则、箱型图分析、模型检测、距离、密度、聚类、统计分析等,以下照例介绍三种使用频率较高的异常值处理方法:

统计分析:拿到数据之后,对其进行简单的描述性统计。通过选取最大最小阈值来判断是否符合常识;

模型检测:根据正常状态,建立数据模型。将数据表现与模型不拟合的数据定义为异常值;

3∂原则:如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述;

3、噪音处理

在数据清洗中,对噪音处理的方法为分箱法和回归法;以下对去处理方法做简要介绍:

分箱法:通过考察对比数据周边值来光滑有序数据值,这些数值被分布到一些箱中,再由分箱考察对比周边近邻值。以箱为单位对素质进行平均值替换或者中位数替换,箱中最大值最小值被视为边界,箱中的每个值被最近的边界值替换。

回归法:线性回归将拟合两个属性的最佳直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,涉及将多个属性数据拟合到一个多维面;

数据清洗基本流程

1、数据预处理

将数据导入到处理工具当中,通过工具自动“查看”采集到的元数据信息,然后人工查看数据,归纳总结工具处理可能存在的遗漏或偏差,为下一步数据处理做准备;

2、数据分析处理

缺失值清洗:通过去重除噪、缺失值处理、通过其他渠道重新获取丢失的重要数据进行数据填充及补全;

(2)格式内容清洗:对格式的清洗,小到日期/数值/半全角显示,大到数值内容中是否存在不该有的字符或是与内容不符的字符,都必须通过数据清洗处理掉;

(3)逻辑错误清洗:重复性数据、与常识不符的异常数据、属性依赖冲突的数据以及非需求数据进行清除;

3、校验

最后对数据清洗的结论进行效验,如格式效验和数据关联性效验;

数据清洗的应用场景

随着企业从传统的人力巡检到半自动的数据化转型,越来越多的商业领域将涉及数据清洗的业务。例如制造业、农业在将设备接入物联网云平台之后,每天都会产生大量数据,通过数据清洗提高生产效率,降低运维成本。

小结:大数据清洗的方法  数据清洗的基本流程介绍到此就暂告一段落。若要了解更多相关资讯,请点击“行业资讯”。如若有业务需求,点击左侧发起实时对话,咨询适合自身企业的能源管理解决方案。

相关阅读推荐:
| 中小型企业工厂管理软件推荐 | 物联网应用领域 | 通用组态软件的特点 |