什么是数据清洗|什么是数据清洗
本页包括数据清理或数据清理定义,数据清理用例和数据清理或数据清理的挑战。
数据清理定义
将错误、重复和不一致的源数据转换为已清理数据的过程称为数据清理.它是数据分析中常用的方法之一。如上图1所示,现实世界中的数据是脏的。
•不完整的数据来自于记录时没有可用的数据值或人为/硬件/软件错误。•噪声数据来自于数据传输错误、设备故障、人为或计算机错误等。
•重复数据来自不同的数据源。
脏数据由以下问题组成。
不完整的:缺少属性值
示例:occupation = " "
嘈杂的:包含错误(例如拼写错误、语音和打字错误、换位、多个值而不是单个字段等)
示例:Salary = " -10 "
不一致的:代码或名称不一致(同义词和昵称、前缀和后缀变化、缩写、截断和首字母)
例1:年龄= "42"生日= "03/07/1997 "
例2:以前是“1,2,3”,现在是“A, B, C”
示例#3:如下所述的近似重复记录之间的差异。
➨为了解决数据质量问题,数据分析中使用的方法之一是数据清理或数据清洗。这是其中一种方法。其他方法包括数据质量检查、数据规范化、数据标准化、数据分析、重复数据删除等。
➨数据清理有许多功能来提高数据质量。其中一个功能是使用“字符串匹配”从两个不同的数据集(即表)中找到相同的实体,如图3所示。
数据清理用例
以下是数据分析中使用的数据清理操作的用例。
mdm -主数据管理
客户关系管理
dwh -数据仓库
•dwh -商业智能BI
典型的例子包括库存水平、银行风险、IT开销、不正确的kpi和糟糕的宣传。
数据清理或数据清理挑战
以下是执行数据清理任务时要处理的挑战。
➨如何定义数据质量?
•这是由数据分析任务完成的。
➨语义的复杂性
•领域专家只能评估正确的价值。
•数据集和预期结果将决定技术的使用。要达到预期的结果,需要进行大量的微调。
➨计算复杂度
•重复检测本质上是二次的。
➨评估是困难的,因为没有明确的黄金标准。
数据分析相关链接
什么是数据分析
数据分析的优点和缺点
什么是大数据
什么是Hadoop
数据挖掘术语
数据挖掘工具和技术
什么是云存储
数据挖掘教程
云存储教程
基础设施
它是如何工作的
服务提供商
云存储安全
云计算教程
有什么不同
传统存储与云存储
类型
DNS vs DHCP
FTP vs HTTP
FTP vs SMTP
FTP与TFTP