射频和无线供应商和资源的家

一站式满足您的射频和无线需求

什么是数据清洗|什么是数据清洗

本页包括数据清理或数据清理定义,数据清理用例和数据清理或数据清理的挑战。

数据清理定义

数据质量问题或问题

将错误、重复和不一致的源数据转换为已清理数据的过程称为数据清理.它是数据分析中常用的方法之一。如上图1所示,现实世界中的数据是脏的。
•不完整的数据来自于记录时没有可用的数据值或人为/硬件/软件错误。•噪声数据来自于数据传输错误、设备故障、人为或计算机错误等。
•重复数据来自不同的数据源。

脏数据由以下问题组成。

不完整的:缺少属性值
示例:occupation = " "

嘈杂的:包含错误(例如拼写错误、语音和打字错误、换位、多个值而不是单个字段等)
示例:Salary = " -10 "

不一致的:代码或名称不一致(同义词和昵称、前缀和后缀变化、缩写、截断和首字母)
例1:年龄= "42"生日= "03/07/1997 "
例2:以前是“1,2,3”,现在是“A, B, C”
示例#3:如下所述的近似重复记录之间的差异。

➨为了解决数据质量问题,数据分析中使用的方法之一是数据清理或数据清洗。这是其中一种方法。其他方法包括数据质量检查、数据规范化、数据标准化、数据分析、重复数据删除等。

数据清理图

➨数据清理有许多功能来提高数据质量。其中一个功能是使用“字符串匹配”从两个不同的数据集(即表)中找到相同的实体,如图3所示。

使用字符串匹配进行数据清理

数据清理用例

以下是数据分析中使用的数据清理操作的用例。
mdm -主数据管理
客户关系管理
dwh -数据仓库
•dwh -商业智能BI

典型的例子包括库存水平、银行风险、IT开销、不正确的kpi和糟糕的宣传。

数据清理或数据清理挑战

以下是执行数据清理任务时要处理的挑战。
➨如何定义数据质量?
•这是由数据分析任务完成的。
➨语义的复杂性
•领域专家只能评估正确的价值。
•数据集和预期结果将决定技术的使用。要达到预期的结果,需要进行大量的微调。
➨计算复杂度
•重复检测本质上是二次的。
➨评估是困难的,因为没有明确的黄金标准。

数据分析相关链接

什么是数据分析
数据分析的优点和缺点
什么是大数据
什么是Hadoop
数据挖掘术语
数据挖掘工具和技术
什么是云存储
数据挖掘教程
云存储教程
基础设施
它是如何工作的
服务提供商
云存储安全
云计算教程


有什么不同

传统存储与云存储
类型
DNS vs DHCP
FTP vs HTTP
FTP vs SMTP
FTP与TFTP

射频和无线术语


分享本页

翻译本页
Baidu