什么是数据清洗和数据标注
作者:writer001
更新时间:2023-02-27 16:45:30
点击数:
数据清洗,又称数据清理,是从原始数据中提取数据,并消除其中的冗余、错误、合理缺失和其他不准确的部分的过程。
数据标注,又称数据注释,是将原始数据集中的某一部分标记为特定概念的过程,以便编写一组有组织的、统一的数据集。该过程往往需要许多人工标记,以确保数据的准确性和一致性。
数据清洗的主要内容包括:清洗噪声数据,缺失值处理,数据格式转换,数据规范化,数据去重,数据合并,数据分组,数据采样等。
1. 删除无效数据:删除不属于所需要的数据,比如垃圾数据(如:HTML标签,空行等),无效字段(如:重复字段、不必要字段);
2. 格式化或规范化数据:统一格式,例如:统一日期格式,统一编码(各国的语言编码)等;
3. 缺失值处理:当缺失值处理不当,后续分析就无法进行,要根据具体情况进行补全或删除等操作;
4. 检查和修正错误:数据更改、脏数据清洗等,检查和更正数据不一致等错误;
5. 异常值处理:异常值干扰后期分析准确性,需要根据情况判断是否移除异常值。