盘点数据处理工具，手把手教你做数据清洗和转换

导读：原始数据本身没有用。为了使它实际有用，你需要准备它。

作者：Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent
来源：大数据DT（ID：hzdashuju）

数据准备的关键和重复阶段是数据探索。一组因为太大而无法由人工手动读取、检查和编辑每个值的数据，仍需要验证其质量和适用性，然后才可以将其委托给一个值得花费时间和计算的模型。

与将大型数据集的样本转储到电子表格程序中的方法一样简单，只需查看每列中出现的值的类型或范围，即可识别诸如不负责任的默认值之类的错误（例如，在没有测量值的情况下，使用零而不是NULL）或不可能的范围或不兼容的合并（数据似乎来自多个来源，每个来源中使用了不同的单位。例如，华氏度与摄氏度）。

数据分析工具非常丰富。当数据集太大而无法在电子表格程序中打开时，Python脚本或像RStudio这样的应用程序具有可视化、汇总或报告数据的强大功能。使用你熟悉的任何方法， 至少要确定不同属性值的格式和一般分布。

02 数据处理工具

在能够使用数据集之前，有许多工具可以用于清洗、处理和了解数据集。Python是这方面的事实标准，它有很多工具来理解和处理数据。

Matplotlib之类的包，通常可以非常容易地生成用于可视化检查的数据图表。

Pillow提供各种处理、转换和操作图像的功能。

Python有一个用于执行统计的内置程序包，如果需要更多功能的话， NumPy也有。

Python还具有广泛的内置和第三方支持内容，可处理你将要遇到的几乎所有文件格式，包括CSV、JSON、YAML、XML和HTML，以及更深奥的格式（如TOML或INI文件）。

如果这些都不起作用，则有一个值得搜索的软件包索引器，可以查看是否有解决你的问题的方法。或者，只需搜索“我想用Python做事情”，大多数情况下，你会发现某人遇到了相同的问题，并为此提供了解决方案，或者至少提供了一些可以查看的指引。

如果你不喜欢Python，那么几乎所有选择的编程语言都具有类似的工具和功能。我们之所以喜欢Python，是因为这些工作已经为你完成了，而且有很多例子可以作为起点。Python在这方面没有什么神奇之处，但它是最受欢迎的选择，所以我们提倡坚持使用主流工具。

另一个不错的选择是电子表格程序，例如Excel、Numbers或Google Sheets。它们经常受到指责，因为在这些程序中进行数据准备可能很麻烦，但在需要使用Python（或你选择的其他工具）之前，你可以使用它们非常快速地获得大量有用的洞见和准备。作为系统附赠的工具，你基本上肯定已经安装了其中一个，并且可以在你的机器上运行。

最后，不要害怕跳出框架思考——一些像压缩数据集这样简单的东西，甚至不需要看数据集内部就能大致了解数据集的熵大小。如果一个数据集压缩得非常好，而来自相同来源的另一个数据集压缩得不那么好，那么第二个数据集的数据的熵可能比第一个数据集的大。

图像数据集不是那么容易观察到的，但绝对值得花时间浏览一下图像的总体质量，以及图像使用了哪些裁剪方法。像Turi Create这样的可视化功能对于了解数据非常有用。图3-1显示了一个例子。

▲图3-1 通过Turi Create了解你的数据

03 清洗数据

在了解数据集的过程中，你可能会遇到一些错误。记录数据可能会产生错误。 需要检查的错误有以下几类：

一致值错误
单值错误
缺失值

一致值错误包括可能导致整列或一组值不准确的情况，例如，使用仪器记录某个被统一量校准错误的数据，从产生额外热量的物体旁边测量温度，使用未提前归零的天平称重，等等。这还包括来自不同来源的数据未经转换就被不当合并的情况：简单压缩一组来自美国和一组来自英国的数据，现在系统认为100摄氏度完全合理。

单值错误用于描述离群值或不一致的错误校准，仅在少数情况下导致不准确或完全不合逻辑的值。可能出现的情况，如传感器超载一天，产生的值比理论可能的高1000%（应该是相当明显的）。

当用于记录数据的方法出现问题，或者数据集在其生命周期的某个时刻经历了某种畸形的转换时，可能会出现 缺失值。这些可能是简单的nil或NULL值，或者一些不太有用的值，例如字符串”NONE”或默认值0。有些甚至可能只是无意义的字符，什么都有可能出现。

如果可以识别出一致误差，那么这通常可以通过按一致误差值缩放或转换整个值集来纠正。单值错误和缺失值要求你要么猜测需要使用某种可行方法替换的值，要么完全删除行或者观察值以防止出现误差。

你可以通过以下方法来猜测该值：获取该列中所有其他值的平均值；使用该列中与缺失值最接近的观察值；使用一些使用其他属性知识的特定于应用程序的方法。

04 转换数据

在使用数据之前进行转换有两个主要原因：为了满足要使用的算法的格式要求；使用新的推断属性改进或扩展当前数据。对于这两种目的，通常有三种数据转换：

1. 归一化（normalization）

一种用于数值数据的方法，它将上界和下界绑定到一个数值范围上，使它们更容易处理。

这方面的一个例子是对数值数据的观察值需要与不同的度量进行比较。如果你试图根据鱼的长度、体重、年龄和失去眼睛的数量来评估不同鱼的健康状况，大概每个人都会同意用不同的标准来比较两条鱼（例如，一只眼睛与一年的鱼，或者一厘米长度的相比较）。如果用同样的标准来比较，则会得出不同的结果。

归一为正数值很简单：

2. 泛化（generalization）

一种将特定值替换为更高级别的概念，以更好地进行群体观察的方法。

当记录某些属性的方法比需要的更精确时，通常会发生这种情况。例如，如果你具有某人运动的GPS统计信息，则可以将纬度和经度归纳为一个地址，从而防止系统将每一个小运动都视为位置变化。或者，将数值测量值转换为人类群体，这意味着相关因素可能不是将个人的身高测量值以毫米为单位，而是将其分为低于、接近或高于平均的身高。

3. 聚合（aggregation）

对某些复杂属性进行总结以使分析更有效的一种方法。

例如，可以从文本中提取关键字（甚至是单词频率），而不是分析文本的段落（Attribute: Text，Classification: Class），只显示与所给出的分类最相关或最独特的方面。

在这些步骤之前、之间或之后，可能会出现不同类型的数据转换，数据可能被更改、扩展或缩减：