摘要:理解数据,首先要观察原始数值并且计算基本的统计量。本文带你探索如何在R中利用描述性统计快速处理数据集,尤其适合用r处理机器学习的初学者。

理解数据,首先要观察原始数值并且计算基本的统计量。本文带你探索如何在R中利用描述性统计快速处理数据集,尤其适合用r处理机器学习的初学者。

本文用到R的“mlbench”和“e1071”两个包。安装代码如下:
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

在R中利用描述性统计总结数据

通过本文你会学到8个又快又简单的方法来总结你的数据集

1. 概览数据

如果数据集很小,可全部显示出来。但通常很大,所以选取部分样本观察。

利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
head函数会显示前20行数据。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

2. 数据维度

如果你有很多实例,你需要用更小的样本,这样模型的训练和测试在计算上可追踪。如果有很多的属性,则选取最相关的。如果属性多于实例,则选取特定的模型方法。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
以下是行数和列数。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

3. 数据类型

了解数据中属性的类型,会引导下一步分析、可视化的类型、甚至机器学习算法的类型。此外,一些属性加载和显示的类型不同,了解类型会尽早暴露类似画问题。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

以下是每种属性的数据类型。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

4. 类别分布

类别比例可能显示出数据的不平衡,严重的话要调整至均衡。多重分类问题上,包含个体数量极小甚至为零的类别需要被移出数据集。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

以下是类别数量及百分比。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

5. 数据总结

summary函数用表格总结了数据集中的所有数值属性:

• 最小值
• 上四分位数
• 中位数
• 均值
• 下四分位数
• 最大值
• 缺失数值个数(标为N/A)

利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

6. 方差

summary不包含方差。若数据是(或类似)高斯分布,方差和均值很重要。例如快速清理异常值时,任何大于均值三倍方差以上的数据都在99.7%以外。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
以下是每个属性的方差。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

7. 偏度

如果一个分布看上去像高斯分布但左偏或右偏,我们需要了解偏度。关注偏度比图形更容易些。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
绝对值越大,分布越左偏(偏度为负)或右偏(偏度为正)。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

8. 相关性

每对属性的相关系数反映出属性之间的关系。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网
以下是属性两两间相关系数。偏离零表示正或负的相关关系,绝对值大于0.75表示高相关,绝对值为1表示完全正或负相关。
利用描述性统计在R中更好的理解数据(8个有用的秘诀)-数据分析网

更多方法:

理解数据不拘泥于以上方法。数据集子集的统计量也会提供信息,具体参考aggregate函数。

Tips
• 观察并思考得到的统计量
• 提出疑问,思考它们和研究的问题以及和相关的特定个体的关系。
• 记录想法,如变量间关系,数字意义。

特点
无需用R编程:只需复制以上代码,并学习用法(如?FunctionName)。
无需精通统计:只需复习以下概念。
• 均值
• 方差
• 分位数
• Pearson相关系数
• 偏度
• 68-95-99.7法则
无需额外数据:本文数据是R自带的,扩展包中有很多有趣的数据,请参考R扩展包。