数据嗨客 | 第8期:主成分分析

主成分分析是一种经典的降维方法,但如果你只把主成分分析作为一种降维手段,那么你就太OUT了。

主成分的官方解释是这样的:

主成分分析法是将具有一定相关性的多个指标化简为少数几个综合指标的统计分析方法。

在原始数据的基础上,利用主成分分析法经过线性变换和舍弃部分信息,可以找出由若干指标组合而成的综合指标,即若干个主成分。

而这些主成分就可以尽可能地反映原来指标的特征与信息,同时彼此间相互独立。

除了降维之外,主成分分析还是最经典的无监督学习方法和人脸识别算法之一,著名的“特征脸”就来源于此。

主成分分析的优点有:

·      利用降维的思想,在保留原始数据信息,最大限度地减少信息丢失的基础上,对高维变量空间进行降维处理,提高模型效率;

·      对原始变量系统进行最佳的综合与简化,它可以客观地确定各个指标参数的权重,避免主观判别带来的随意性。

主成分分析的缺点有:

·      降维之后,不能包含原始数据100%的信息;

·      主成分的解释含义一般带有模糊性,不像原始变量的含义那么清楚、确切。

主成分分析作为人脸识别领域经典的技术之一,由它建立的“特征脸”得到非常广泛的应用,可以描述不同的人脸图像,我们还可以得到不同人脸的“平均脸”,听起来似乎很有趣,接下里我们会详细介绍。

图一计算40人所得到的平均脸,图二为主成分分析得到重构脸,分别为5张姿态脸和8张姿态脸训练所得,均包含原始数据90%的信息(71个特征,91个特征)。

PCA的人脸识别技术中的应用将在之后进一步介绍。

简单来说,主成分分析就是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,方差最大的为第一主成分。

具体原理步骤很多教材及百科上都有详细说明,这里就不再赘述了。

下图为主成分分析的一个简单图解。

图三 主成分分析的简单图解

上图为一些二维变量分布而成,如果我们想要把这些变量降为一维,理想情况是这个一维新变量包含原始数据最多的信息,那我们便选择F1方向,因为F1方向方差最大,离散程度最大,包含的信息量最多。

也许你会问为什么方差越大,包含的信息量越大?接下来,我们便要讨论这样的问题。

一般是从信息熵的概念来解释,我们可以简单地这样理解,方差越大,变量的差异也就越大,所含的信息量就越多,就像一个包含一些相似的汽车的集合和不同的汽车、火车、电瓶车所组成集合,当然是后者包含的信息量较大。

其实严格来说,方差刻画的是变量的离散程度,信息熵描述的变量的不确定程度,两者既有联系又有区别,因为一组离散程度很小的变量不确定可以很大,所以变量方差越大,包含信息量越多这样的说法是有些牵强的。

很多伙伴可能还会问,主成分分析是怎么应用到人脸识别中的呢?

下面我们简要介绍其在人脸识别中的应用。

著名的“特征脸”的思想即将脸部图像从像素空间变化到另一个可以进行相似性计算的空间。

这里用的就是PCA,通过训练集所有人脸图像的协方差矩阵进行特征值分解,得到的特征向量即为特征脸。

每个特征向量可以描述人脸的一个特性或变化,每个人脸可以描述为这些特征量的线性组合。

具体步骤如下:(1)将训练集的每一个人脸图像像素值排列好存为矩阵A。假设每个人脸图像大小是MxM,那么拉成一列后的每个人脸样本维度为d=MxM。如果有N个人脸图像,那么样本矩阵A的维度就是dxN了。

(2)将所有的N个人脸在对应维度像素值加起来求平均,就得到了“平均脸”。

(3)将N个图像都减去平均脸图像,得到差值图像的数据矩阵Φ。

(4)计算协方差矩阵ΦΦT。对其进行特征值分解,得到的特征向量就是特征脸了。

(5)将训练集图像和测试集的图像都投影到这些特征向量上了,再对测试集的每个图像找到训练集中的最近邻进行分类。

作为测试,我们选取40个人,每人5张不同姿态的脸部图像进行训练,保留90%的信息选取71个特征,在没有任何预处理的情况下准确率可达77%。感兴趣的伙伴可以进一步探究。

友情提示:

并非所有的样本数据都可以用主成分分析的方法,通常实际问题中应用主成分分析作为研究的一种手段,借此简化数据结构,从而进行进一步分析。

但使用主成分分析具有一定的前提条件,当原始数据的各个变量之间具有较强线性相关的关系时,主成分分析是适用的。

当原始变量间线性相关的程度很小时,则不存在简化的数据结构,这时使用主成分分析是不合适的。

所以,应用主成分分时前,需要对原始数据就适用性进行检验(这是很多伙伴容易忽略的,大都拿来就用)。

KMO检验就可以作为主成分分析的适用性检验方法,感兴趣的伙伴可以再深入了解。

参考文献

[1]Peng Yuan.Model of Teaching Evaluation inInstitutions of Higher Learning Based on Evaluation by Students[J].Journal ofWuhan University of Science and Technology(Natural ScienceEdition),2005,7(3):67-69.

[2] Hotelling H. Analysis of a complex of statisticalvariables into principal components[J].Journal of EducationalPsychology,1933,24:417-441.

[3] Wang Wei, Ma Qinzhong, Lin Mingzhou. Primary component analysis method andreduction of seismicity parameters.Acta Seismologica Sinica,2005,27(5): 524 – 531.

[4] Fu Deyin. Statistical test of principalcomponent analysis.Statistical Education.2007:483-488.

[5] Jiang Qiyuan, Xie Jinxing, Ye jun.Mathematical Model.Beijing:Higher Education Press, 2003:322-326.

[6] N. R. Draper, H. Smith. Applied RegressionAnalysis (third edition). John Wiley & Sons, Inc.1998

本文由 普林科技(微信公众号:普林科技) 投稿 数据分析网 发表,并经数据分析网编辑。版权归作者所有,转载此文请与作者联系。

爱分析

爱分析

群众的智慧是无穷的,欢迎广大数据从业者分享你们的观察和看法!!
爱分析

注:数据分析网遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏,请联系主编邮箱:afenxi@afenxi.com

分享到:更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址