提起相关分析,很多人的第一意识就是简单,因为它是统计的基础操作,许多分析方法都涉及到相关。其实不然,我们经常提到的仅是连续变量之间的相关,那么,类别变量的相关分析要如何去做呢?

案例数据说明

有一份电信用户数据,其中包含2个分类变量:套餐类型和是否流失。套餐类型变量有4个分类值,分别为基础服务、电子服务、附加服务、全服务;是否流失变量包括流失Yes及未流失No。现在我们需要分析分类变量“套餐类型”和“是否流失”之间的关系。

图形化解决方案——网络图

网络图适合多分类型变量之间的相关分析,是一种更为生动和直观地展示两个或多个分类型变量相关特征的图形。图形由节点和节点间的连线组成,每个节点对应一个分类取值,连线代表两个分类变量不同类型的组合。

用SPSS对分类变量进行相关分析-数据分析网
用SPSS对分类变量进行相关分析-数据分析网

根据图形,最细连线代表44人,最粗连线代表237人,可见Plus service(附加服务套餐)节点和未流失节点之间的连线最粗,选择附加服务套餐的用户相对而言比较忠实,而选择基本服务类型的用户保持情况不如选择附加服务的用户保持情况理想。

以上过程可采用Clementine的web节点实现。

数值型解决方案——交叉表分析

图形化方法并不能正确反映两分类变量之间的相关程度,因此精细的数值分析是必要的。两分类变量之间的相关分析通常采用交叉表分析,或称为列联表分析方法。包括两部分,第一,两分类变量交叉计算和对比频数,第二,在交叉表的基础上利用卡方检验衡量二者之间的关系。

1、交叉表频数对比分析的解读
用SPSS对分类变量进行相关分析-数据分析网

由表可知,用户总体保持率72.6%,流失率27.4%,用户保持情况不太理想。总体而言,样本量较小的情况下,四种套餐的占比分布情况不甚明了。

其中最突出的是,附加服务的客户忠诚度相对较高,保持率达到84.3%,高出总体保持率,流失率在四个套餐中最低,仅15.7%,低于总体流失率。可见,不同类型套餐用户的保持和流失存在差异。

因此说,客户流失与套餐类型是相关联的。

2、卡方检验解读

用SPSS对分类变量进行相关分析-数据分析网

卡方检验原假设:行与列分类变量相互独立,没有相关关系。由卡方检验表看出,其sig值为0.000,小于小概率事件的界定值0.01,由小概率事件不发生可以知道,原假设即二者独立这个说法是不合理的,也就是说套餐类型和客户流失是有极显著的相关关系。

以上交叉表分析可利用 SPSS 实现。

参考自薛薇、陈欢歌老师著《基于Clementine的数据挖掘》