数据挖掘系列篇：聚类算法概述

本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类

分类是“监督学习”，事先知道有哪些类别可以分。

数据挖掘系列篇：聚类算法概述

聚类是“无监督学习”，事先不知道将要分成哪些类。

举个例子，比如苹果、香蕉、猕猴桃、手机、电话机。
根据特征的不同，我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类，和【手机、电话机】为数码产品的一类。
而分类的话，就是我们在判断“草莓”的时候，把它归为“水果”一类。

所以通俗的解释就是：分类是从训练集学习对数据的判断能力，再去做未知数据的分类判断；而聚类就是把相似的东西分为一类，它不需要训练数据进行学习。

学术解释：分类是指分析数据库中的一组对象，找出其共同属性。然后根据分类模型，把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型，然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。

2.聚类的常见应用

我们在实际情况的中的应用会有：

marketing：客户分群

insurance：寻找汽车保险高索赔客户群

urban planning：寻找相同类型的房产

比如你做买家分析、卖家分析时，一定会听到客户分群的概念，用标准分为高价值客户、一般价值客户和潜在用户等，对于不同价值的客户提供不同的营销方案；

还有像在保险公司，那些高索赔的客户是保险公司最care的问题，这个就是影响到保险公司的盈利问题；

还有在做房产的时候，根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。

3.k-means

（1）假定K个clusters（2）目标：寻找紧致的聚类

a.随机初始化clusters

b.分配数据到最近的cluster

c.重复计算clusters

d.repeat直到收敛

优点：局部最优

缺点：对于非凸的cluster有问题

其中K=？

K<=sample size
取决于数据的分布和期望的resolution
AIC，DIC
层次聚类避免了这个问题

4.评估聚类

鲁棒性？

聚类如何，是否过度聚合？

很多时候是取决于聚合后要干什么。

5.case案例

case 1：卖家分群云图

本文为特邀专栏文章，来自：数据分析侠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/5196.html 。