最全面的K-means聚类指南

大数据精选 • 文章来源: 人工智能遇见磐创 • 2019-09-05 05:55 • 人工智能

1. 介绍

每当我在网站上遇到推荐引擎时，我都迫不及待地将其分解并理解它的底层是如何工作的。我想这是成为数据科学家的最重要的品质之一！

这些系统真正令我着迷的是我们如何将类似的物品，产品和用户组合在一起。这种分组或分段适用于各个行业。这就是聚类概念在数据科学中如此重要的原因。

聚类有助于我们以独特的方式理解我们的数据 – 通过将事物分组。

在本文中，我们将全面介绍K-means聚类及其扩展。我们将研究聚类，它为什么重要，它的应用，然后深入研究K-means聚类(包括如何在真实数据集上用Python实现它)。

2. 什么是聚类？

让我们用一个简单的例子来解决问题。银行希望向其客户提供信用卡优惠。目前，他们查看每个客户的详细信息，并根据这些信息，决定应该向哪个客户提供哪个优惠。

现在，该银行可能拥有数百万客户。分别查看每个客户的详细信息然后做出决定是否有意义？当然没有！这是一个手动过程，需要花费大量时间。那么银行可以做些什么呢？一种选择是将其客户划分为不同的组。例如，银行可以根据客户的收入对其进行分组：

银行现在可以制定三种不同的策略或优惠，每组一个。在这里，他们不必为个人客户创建不同的策略，而只需制定3种策略。这将减少时间和人力。我上面显示的组称为簇(clusers)，创建这些组的过程称为聚类(clustering)。在形式上，我们可以说：

聚类是基于数据中的模式将整个数据划分为组(也称为簇)的过程。

你能猜出聚类是哪种类型的学习问题吗？这是一个有监督还是无监督的学习问题吗？

考虑一下，并利用我们刚才看到的例子。是的，聚类是一种无监督的学习问题！

2.1. 聚类为什么是一个无监督学习问题？

假设你正在开展一个需要预测市场销售的项目：

#簇的个数 K=3 # 随机选择观察值作为簇心 Centroids = (X.sample(n=K)) plt.scatter(X["ApplicantIncome"],X["LoanAmount"],c='black') plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red') plt.xlabel('AnnualIncome') plt.ylabel('Loan Amount (In Thousands)') plt.show()

# 第三步：将所有点分配给到某个质心距离最近的簇 # 第四步：重新计算新形成的簇的质心 # 第五步：重复第三步和第四步 diff = 1 j=0 while(diff!=0): XD=X i=1 for index1,row_c in Centroids.iterrows(): ED=[] for index2,row_d in XD.iterrows(): d1=(row_c["ApplicantIncome"]-row_d["ApplicantIncome"])**2 d2=(row_c["LoanAmount"]-row_d["LoanAmount"])**2 d=np.sqrt(d1+d2) ED.append(d) X[i]=ED i=i+1 C=[] for index,row in X.iterrows(): min_dist=row[1] pos=1 for i in range(K): if row[i+1] < min_dist: min_dist = row[i+1] pos=i+1 C.append(pos) X["Cluster"]=C Centroids_new = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]] if j == 0: diff=1 j=j+1 else: diff = (Centroids_new['LoanAmount'] - Centroids['LoanAmount']).sum() + (Centroids_new['ApplicantIncome'] - Centroids['ApplicantIncome']).sum() print(diff.sum()) Centroids = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]]

color=['blue','green','cyan'] for k in range(K): data=X[X["Cluster"]==k+1] plt.scatter(data["ApplicantIncome"],data["LoanAmount"],c=color[k]) plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red') plt.xlabel('Income') plt.ylabel('Loan Amount (In Thousands)') plt.show()

# 标准化数据 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_scaled = scaler.fit_transform(data) # 统计标准化后的数据 pd.DataFrame(data_scaled).describe()

# 拟合多个K-means模型并将各个模型的Inertia值存储到空的列表中 SSE = [] for cluster in range(1,20): kmeans = KMeans(n_jobs = -1, n_clusters = cluster, init='K-means++') kmeans.fit(data_scaled) SSE.append(kmeans.Inertia_) # 绘制图形 frame = pd.DataFrame({'Cluster':range(1,20), 'SSE':SSE}) plt.figure(figsize=(12,6)) plt.plot(frame['Cluster'], frame['SSE'], er='o') plt.xlabel('Number of clusters') plt.ylabel('Inertia')

最全面的K-means聚类指南

你可能也喜欢这些文章