【收藏】R数据挖掘分析常用包和函数

1、聚类

常用的包： fpc，cluster，pvclust，mclust

基于划分的方法： kmeans， pam， pamk， clara

基于层次的方法： hclust， pvclust， agnes， diana

基于模型的方法： mclust

基于密度的方法： dbscan

基于画图的方法： plotcluster， plot.hclust

基于验证的方法： cluster.stats

2、分类

常用的包：rpart，party，randomForest，rpartOrdinal，tree，marginTree，

maptree，survival

决策树： rpart， ctree

随机森林： cforest， randomForest

回归， Logistic回归， Poisson回归： glm， predict， residuals

生存分析： survfit， survdiff， coxph

3、关联规则与频繁项集

常用的包：

arules：支持挖掘频繁项集，最大频繁项集，频繁闭项目集和关联规则

DRM：回归和分类数据的重复关联模型

APRIORI算法，广度RST算法：apriori， drm

ECLAT算法：采用等价类，RST深度搜索和集合的交集： eclat

4、时间序列

常用的包： timsac

时间序列构建函数： ts

成分分解： decomp， decompose， stl， tsr

5、统计

常用的包： Base R， nlme

方差分析： aov， anova

密度分析： density

假设检验： t.test， prop.test， anova， aov

线性混合模型：lme

主成分分析和因子分析：princomp

6、图表

条形图： barplot

饼图： pie

散点图： dotchart

直方图： hist

树： rpart

密度图： densityplot

蜡烛图，箱形图 boxplot

热图， contour： contour， filled.contour

QQ (quantile-quantile) 图： qqnorm， qqplot， qqline

Parallel coordinates： parallel， paracoor， parcoord

其他图： stripplot， sunflowerplot， interaction.plot， matplot， fourfoldplot，

assocplot， mosaicplot

7、数据处理

缺失值：na.omit

变量标准化：scale

变量转置：t

抽样：sample

堆栈：stack， unstack

其他：aggregate， merge， reshape

本文为特邀专栏文章，来自：小蚊子乐园，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/15683.html 。