蓝鲸
-
使用K-Means算法对数据进行聚类
K-Means是聚类算法的一种,以距离来判断数据点间的相似度并对数据进行聚类。
-
使用scikit-learn进行特征选择
scikit-learn中提供了用于特征选择的模块feature_selection,主要方法包括方差移除法,卡方检验法,基于L1的特征选择和基于树的特征选择。
-
使用scikit-learn对数据进行预处理
使用scikit-learn对数据进行预处理。
-
关联规则推荐算法的原理及实现
关联规则用来发现数据间潜在的关联,最典型的应用是电商网站的购物车分析。本文将通过一个简单的例子来说明关联规则中各个术语的含义以及具体的计算方法。
-
使用R进行统计分析——回归分析
使用R进行统计分析——回归分析。
-
使用R进行数据提取
本篇文章介绍如何通过R按特定的维度或条件对数据进行提取,完成数据提取需求。
-
使用R进行数据匹配
R中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能。
-
网站数据分析:流量异常变动的常见原因分析
网站流量异常变动的8种常见原因。
-
990万次骑行:纽约自行车共享系统分析
Citi Bike是纽约市在2013年5月27日启动的一项自行车共享计划,由“花旗银行”(Citi Bank)赞助并取名为“花旗单车”(Citi Bike)。在曼哈顿,布鲁克林,皇后区和泽西市有8,000辆自行车和500个车站。为纽约的居民和游客提供一种方便快捷,并且省钱的出行方式。
-
使用R进行数据清洗
数据清洗是整个数据分析过程中一个非常重要的环节。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。本篇文章将介绍几种简单的使用R进行数据清洗的方法。
-
使用R读取并查看数据
本篇文章介绍如何使用R读取并查看数据,包含一些最基础的函数使用方法和说明。后面还会陆续介绍数据清洗,匹配和提取等相关的操作。
-
使用Python创建LDA模型进行分类
线性判别式分析(Linear Discriminant Analysis)简称LDA,是模式识别的经典算法。
-
使用R进行统计分析——假设检验
本篇文章介绍如何使用R语言中的这些函数进行假设检验。
-
使用R进行统计分析——概率计算
本篇文章介绍如果使用R语言中的这些函数求解事件发生的概率。
-
使用Python训练SVM模型识别手写体数字
支持向量机SVM(Support Vector Machine)是有监督的分类预测模型,本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。