R语言

  • R语言不平衡数据分类指南

    在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。

    2016-05-24
  • R语言中离群值的识别、描述、绘制与移除

    统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。

    2016-05-24
  • 学习R语言,一篇文章让你从懵圈到入门

    在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。

    2016-05-09
  • 将Python和R整合进一个数据分析流程

    在Python中调用R或在R中调用Python,为什么是“和”而不是“或”?

    2016-05-08
  • 【收藏】R数据挖掘分析常用包和函数

    1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验…

    2016-05-02
  • 深入对比数据科学工具箱:Python和R之争

    概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R >> Python &g…

    2016-04-10
  • R语言构建配对交易量化模型

    我们可以通过“统计套利”的方法,发现市场的无效性。

    2016-04-05
  • R的学习路径,从新手到专家的7个步骤

    摘要:如果你从来没有编程经验,也没有比较熟悉的统计软件,那么学习R可能会比较困难。这个学习路径主要针对新手。关于R有很多优秀资源,这里介绍的一些在线课程、书籍和更多让你尽快学会R。 纲要: 步骤1:你为什么要学习R 步骤2:安装 步骤3:了解R的语法 步骤4:R的核心->包 步骤5:帮助系统 步骤6:数据分析工作流程 6.1导入数据 6.2数据操作 6…

    2016-04-04
  • R语言与非结构化数据共舞

    介绍 现代化数据科学中的 DataFrame 概念源起R语言,而 Python Pandas 和 Spark DateFrame 都是参考R设计的。不过在实际的网络数据通讯中,类似DateFrame这样的格式却并不是主流,真正主流的方式其实是JSON(JavaScript Online Notation),所以讨论如何处理非结构化数据就变得非常有意义了。加之…

    2016-03-17
  • R语言和Python —— 一个错误的分裂

    最近有一些文章提出与年龄相关的问题:“ 崭露头角的年轻数据科学家们是学习R语言还是Python更好 “ 答案似乎都是“视情况而定”,在现实中没有必要在R和Python中做出选择,因为你两个都用得到。 它被称为RPy2: http://rpy.sourceforge.net/rpy2/doc-2.1/html/introduction.html 什…

    2016-03-09
  • R语言 vs Python:数据分析哪家强?

    摘要:这篇文章旨在更客观地看待这两门语言。我们会平行使用Python和R分析一个数据集,展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点,而不是猜想。在Dataquest,我们教授两种语言,并认为两者在数据科学工具箱中都占据各自的地位。 我们将会分析一个NBA数据集,包含运动员和他们在2013-2014赛季的表现,可以在这里下载…

    2016-02-28
  • R语言:ggplot2精细化绘图——以实用商业化图表绘图为例

    摘要:本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人。不讨论那些样式非常酷炫的图表,以实用的商业化图表为主。包括以下结构: 1、画图前的准备:自定义ggplot2格式刷2、画图前的准备:数据塑形利器dplyr / tidyr介绍…

    2016-02-22
  • 提升R语言运算效率的11个实用方法

    众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。 让我们尝试提升往数据框中添加一个新变量过程(该过程中包含循环和判断…

    2016-02-16
  • R语言中的情感分析与机器学习

    利用机器学习可以很方便的做情感分析。本篇文章将介绍在R语言中如何利用机器学习方法来做情感分析。在R语言中,由Timothy P.Jurka开发的情感分析以及更一般的文本挖掘包已经得到了很好的发展。你可以查看下sentiment包以及梦幻般的RTextTools包。实际上,Timothy还写了一个针对低内存下多元Logistic回归(也称最大熵)的R包maxt…

    2016-02-14

联系我们

如有建议:>>给我留言

QR code