数据工匠
-
R 和 Python 中的文本挖掘:8 个入门小贴士
你希望学习文本挖掘,却发现大多数教程难度跨度很大?或者说你找不到心仪的数据集?
-
Python vs R : 在机器学习和数据分析领域中的对比
Python 和 R 语言都具有健全的生态系统,其中包括了很多开源工具和资源库,从而能够帮助任何水平层级的数据科学家展示其分析工作。
-
从 R 迁移到 Python 过程中你需要知道的几个软件库
为什么要用 Python 呢?
-
揭开机器学习的面纱
你周围的人是否都在谈论着“机器学习”?而你是否也听说过一些算法技术却仍旧缺乏一个全局的认识?本文也许就是一个好的起点……
-
八招提升你的 R 语言编程能力
这个世界每天都在源源不断地生产数据,而人们尤其是商界往往希望从这些数据中获取到有价值的信息。而这一点也促使很多试图从数据中提取有用信息的数据科学家们(或被叫做数据分析师、数据挖掘者等等听起来不错的称谓)不断地进行探索。
-
如何使用 Python 开始建立你的数据分析项目
数据分析的基本内容究竟是什么样的?你应当怎样安排项目结构?你需要使用什么样的工具?
-
学习机器学习时需要尽早知道的三件事
将模型应用到产品中并不是一件简单的小事。
-
用随机森林预测NBA球员打什么位置
用NBA球员的统计数据来预测他们所打的位置。
-
利用 pandas和ggplot来分析 iPhone 的步行数据
本文中我将展示如何利用 pandas 和 ggplot 来分析 iPhone 的步行数据,我主要利用 Rodeo(Yhat’s 的 IDE)来进行数据分析。
-
机器学习与Dota2英雄属性
本文使用自然语言处理(NLP)方法对DOTA2 英雄角色属性做了简要的分析。
-
用Python进行梯度提升算法的参数调整
提升算法(Boosting)在处理偏差-方差权衡的问题上表现优越,和装袋算法(Bagging)仅仅注重控制方差不同,提升算法在控制偏差和方差的问题上往往更加有效。在这里,我们提供一个对梯度提升算法的透彻理解,希望他能让你在处理这一问题上更加胸有成竹。
-
主题模型初学者指南[Python]
但是新技术的出现使得我们可以从这些轻易地解析非结构化数据,并提取出重要信息。
-
机器学习系列-word2vec篇
深度学习方向当下如火如荼,就差跑进楼下大妈的聊天内容了。
-
Github 上 Pandas, Numpy 和 Scipy 三个库中 20 个最常用的函数
几个月前,我看到一篇博客中列出了 Github 网站上 Python 常用库中使用频率最高的一些函数/模块。我在这个基础上做了可视化理,并撰写了每个库中使用频率前十的函数示例。其中本文中只包含了部分示例,完整的示例可以参见我的 Github。
-
如何可视化城市的交通便捷性
本文将介绍如何利用它来可视化展示城市的交通便捷性,本文的相关代码和数据都托管在 Github。