数据工匠

  • Apache Spark介绍及案例展示

    2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。 如今,诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…

    2016-02-10
    0
  • R语言有助于提高数据处理效率的7个包

    引言 数据处理是建立预测模型时不可避免的一步。一个稳健的预测模型不是仅仅依靠机器学习算法就可以建立的,相反,它还需要依靠一定的方法,这些方法帮助人们理解商业问题,了解潜在数据集,进行必要的数据处理工作并提取出有用的商业信息。 在这些建模阶段里,大多数时间通常都被花在了解潜在数据集和进行必要数据处理上。这也是这篇文章的焦点——谈一谈R中可提高数据处理效率的包。…

    2016-02-04
    0
  • 已经证实提高机器学习模型准确率的八大方法

    我从实践中学习了到这些方法。相对于理论,我一向更热衷于实践。这种学习方式也一直在激励我。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。希望我的知识可以帮助大家获得更高的职业成就。 导语 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没…

    2016-01-30
    0
  • 数据科学家每天都在做些什么?

    关于数据科学家的困惑很大部分归咎于:数据科学不是一个具体的职务,而是一种在机构中解决问题的方法。因此,数据科学可以包含多种教育背景、技能、工具、实践。实际工作中的数据科学家们,背景和技能的跨度很大,很难被一概而论。 相对而言,描述数据科学的实践是什么样的可能更容易。 简单地说,数据科学是用数据主导的答案解决实际问题的实践。实现这个目标的技术可能多种多样。你会…

    2016-01-29
    0
  • 非一般的数据挖掘机:关联规则法

    机器学习中的许多数据挖掘方法主要是针对数值型数据的,算法也很偏向数理方法(例如支持向量机)。而分类数据(非数值型数据),其本质不过是简单的计数,针对这类数据的一个简单实用的方法就是关联规则挖掘法,谷歌的MapReduce也为这类算法提供了很好的软件构架。下面我们就来讨论一下应用关联规则法的有趣实例。 关联规则法的核心在于研究一些经常相伴发生的事件之间的关系,…

    2016-01-27
    0
  • 机器学习和统计模型的差异

    在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。 在这篇文章中,我将尽最大的努力来展示机器学习和统计模型的区别,同时也欢迎业界有经验的朋友对本文进行补充。…

    2016-01-25
    0
  • 随机森林入门攻略(内含R、Python代码)

    简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是如此的方便实用。 需要大家注意的是,在上文中特别提到的是第一组测试结果,而非所有的结果,这是因为随机森林…

    2016-01-24
    0
  • 数据可视化的5个步骤

    数据被称作是最新的商业原材料“21世纪的石油”。 商业领域、研究领域、技术发展领域使用的数据总量非常巨大,并持续增长。就Elsevier而言,每年从ScienceDirect下载的文章有7亿篇,Scopus 上的机构档案有8万个、研究人员档案有 1 千 3 百万,Mendeley上的研究人员档案有 3 百万。对于用户来说,从这个数据海洋中抓到关键信息越来越难…

    2016-01-15
    0
  • 七步精通Python机器学习

    开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。 从哪里开始? 本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才…

    2016-01-15
    0
  • 2015年数据可视化十佳项目

    摘要:2015 年,优秀的可视化作品生机勃勃,我可以确定,明年也会有很多好作品。横跨不同主题和应用形式的项目大量涌现,但如果让我选一个年度主题的话,那一定是“教学”,不管是通过解释说明,模拟说明还是深刻分析的方式。有时候会感到可视化创作者很大胆,试着让读者们不再用惯有的思维方式来理解数据和统计学。我很喜欢这一点。 以下是我选出的 2015 最佳项目。按照惯例…

    2015-12-30
    0
  • 美国数据分析师Amazon的面试经验分享

    摘要:在 Nordstrom 数据实验室度过了两年美好时光以后, 我获得了一个亚马逊网络服务 S3 部门的岗位。我为即将开始的人生新篇章感到兴奋,也为耗时又折磨人的面试过程终于结束松了口气。 在 Nordstrom 数据实验室度过了两年美好时光以后, 我获得了一个亚马逊网络服务 S3 部门的岗位。我为即将开始的人生新篇章感到兴奋,也为耗时又折磨人的面试过程终…

    2015-12-29
    0
  • 用R语言进行数据分析:如何绘制各国地图?

    摘要:本文主要包含三种绘制地图的方法:绘制基础地图、基于空间数据格式(shapefile)绘制地图以及如何调用百度地图和谷歌地图的数据来绘制地图。 基础地图 方法 从map()包里获取地图数据,用geom_polygon()(可以用颜色填充)或者geom_path()(不能填充)绘制。 #install.packages(“ggplot2”) #instal…

    2015-12-22
    0
  • 一个成功的数据分析团队:角色与职责

    摘要:多年以来我和数百家企业打过交道,在这个过程中,我领悟了让数据分析项目成功的一些因素,也亲眼看着很多项目失败。 多年以来我和数百家企业打过交道,在这个过程中,我领悟了让数据分析项目成功的一些因素,也亲眼看着很多项目失败。 最常见的失败原因说出来可能会让你惊讶。并非是缺乏数据专业知识或者整合失误,而仅仅是因为企业没有让“利用数据”成为任何人员的职责。太多公…

    2015-12-13
    0
  • 数据挖掘与预测分析术语总结

    数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。 大数据(Big Data): 大数据既是一个被滥用的流行语,也是一个当今社会的真…

    2015-11-03
    0
关注我们
关注我们
分享本页
返回顶部