数据工匠

  • 神经网络从被人忽悠到忽悠人(一)

    很难想象有什么事物会像廉价、强大、无处不在的人工智能那样拥有“改变一切”的力量。《必然》

    2016-05-05
    0
  • 简单有效的数据分析才是王道

    越来越多的公司开始倡导‘用数据说话’,利用数据分析来帮助公司进行商务运营和制定决策。但如果一个公司试图对所有可能收集到的数据进行分析或者期望用数字来解决一切问题,那便又陷入了另一个极端,让自己受到数据分析复杂性的困扰。公司应该利用简单有效的数据分析方法帮助其在已有的业务认知基础上更好地作出商务决策。下面我们就结合一些公司的实例来介绍利用简单的数据分析解决商务…

    2016-04-19
    0
  • 检测异常值的参数和非参数方法(续)

    摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本间的相似情况。通常情况下,我们用样本之间的距离远近来衡量其相…

    2016-04-07
    0
  • 检测异常值的参数和非参数方法

    摘要:如何利用参数和非参数方法来检测异常值 异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢 有许多用来识别异常值的参数和非参数方法,参数方法需要一些关于变量分布情况的假设条件,而非参数方法并不需要这些假设条件。此外,你还可以利用单…

    2016-04-04
    0
  • 机器学习中的梯度下降法

    最优化问题是机器学习算法中非常重要的一部分,几乎每一个机器学习算法的核心都是在处理最优化问题。 本文中我讲介绍一些机器学习领域中常用的且非常掌握的最优化算法,看完本篇文章后你将会明白: 什么是梯度下降法? 如何将梯度下降法运用到线性回归模型中? 如何利用梯度下降法处理大规模的数据? 梯度下降法的一些技巧 让我们开始吧! 梯度下降法 梯度下降法是一个用于寻找最…

    2016-03-28
    0
  • 怎么为数据分析瘦身?

    越来越多的公司开始倡导‘用数据说话’,利用数据分析来帮助公司进行商务运营和制定决策。但如果一个公司试图对所有可能收集到的数据进行分析或者期望用数字来解决一切问题,那便又陷入了另一个极端,让自己受到数据分析复杂性的困扰。公司应该利用简单有效的数据分析方法帮助其在已有的业务认知基础上更好地作出商务决策。下面我们就结合一些公司的实例来介绍利用简单的数据分析解决商务…

    2016-03-27
    0
  • Kaggle不给你的数据科学简历加分的五个理由

    如果你刚刚开始塑造自己数据科学方面的资历,你可能听过这样的建议:去做个Kaggle项目吧。的确,这会是个不错的起点,能让你忙活起来,摆弄数据和各种技术工具。Kaggle也刚刚推出了新的数据集功能,允许公众获取并处理更多数据。然而,当你需要在简历里展示自己的项目经历时,不要指望Kaggle可以作为什么可靠的凭据。原因如下: 1. 很难从竞赛中脱颖而出。 除非你…

    2016-03-26
    0
  • 统计学家难得的共识:是时候停止滥用P值了

    小小的P值, 对于显著性, 你说想要说些什么 —Stephen Ziliak, 罗斯福大学经济学教授 需要多少个统计学家,才能保证对于p值有至少50%的不满呢根据曼荷莲学院统计学家George Cobb半开玩笑的估计,答案是两个…或者一个。所以也就不令人意外,当美国统计协会聚集了26名专家商讨关于统计显著性和P值的一致声明时,讨论很快就变得激烈。 对于外行人…

    2016-03-14
    0
  • [Python]爬虫技术:(JavaScript渲染)动态页面抓取超级指南

    当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。浏览器知道如何处理这些代码并将其展现出来,但是我们的程序该如何处理这些代码呢?接下来,我将介绍一个简单粗暴的方法来抓取含有 J…

    2016-03-10
    0
  • 数据科学极简史(二)

    2002 年 4 月,数据科学期刊(Data Science Journal)创刊,旨在发表「科学与技术领域的数据与数据库管理」方面的论文。「此期刊涵盖对于数据系统的描述,及其在互联网上的发布、应用和法律问题。」此期刊由国际科学理事会(International Council for Science )旗下的数据科学技术委员会(Data for Scien…

    2016-03-10
    0
  • 数据科学极简史(一)

    数据科学家如何变得性感的故事,大致也就是作为成熟学科的统计学如何与新兴学科计算机科学发生关系的故事。“数据科学”这个术语的出现较晚近,用来指代一个需要解读大量数据的职业。但解读数据这件事的历史很长,它已经被科学家、统计学家、图书馆员、计算机科学家以及其他人士讨论多年。下文的时间线追溯“数据科学”一词的演化,以及它的应用、对它进行定义的尝试和一些相关的术语。 …

    2016-03-10
    0
  • 【Python】爬虫+K-means聚类分析电影海报主色调

    摘要:每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢? 利用Python爬取海报数据 为了回答这个问题,我们需要分析不同风格电影的海报情况。首先,我们需要构建一个电影海报数据的数据集,因此我利用…

    2016-03-02
    0
  • 【R】如何确定最适合数据集的机器学习算法

    摘要:抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。本文中我将介绍八个常用于抽查的机器学习算法,文中还包括各个算法的 R 语言代码,你可以将其保存并运用到下一个机器学习项目中。 适用于你的数据集的最佳算法 你无法在建模前就知道哪个算法最适用于你的数据集。你必须通过反复试验的方法来寻找出可以解决你的问题的最佳算法,我称…

    2016-03-02
    0
  • 20个问题揭穿冒牌数据科学家

    如今数据科学家正式成为21世纪最性感的工作,人人都想来分一杯羹。 这也意味着会有一些冒牌货。这些人自称数据科学家,却不具有相应的技能。 这不见得是有意欺骗。数据科学是崭新的领域,目前对此岗位也缺乏被广泛认可的描述。这意味着许多人会认为自己是数据科学家,仅仅因为他们常跟数据打交道。 “冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正的数据…

    2016-02-18
    0
  • 提升R语言运算效率的11个实用方法

    众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。 让我们尝试提升往数据框中添加一个新变量过程(该过程中包含循环和判断…

    2016-02-16
    0
关注我们
关注我们
分享本页
返回顶部