数据挖掘

  • 面向程序员的数据挖掘指南6:朴素贝叶斯和概率

    朴素贝叶斯 还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答“非常有信心”。 我再问你Heather Zurich,6尺1寸高,重176磅,你可能就不能确定地说她是打篮球的了,至少不会像之前判定Brittney那样肯定。因为从Heat…

    2015-05-06
    0
  • 面向程序员的数据挖掘指南5:进一步探索分类

    效果评估算法和kNN 让我们回到上一章中运动项目的例子。 在那个例子中,我们编写了一个分类器程序,通过运动员的身高和体重来判断她参与的运动项目——体操、田径、篮球等。 上图中的Marissa Coleman,身高6尺1寸,重160磅,我们的分类器可以正确的进行预测: 对于身高4尺9寸,90磅重的人: 当我们构建完一个分类器后,应该问以下问题: 分类器的准确度…

    2015-05-04
    0
  • 面向程序员的数据挖掘指南4:分类算法

    第四章:分类 在上几章中我们使用用户对物品的评价来进行推荐,这一章我们将使用物品本身的特征来进行推荐。这也是潘多拉音乐站所使用的方法。 内容: 潘多拉推荐系统简介 特征值选择的重要性 示例:音乐特征值和邻域算法 数据标准化 修正的标准分数 Python代码:音乐,特征,以及简单的邻域算法实现 一个和体育相关的示例 特征值抽取方式一览 根据物品特征进行分类 前…

    2015-05-04
    0
  • 面向程序员的数据挖掘指南3:隐式评价和基于物品的过滤算法

    内容: 显式评价 隐式评价 哪种评价方式更准确? 基于用户的协同过滤 基于物品的协同过滤 修正的余弦相似度 Slope One算法 Slope One的Python实现 MovieLens数据 第二章中我们学习了协同过滤和推荐系统的基本知识,其中讲述的算法是比较通用的,可以适用于多种数据集。用户使用5到10分的标尺来对不同的物品进行打分,通过计算得到相似的用…

    2015-05-03
    0
  • 面向程序员的数据挖掘指南2:推荐系统入门?

    你喜欢的东西我也喜欢 我们将从推荐系统开始,开启数据挖掘之旅。推荐系统无处不在,如亚马逊网站的“看过这件商品的顾客还购买过”板块: last.fm上对音乐和演唱会的推荐(相似歌手): 在亚马逊的例子里,它用了两个元素来进行推荐:一是我浏览了里维斯翻译的《法华经》一书;二是其他浏览过该书的顾客还浏览过的译作。 本章我们讲述的推荐方法称为协同过滤。顾名思义,这个…

    2015-05-02
    0
  • 面向程序员的数据挖掘指南1:数据挖掘是什么?

    序 如果你每天都能重复做这些简单的事,你就会获得某种特别的力量。在你获得之前,这是特别的,但获得之后,就没什么大不了的了。 ——鈴木 俊隆 在阅读本书之前,你可能会认为像潘多拉、亚马逊那样的推荐系统、或是恐怖分子用的数据挖掘系统,一定会非常复杂,只有拥有博士学位的人才能够了解其中的算法。你也许会认为设计出这些系统的人都是研究火箭技术的。而我撰写本书的目的之一…

    2015-05-01
    0
  • 说说数据挖掘算法工程师的三重境界

    文/不周山 王国维的人生三重境界快被人们念叨烂了,资深文艺青年都已经不爱提这个,但把这种分法做个跨学科应用,倒是能看到一些新奇的东西。 十一前帮新东家在北京做了一轮校园招聘的算法面试官。虽然面试多年,但这还是我第一次如此密集地从事这项工作——一周时间里马不停蹄地面试了数十名候选者。长时间做一件事情,再结合原来类似的背景和经历,通常会发酵出一些东西,于是就有了…

    2015-03-24
    0
  • 挖出小马哥?利用d3.js对QQ群大数据资料进行可视化分析

    d3.js是一个近年来推出的基于javascript的数据展示库,全称为Data Driven Document, 在浏览器数据展示领域的地位类似于通用js框架里的jQuery。d3.js的官网是d3js.org,大家可以在上面看到很多例子和应用。d3.js也是图形数据库neo4j所内置的数据展示工具。

    2015-03-21
    0
  • 150道数据挖掘试题,你会多少?

    单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, …

    2015-03-04
    1
  • 美团的推荐算法实践

    前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后…

    2015-03-03
    0
  • 一个数据仓库转型者眼中的数据挖掘

    对于大多数非从业者或者初学者来说,数据仓库(Data Warehousing)与数据挖掘(Data Mining)是很容易混淆的两个概念。有个形象的比喻说:如果把数据仓库比做一个大型的矿坑,那么数据挖掘就是入坑采矿的工作,数据挖掘需要有非常好的数据基础,没有丰富完整的数据,是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。

    2015-02-07
    0
  • 数据挖掘化功大法(23)——C4.5

    C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 由于ID3算法在实际应用中存在一些问题,于是Quinlan提出…

    2015-01-23
    0
  • 数据挖掘化功大法(22)——spark入门

    Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法…

    2015-01-22
    0
  • 数据挖掘化功大法(21)——redis

    什么是Redis Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。 Memcached和Redis Memcached的基本应用模型如下图所示:…

    2015-01-21
    0
  • 数据挖掘化功大法(20)——网站日志挖掘

    收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接…

    2015-01-20
    0
关注我们
关注我们
分享本页
返回顶部