数据挖掘指南

  • 面向程序员的数据挖掘指南8:聚类分析

    前几章我们学习了如何构建分类系统,使用的是已经标记好类别的数据集进行训练: 训练完成后我们就可以用来预测了:这个人看起来像是篮球运动员,那个人可能是练体操的;这个人三年内不会患有糖尿病。 可以看到,分类器在训练阶段就已经知道各个类别的名称了。那如果我们不知道呢如何构建一个能够自动对数据进行分组的系统比如有1000人,每人有20个特征,我想把这些人分为若干个组…

    2015-05-08
  • 面向程序员的数据挖掘指南7:朴素贝叶斯和文本数据

    非结构化文本的分类算法 在前几个章节中,我们学习了如何使用人们对物品的评价(五星、顶和踩)来进行推荐;还使用了他们的隐式评价——买过什么,点击过什么;我们利用特征来进行分类,如身高、体重、对法案的投票等。这些数据有一个共性——能用表格来展现: 因此这类数据我们称为“结构化数据”——数据集中的每条数据(上表中的一行)由多个特征进行描述(上表中的列)。而非结构化…

    2015-05-07
  • 面向程序员的数据挖掘指南6:朴素贝叶斯和概率

    朴素贝叶斯 还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答“非常有信心”。 我再问你Heather Zurich,6尺1寸高,重176磅,你可能就不能确定地说她是打篮球的了,至少不会像之前判定Brittney那样肯定。因为从Heat…

    2015-05-06
  • 面向程序员的数据挖掘指南5:进一步探索分类

    效果评估算法和kNN 让我们回到上一章中运动项目的例子。 在那个例子中,我们编写了一个分类器程序,通过运动员的身高和体重来判断她参与的运动项目——体操、田径、篮球等。 上图中的Marissa Coleman,身高6尺1寸,重160磅,我们的分类器可以正确的进行预测: 对于身高4尺9寸,90磅重的人: 当我们构建完一个分类器后,应该问以下问题: 分类器的准确度…

    2015-05-04
  • 面向程序员的数据挖掘指南4:分类算法

    第四章:分类 在上几章中我们使用用户对物品的评价来进行推荐,这一章我们将使用物品本身的特征来进行推荐。这也是潘多拉音乐站所使用的方法。 内容: 潘多拉推荐系统简介 特征值选择的重要性 示例:音乐特征值和邻域算法 数据标准化 修正的标准分数 Python代码:音乐,特征,以及简单的邻域算法实现 一个和体育相关的示例 特征值抽取方式一览 根据物品特征进行分类 前…

    2015-05-04
  • 面向程序员的数据挖掘指南3:隐式评价和基于物品的过滤算法

    内容: 显式评价 隐式评价 哪种评价方式更准确? 基于用户的协同过滤 基于物品的协同过滤 修正的余弦相似度 Slope One算法 Slope One的Python实现 MovieLens数据 第二章中我们学习了协同过滤和推荐系统的基本知识,其中讲述的算法是比较通用的,可以适用于多种数据集。用户使用5到10分的标尺来对不同的物品进行打分,通过计算得到相似的用…

    2015-05-03
  • 面向程序员的数据挖掘指南2:推荐系统入门?

    你喜欢的东西我也喜欢 我们将从推荐系统开始,开启数据挖掘之旅。推荐系统无处不在,如亚马逊网站的“看过这件商品的顾客还购买过”板块: last.fm上对音乐和演唱会的推荐(相似歌手): 在亚马逊的例子里,它用了两个元素来进行推荐:一是我浏览了里维斯翻译的《法华经》一书;二是其他浏览过该书的顾客还浏览过的译作。 本章我们讲述的推荐方法称为协同过滤。顾名思义,这个…

    2015-05-02
  • 面向程序员的数据挖掘指南1:数据挖掘是什么?

    序 如果你每天都能重复做这些简单的事,你就会获得某种特别的力量。在你获得之前,这是特别的,但获得之后,就没什么大不了的了。 ——鈴木 俊隆 在阅读本书之前,你可能会认为像潘多拉、亚马逊那样的推荐系统、或是恐怖分子用的数据挖掘系统,一定会非常复杂,只有拥有博士学位的人才能够了解其中的算法。你也许会认为设计出这些系统的人都是研究火箭技术的。而我撰写本书的目的之一…

    2015-05-01
  • 150道数据挖掘试题,你会多少?

    单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, …

    2015-03-04
  • 关于几个数据挖掘问题的回答

    什么是数据挖掘,数据挖掘要解决什么问题?大家都知道数据挖掘最花时间就是在变量清洗上,如何清洗变量?如何将挖掘成果很好的展示给用户?这些问题也许通过下面这些问答你可以找到自己的答案。

    2014-07-22
分享本页
返回顶部