数据挖掘

数据挖掘

面向程序员的数据挖掘指南8：聚类分析

前几章我们学习了如何构建分类系统，使用的是已经标记好类别的数据集进行训练：训练完成后我们就可以用来预测了：这个人看起来像是篮球运动员，那个人可能是练体操的;这个人三年内不会患有糖尿病。可以看到，分类器在训练阶段就已经知道各个类别的名称了。那如果我们不知道呢如何构建一个能够自动对数据进行分组的系统…

小胖
2015-05-08
00
数据挖掘

面向程序员的数据挖掘指南7：朴素贝叶斯和文本数据

非结构化文本的分类算法在前几个章节中，我们学习了如何使用人们对物品的评价(五星、顶和踩)来进行推荐;还使用了他们的隐式评价——买过什么，点击过什么;我们利用特征来进行分类，如身高、体重、对法案的投票等。这些数据有一个共性——能用表格来展现：因此这类数据我们称为“结构化数据”——数据集中的每条数据…

小胖
2015-05-07
00
数据挖掘

面向程序员的数据挖掘指南6：朴素贝叶斯和概率

朴素贝叶斯还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么，她有6尺8寸高，207磅重，你会说“篮球”;我再问你对此分类的准确度有多少信心，你会回答“非常有信心”。我再问你Heather Zurich，6尺1寸高，重176磅，你可能就不能确定地说她是打篮球的了…

小胖
2015-05-06
00
数据挖掘

面向程序员的数据挖掘指南5：进一步探索分类

效果评估算法和kNN 让我们回到上一章中运动项目的例子。在那个例子中，我们编写了一个分类器程序，通过运动员的身高和体重来判断她参与的运动项目——体操、田径、篮球等。上图中的Marissa Coleman，身高6尺1寸，重160磅，我们的分类器可以正确的进行预测：对于身高4尺9寸，90磅重的人：…

小胖
2015-05-04
00
数据挖掘

面向程序员的数据挖掘指南4：分类算法

第四章：分类在上几章中我们使用用户对物品的评价来进行推荐，这一章我们将使用物品本身的特征来进行推荐。这也是潘多拉音乐站所使用的方法。内容：潘多拉推荐系统简介特征值选择的重要性示例：音乐特征值和邻域算法数据标准化修正的标准分数 Python代码：音乐，特征，以及简单的邻域算法实现一个和…

小胖
2015-05-04
00
数据挖掘

面向程序员的数据挖掘指南3：隐式评价和基于物品的过滤算法

内容：显式评价隐式评价哪种评价方式更准确？基于用户的协同过滤基于物品的协同过滤修正的余弦相似度 Slope One算法 Slope One的Python实现 MovieLens数据第二章中我们学习了协同过滤和推荐系统的基本知识，其中讲述的算法是比较通用的，可以适用于多种数据集。用户使用…

小胖
2015-05-03
00
数据挖掘

面向程序员的数据挖掘指南2：推荐系统入门？

你喜欢的东西我也喜欢我们将从推荐系统开始，开启数据挖掘之旅。推荐系统无处不在，如亚马逊网站的“看过这件商品的顾客还购买过”板块： last.fm上对音乐和演唱会的推荐(相似歌手)：在亚马逊的例子里，它用了两个元素来进行推荐：一是我浏览了里维斯翻译的《法华经》一书;二是其他浏览过该书的顾客还浏览过…

小胖
2015-05-02
00
数据挖掘

面向程序员的数据挖掘指南1：数据挖掘是什么?

序如果你每天都能重复做这些简单的事，你就会获得某种特别的力量。在你获得之前，这是特别的，但获得之后，就没什么大不了的了。 ——鈴木俊隆在阅读本书之前，你可能会认为像潘多拉、亚马逊那样的推荐系统、或是恐怖分子用的数据挖掘系统，一定会非常复杂，只有拥有博士学位的人才能够了解其中的算法。你也许会认为…

小胖
2015-05-01
00
数据挖掘

说说数据挖掘算法工程师的三重境界

文/不周山王国维的人生三重境界快被人们念叨烂了，资深文艺青年都已经不爱提这个，但把这种分法做个跨学科应用，倒是能看到一些新奇的东西。十一前帮新东家在北京做了一轮校园招聘的算法面试官。虽然面试多年，但这还是我第一次如此密集地从事这项工作——一周时间里马不停蹄地面试了数十名候选者。长时间做一件事情，…

小胖
2015-03-24
00
数据产品

挖出小马哥？利用d3.js对QQ群大数据资料进行可视化分析

d3.js是一个近年来推出的基于javascript的数据展示库，全称为Data Driven Document，在浏览器数据展示领域的地位类似于通用js框架里的jQuery。d3.js的官网是d3js.org，大家可以在上面看到很多例子和应用。d3.js也是图形数据库neo4j所内置的数据展示工具。

张乐
2015-03-21
00
数据挖掘

150道数据挖掘试题，你会多少？

单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A)(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。(b)描述有多…

小胖
2015-03-04
10
数据中台

美团的推荐算法实践

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信…

张乐
2015-03-03
00
数据挖掘

一个数据仓库转型者眼中的数据挖掘

对于大多数非从业者或者初学者来说，数据仓库（Data Warehousing）与数据挖掘（Data Mining）是很容易混淆的两个概念。有个形象的比喻说：如果把数据仓库比做一个大型的矿坑，那么数据挖掘就是入坑采矿的工作，数据挖掘需要有非常好的数据基础，没有丰富完整的数据，是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。

KPMG大数据挖掘
2015-02-07
00
数据挖掘

数据挖掘化功大法（23）——C4.5

C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。由…

小胖
2015-01-23
00
数据挖掘

数据挖掘化功大法（22）——spark入门

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适…

小胖
2015-01-22
00

意见反馈

返回顶部