数据挖掘

商业智能

商业智能BI三层结构：数据报表、数据分析、数据挖掘

经过几年的积累，大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作，最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process，在线事务处理)，指的就是系统…

张乐
2016-01-03
00
数据挖掘

用文本挖掘和机器学习洞悉数据

文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力，比如Word文档，邮件和社交媒体流中发布的帖子，如Facebook，Twitter，和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言，文本挖掘已经成为一个重要的研究领域…

小胖
2016-01-02
00
数据中台

用文本挖掘技术分析电商非结构化的评论数据

电商平台中有海量的非结构化文本数据，如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性，也蕴含了用户的需求以及使用反馈。通过深度挖掘，可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1、用户评论分类场景用户评论能反映出用户对商品、服务…

张乐
2015-12-31
00
数据挖掘

通过数据挖掘手段分析网民的评价内容？

作者：学飞从坠落开始本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》，增加了一些自己的观点。 Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures …

小胖
2015-12-30
00
人工智能

从机器学习谈起

摘要：在本篇文章中，将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。当然，本文也面对一般读者，不会对阅读有相关的前提要求。在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢？我并不直接回答…

大数据精选
2015-12-29
00
数据挖掘

数据挖掘系列篇：在线机器学习FTRL算法介绍

最近几个同事在做推荐平台的项目，都问到怎么实现FTRL算法，要求协助帮忙实现FTRL的算法模块。今天也是有空，赶紧来做个整理。明天还要去上海参加天善智能组织的FLY BI大数据分享会。有兴趣参加线下活动的可以多关注下微博和微信的信息。没事可以多参加分享分享。现在特别是像做在线学习和CTR这块，应用L…

数据分析侠
2015-12-25
00
数据挖掘

数据挖掘系列篇：推荐系统综述以及美团推荐系统介绍

其实推荐系统前面已经讲过不少，那时候主要是放在机器学习上讲的，既然这次要系统撸一遍数据挖掘，就把推荐系统单独拿出来说一说。相信如果做过推荐系统的人，都知道是什么回事。一堆features，一堆算法模型，一堆online、offline规则和计算，还有若干的场景。包括著名的netflix、Amazon…

数据分析侠
2015-12-23
00
数据挖掘

考拉FM的个性化数据挖掘和处理

提起FM类APP，你都会想起哪些应用程序？来自易观智库数据显示，2014年3月电台类应用月度活跃人数最高的APP仍是考拉FM。上线不到一年的考拉FM，为何发展如此之猛？与其他移动端电台不同的是，考拉FM采用个性化推荐音频流的播放逻辑，在用户未进行主动选择的情况下依旧能够收听到心仪的节目。移动音频娱…

小胖
2015-12-23
00
人物观点

博客虫：你们是不是很缺大数据工程师?

摘要：说起大数据，有个成语可以来形容一下它的现状：遍地开花！缘起之所以有这个话题，是因为周末加班中午吃饭与一个同行朋友聊起了这个话题，之后再细细地结合一些其他接触的东西，确实是有些感触的。并且对于行业的一些现状，也的确有些自己的看法，对不对先不论，这玩意儿也没有对错之分，每个人都有自己想法，当…

大数据精选
2015-12-23
00
数据中台

世纪佳缘用户推荐系统演变的故事

摘要：世纪佳缘用户推荐系统演变史作为国内最大的婚恋交友系统，世纪佳缘近年来一直在大力发展互联网大数据相亲模式，从成立之初会员自己根据条件“大海捞针”的寻找，到现在的“懂你”系统、“人脸识别”系统，世纪佳缘的用户推荐系统正在一步步的完善和拓展，大数据相亲已经成为互联网婚恋交友网站的发展趋势。世纪佳…

张乐
2015-12-23
00
数据挖掘

以“草船借箭”为例，我们讲讲大数据建模

鲁迅评价诸葛亮“多智而近妖”，此话见诸《中国小说史略》，意思说诸葛亮足智多谋，像个妖怪。而如今，从大数据的角度看，诸葛亮的足智多谋是因为他掌握了数据建模的办法。今天，我们就来说说这诸葛先生的“数据建模”之道。建模里的“模”是指模型。使材料成为一定形状的工具，就属于“模型”，这些模型看得见摸…

张乐
2015-12-22
00
人工智能

数据夜话：机器学习的七嘴八舌

其实数据挖掘、机器学习一直在接触，只是没有像今年这样面对这么大的数据量和业务种类。应该来说数据分析也是做了很久，一直对机器学习这块怀揣着敬畏的心情，就像面对“大自然”的力量一样。相信很多包括产品、运营、技术开发的同学都算法这块都是一种觉得很高深的态度，而事实上的确机器学习、算法也很难，从各大招聘渠道…

数据分析侠
2015-12-20
00
数据分析

数据分析基础内容介绍：模型、工具、统计、挖掘与展现

1. 数据分析多层模型介绍这个金字塔图像是数据分析的多层模型，从下往上一共有六层：底下第一层称为Data Sources 元数据层。比如说在生产线上，在生产的数据库里面，各种各样的数据，可能是银行的业务数据，也可能是电信运营商在交换机里面采集下来的数据等等，然后这些生产的数据通过ETL，是英文…

小胖
2015-12-19
00
行业资讯

为什么说今日头条的大数据个性化定制就是个噱头？

今天我们就温柔地手撕一下国内目前装逼最成功的媒体之一，「今日头条」。 01 搜狐、新浪、腾讯、网易，这四大传统门户的新闻版块虽然日趋式微，但余威尚在。而「今日头条」从2012年上线至今不过短短3年，用户量已经突破3亿。中国网民总量不过6亿左右，几乎每两个人就有一个在用它。「今日头条」的巨大成功，显…

大数据精选
2015-12-18
00
人工智能

数据挖掘系列篇：Netflix机器学习系统的构建经验

有很多很好的介绍机器学习的教科书和课程,,甚至可以学习一些最复杂的特定的方法或算法，理解这些理论是一个非常重要的基础和起点。还有很多构建真实系统的实际问题，你可能闻所未闻。这篇文章将分享一些Netflix多年来构建大型系统放的最重要的教训,Netflix是跨许多国家支持数以百万计的用户规模。(Net…

数据分析侠
2015-12-18
00