张乐
-
Python爬虫进行Web数据挖掘总结和分析
利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。
-
矩阵分解在推荐系统中的应用:NMF和经典SVD实战
摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 …
-
QCon北京:构建大数据生态需要哪些核心技术?
2016年QCon全球软件开发大会北京站于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没能到现场聆听的小伙伴们奉上饱满的干货内容。(进入QCon北京2016大会官网,免费下载三天的讲师演讲PPT。…
-
地理数据可视化的3大疑问:Simple,Not Easy!
Simple,Not Easy 笔者产生了第几个疑问: 用户自有数据的管理是不是足够了 如何保障这些平台提供的地理大数据的准确性 地理可视化是本还是末 如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一。在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央…
-
大数据背后的神秘公式(下):“贝叶斯革命”
贝叶斯公式在联邦党人文集作者公案和天蝎号核潜艇搜救中大显身手后(详见大数据背后的神秘公式(上):贝叶斯公式),开始引起学术界的注意和重视,而其上世纪八十年代在自然语言处理领域的成功,向我们展示了一条全新的问题解决路径。计算能力的不断提高和大数据的出现使它的威力日益显现,一场轰轰烈烈的“贝叶斯革命”正…
-
大数据背后的神秘公式(上):贝叶斯公式
大数据、人工智能、海难搜救、生物医学、邮件过滤,这些看起来彼此不相关的领域之间有什么联系?答案是,它们都会用到同一个数学公式——贝叶斯公式。它虽然看起来很简单、很不起眼,但却有着深刻的内涵。那么贝叶斯公式是如何从默默无闻到现在广泛应用、无所不能的呢? 一 什么是贝叶斯公式18世纪英国业余数学家托马斯…
-
个性化推荐应用很low?绝对是知识精英赤果果的偏见!
去年以来,参加了不少会议,会议上不少专家忧心忡忡地批判以今日头条为代表的个性化推荐引擎,其理由无非是造成知识窄化、低俗化和不精准等陈词滥调,现在还只能说出这些理由只能说明他们根本不了解个性化推荐。 知识窄化是知识精英的误判 所谓知识窄化,是指人们的知识在某一方面或某一方向高度集中,导致知识,越来越收…
-
巨杉数据库王涛:SaaS生态与大数据
SequoiaD巨杉数据库的联合创始人王涛针对SaaS生态提出了一些观点,这些也是巨杉对于未来SaaS 企业服务领域的一些看法和建议。
-
通过抓取婚恋网用户数据来生成自己的择偶观
摘要:本文教你使用python抓取婚恋网用户数据并用决策树生成自己择偶观 最近在看《机器学习实战》的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气。刚好在看决策树这一章,书里面的理论和例子让我觉得这个理论和选择对象简直不…
-
28款GitHub最流行的开源机器学习项目
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者…
-
基于树的建模-完整教程(R & Python)
简介 基于树的学习算法被认为是最好的方法之一,主要用于监测学习方法。基于树的方法支持具有高精度、高稳定性和易用性解释的预测模型。不同于线性模型,它们映射非线性关系相当不错。他们善于解决手头的任何问题(分类或回归)。 决策树方法,随机森林,梯度增加被广泛用于各种数据科学问题。因此,对于每一个分析师(新…
-
李昊:谈谈数据仓库建设心得(下)
分享记录: 下面是具体的模型设计,一般在数据仓库行业,业务模型有两类,一类是企业自有的数据模型,一类是行业模型,比如金融业:天睿,银行业、保险业、制造业、医疗生命科学行业,这些一般是实施顾问团队总结的。但这些行业模型在中国市场运行的不太好,除了金融和电信稍好点,其他行业因发展较快、业务变化较快,迭代…
-
李昊:谈谈数据仓库建设心得(上)
分享记录: 数据仓库在业界的定义,是数据仓库之前BILL最早提出的。数据仓库的建设需要一个过程,是一个方法论。数据仓库建设是把企业中所有的数据整合,加工,分析的过程。用于解决数据经营,管理问题。他不像一个产品或者数据库一样,可直接购买。 OLTP就是我们通常说的所谓业务系统。它和数据仓库是有明显差异…
-
为什么Spark将成为数据科学家的统一平台
Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。
-
游戏行业数据分析实例篇(上篇)
前言 关于数据分析,打开电脑搜索资料可以得到这样的定义“数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。”,简单说就是从大量数据中提取信息。然而作为一次合格的数据分析,定义中提及的过程只能说一次分析中的准备工作。 周易有云“仁者…