张乐

  • 随机之美——机器学习中的随机森林模型

    摘要:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名。 01 树与森林 在构建决策树的时候,可以让树进行完全生长,也可以通过参数…

    2016-04-15
    0
  • 基于最小二乘法的异常行为分析模型设计

    本文针对异常访问现状及问题进行简要描述,在此基础上提出基于一元线性回归的最小二乘法异常访问分析模型,通过该模型解决了异常访问中时间与访问间相关性问题。 异常访问是指网络行为偏离正常范围的访问情况。异常访问包含多种场景,如Web访问、数据库访问、操作系统访问、终端交互等。 异常访问一直是网络信息安全中…

    2016-04-15
    0
  • 商业智能可以分为哪几个层次?

    经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统…

    2016-04-14
    0
  • 如何看懂数据分析中的数据?

    对于数据,有一个共识就要会看数据,通过合理及透彻的分析来驱动产品,运营及市场策略的调整。但是这些知识看数据的中级阶段,高级阶段则是通过庞大的多维度的数据分析,能够预测到未来一个季度,半年甚至一年的业务走势,当然预测可以有一定的偏差在里面。还有的就是如果要进入到新业务的扩张上,那么能够计算出未来的一定…

    2016-04-14
    0
  • 谢邦昌:统计学中的人生处世法则

    摘要:这是谢邦昌先生写的一篇关于统计学与人生的文章,有点意思,谈及统计学与人生处世法则。 他的大致观点如下: 一、平均数———中庸法则 平均数, 是代表一个群体特性的集中趋势。人生一切行为, 应以中庸为法则, 既不可过分自我膨胀, 也不宜过分自我矮化。 认为: 平均数的代表性———不偏不激; 平均数…

    2016-04-13
    0
  • 2016年最新数据科学报告:数据科学家依然供不应求

    前言 我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调查有着多年经验和专业领域的专业数据科学家,从而了解他们的职业,以及他们每天的日常工作是怎样的。 我们的发现非常有趣。对创业公司而言,数据科学家把多数时间花在做他们不喜欢做的事。然而,他们中的绝大多数仍然热爱他们的工作。我们重…

    2016-04-13
    0
  • 美团的推荐与个性化实践中的数据清洗与特征挖掘方法

    背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排…

    2016-04-13
    0
  • 搭建电商平台的标签系统?看这就够了

    摘要:如何建立电商平台的标签系统? 期待该问题的优质回答,给所有需要设计标签系统的童鞋一个很好的指引,简要说明一下要做的事情: 1.电商系统的标签,可以支持前台分类的搜索(或者叫查询?) 2.电商系统的标签,可以支持某个关键词搜索出的产品的筛选 3.电商系统的标签,可以支持给商品、用户、供应商、产品…

    2016-04-12
    0
  • 淘宝实战——如何做竞品分析

    摘要:分析竞争对手,主要就是分析对手的商品,笨的方法是每天去对方的店铺里,把对方的商品数据记录下来。这种重复性的劳动已经可以用很多数据工具自动化实现了。但是工具也不是万能的,一些基础信息也得靠我们用眼睛去观察,例如评价和商品的详情页,如下图所示。 还可以借助免费的工具来分析对手,本文以店侦探工具为例…

    2016-04-12
    0
  • 个性化推荐到底是不是个伪命题?

    最近,有一位网友在微博上说,推荐是不是个伪命题连续几天试用了据说很好的某头条,某资讯以及某快报,感觉逃脱不了看什么就是什么的套路。也有人说,这是Exploitation & Exploration出了问题,没有很好得Exploration导致的结果。那么,个性化推荐到底是不是伪命题呢为什么很…

    2016-04-12
    0
  • 华为首席科学家李航博士:我是怎么样理解机器学习的?

    摘要:算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不 小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得 没…

    2016-04-11
    0
  • IBM利用机器学习真的可以带走中国的雾霾吗?

    摘要:IBM采用复杂的模拟实验,根据不同的污染程度,模拟关闭工厂后所产生的影响。机器学习可以带走中国的雾霾吗? 编者按: 本文作者Will Knight是 AI 方面的高级编辑。北京的雾霾何时才能散去 IBM 利用机器学习的方法真的可以改善我们的环境吗 雾霾天,站在北京的大街上,有时已经分辨不出来 …

    2016-04-11
    0
  • 精益数据分析新手入门教程

    目录 一、认识数据——产品经理与数据分析 1.1 数据的客观性 1.2 面对数据的智慧 1.3 数据分析中的误区 二、获取数据——产品分析指标和工具 2.1 网站数据指标 2.2 移动应用类数据指标 2.3 电商类数据指标 2.4 UGC类数据指标 三、分析数据——产品数据分析框架 3.1 基本分析…

    2016-04-10
    0
  • 解密深度学习在智能推荐系统的实践与应用

    摘要:与传统的浅层机器学习相比,深度学习具有优秀的自动提取抽象特征的能力,并且随着分布式计算平台的快速发展,大数据的处理能力得到极大的提升,使得近年来DL在工程界得到广泛的应用,包括图像识别,语音识别,自然语言处理等领域,并取得比传统机器学习更好的效果提升。另一方面,智能推荐系统,本质上是从一堆看似…

    2016-04-10
    0
  • 深入对比数据科学工具箱:Python和R之争

    概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL…

    2016-04-10
    0
发表文章
意见反馈
意见反馈
分享本页
返回顶部