桑文锋

  • 从日志统计到大数据分析(八)——五代

    在上一篇的最后,我把数据处理分成五个阶段,分别是数据采集、数据传输、数据建模/存储、数据统计/分析/挖掘、数据可视化/反馈。这篇主要讲解第一个环节数据采集相关的内容。 如果看过前面几篇,就会体会到我对数据源的重视程度是超乎想象的,认为数据源整好了,数据处理就搞定了一半。如果源头没有整好,后续用再复杂的算法,也不能解决数据缺失和错误所带来的问题,并且会花费许多…

    2016-03-10
    0
  • 从日志统计到大数据分析(七)——魏晋

    前面讲了这么多篇,可能你有疑问那什么是大数据分析?它和传统的数据分析有何不同?我们要从大数据的概念开始讲起。 因为从事这一方向,这几年不断会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些资料(如《大数据时代》、《数学之美》第二版、《硅谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识。与其说认识,还…

    2016-03-10
    0
  • 从日志统计到大数据分析(六)——三国鼎立

    根据数据源的流向不同,我们可以将互联网公司常用的数据分析方法分为三种: 1,通过嵌入SDK直接将数据发送到第三方平台,如使用友盟、百度统计、TalkingData等;2,直接基于业务数据库,通过写SQL的方式进行数据分析;3,在应用服务器端打印日志,基于日志写脚本进行分析,在百度的早期主要是这一种。 我们这篇文章逐一来分析这三种方法的优势和不足。 1 第三方…

    2016-03-09
    0
  • 从日志统计到大数据分析(五)——楚汉争霸

    痛定思痛,我们觉得主要问题出在数据源上。百度有上百条业务线(有一定业务规模的),牵涉到数千个日志模块,每个模块的日志格式都是不一样的。甚至就连Web Server这层,有用Apache的,有用Lighttpd的,也有用Nginx的,用的软件版本可能还是不同的。日志格式五花八门,输出的是非结构化的文本字符串,比如Nginx一条日志: 219.136.113.4…

    2016-03-09
    0
  • 从日志统计到大数据分析(四)——秦天下

    转眼到了2011年初,我感觉团队放在网页相关性部门,不利于发展。我的想法是要把团队面向全公司服务,甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人,在他完成了Hadoop在全百度的推广之后,改为负责一个分布式存储团队了)商量了一下,…

    2016-03-08
    0
  • 从日志统计到大数据分析(三)——战国的混乱

    随着需求的增长,计算资源也随之增长,每个季度有20%-30%。经过一年半,机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时,为了保证新产品部的核心统计能在员工上班之前跑出来,提了100多台,那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长,经理都在担心部门是否会批。后来,再提需求都是以千台计,我的经理…

    2016-03-08
    0
  • 从日志统计到大数据分析(二)——盘古开天地

    设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学,整理了好几十条,并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难,难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理,也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩…

    2016-03-07
    0
  • 从日志统计到大数据分析(一)——洪荒年代

    我2007年浙大研究生毕业后加入百度,先在百度知道做了一年的后端研发,2008年底开始负责日志统计的一个小团队,开发了一套基于Hadoop的日志统计平台,之后一直围绕数据这一方向,覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业,做一款针对互联网创业公司的数据分析产品Sensors Analytics,有兴趣的可以到sensor…

    2016-03-07
    0
  • Sensors Data桑文锋:数据驱动的迷思

    摘要:身为一名七年的数据从业者,对一些专业概念尚不能准确的描述。比如什么是大数据? 我虽然从2008年开始做这块的东西,但国内到了2011年的时候才兴起了这一概念。我花了三四年的时间,也不能对其有一个准确的把握。就在前天,我把我对大数据的认识拿出来和团队交流时,也产生了多处分歧,甚至有成员提议不要提“大数据”这一名词。可有客户就是被“大数据”这一概念吸引过来…

    2016-03-04
    0
  • Sensors Data创始人桑文锋:初创公司构建数据分析平台

    摘要:初创公司在数据分析方面有哪些错误的认识?初创公司如何实现数据驱动?如何从零搭建数据分析平台?如何规范数据?如何数据建模?如何构建查询分析平台?在数据分析平台建设上,有哪些关键问题? 本演讲希望为你打通任督二脉。演讲的主要内容包括:对数据驱动,有哪些是是而非的认识?理想状态又是如何?现有常用方案剖析,有哪些优势及不足; 推荐的一套方案,包括数据的采集、传…

    2016-02-23
    0
  • 从业者们自己是如何理解【大数据分析】的呢?

    提问:从业者们自己是如何理解【大数据分析】的呢@桑文锋老师 谢谢提问! 我谈谈对大数据分析的理解,这要从什么是大数据讲起。 因为从事这一方向,经常会有人问我什么是大数据我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些书籍(如《大数据时代》、《数学之美》第二版等)和实际的经历,算是有了一些认识,今天我就从大数据的概念开始讲起,试图给…

    2016-02-17
    0
关注我们
关注我们
分享本页
返回顶部