日志统计

  • 从日志统计到大数据分析(九)——宋

    前面讲了从数据采集到可视化的五个环节,这些环节有机的组织起来,需要两个关键组件:元数据和调度器。我为了让元数据和元朝对应起来,就把调度器先拿出来讲。大家最早去系统学习调度器,应该是在操作系统课程上,有专门的一章讲调度器的原理,其中花了大量的篇幅讲几种调度算法,但操作系统是如何实现一个调度器,并没有详细讲解。我个人对其都非常困惑,在三年之前,我重新研究操作系统…

    2016-03-10
  • 从日志统计到大数据分析(八)——五代

    在上一篇的最后,我把数据处理分成五个阶段,分别是数据采集、数据传输、数据建模/存储、数据统计/分析/挖掘、数据可视化/反馈。这篇主要讲解第一个环节数据采集相关的内容。 如果看过前面几篇,就会体会到我对数据源的重视程度是超乎想象的,认为数据源整好了,数据处理就搞定了一半。如果源头没有整好,后续用再复杂的算法,也不能解决数据缺失和错误所带来的问题,并且会花费许多…

    2016-03-10
  • 从日志统计到大数据分析(七)——魏晋

    前面讲了这么多篇,可能你有疑问那什么是大数据分析?它和传统的数据分析有何不同?我们要从大数据的概念开始讲起。 因为从事这一方向,这几年不断会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些资料(如《大数据时代》、《数学之美》第二版、《硅谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识。与其说认识,还…

    2016-03-10
  • 从日志统计到大数据分析(六)——三国鼎立

    根据数据源的流向不同,我们可以将互联网公司常用的数据分析方法分为三种: 1,通过嵌入SDK直接将数据发送到第三方平台,如使用友盟、百度统计、TalkingData等;2,直接基于业务数据库,通过写SQL的方式进行数据分析;3,在应用服务器端打印日志,基于日志写脚本进行分析,在百度的早期主要是这一种。 我们这篇文章逐一来分析这三种方法的优势和不足。 1 第三方…

    2016-03-09
  • 从日志统计到大数据分析(五)——楚汉争霸

    痛定思痛,我们觉得主要问题出在数据源上。百度有上百条业务线(有一定业务规模的),牵涉到数千个日志模块,每个模块的日志格式都是不一样的。甚至就连Web Server这层,有用Apache的,有用Lighttpd的,也有用Nginx的,用的软件版本可能还是不同的。日志格式五花八门,输出的是非结构化的文本字符串,比如Nginx一条日志: 219.136.113.4…

    2016-03-09
  • 从日志统计到大数据分析(四)——秦天下

    转眼到了2011年初,我感觉团队放在网页相关性部门,不利于发展。我的想法是要把团队面向全公司服务,甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人,在他完成了Hadoop在全百度的推广之后,改为负责一个分布式存储团队了)商量了一下,…

    2016-03-08
  • 从日志统计到大数据分析(三)——战国的混乱

    随着需求的增长,计算资源也随之增长,每个季度有20%-30%。经过一年半,机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时,为了保证新产品部的核心统计能在员工上班之前跑出来,提了100多台,那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长,经理都在担心部门是否会批。后来,再提需求都是以千台计,我的经理…

    2016-03-08
  • 从日志统计到大数据分析(二)——盘古开天地

    设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学,整理了好几十条,并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难,难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理,也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩…

    2016-03-07
  • 从日志统计到大数据分析(一)——洪荒年代

    我2007年浙大研究生毕业后加入百度,先在百度知道做了一年的后端研发,2008年底开始负责日志统计的一个小团队,开发了一套基于Hadoop的日志统计平台,之后一直围绕数据这一方向,覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业,做一款针对互联网创业公司的数据分析产品Sensors Analytics,有兴趣的可以到sensor…

    2016-03-07

联系我们

如有建议:>>给我留言

QR code