hadoop

  • 2016全球大数据战略版图剖析(1):架构篇(上)

    为了更好的使大家了解行业现状,我们整理出了2016大数据版图英文对应公司的中文介绍,以飨读者。

    2016-04-26
  • Hbase表设计及开发在实际案例中的运用

    大数据技术如火如荼,在大数据挖掘及分析平台技术中,作为海量数据操作及高客户端并发解决方案的 NoSQL 技术特别是 Hbase 首当其冲,在众多项目中得到广泛的应用,但对于 Hbase 表设计模式/IO 考虑/性能调优等实战经验性资料较为匮乏。 本文介绍了 Hbase 的数据模型原理,分析了 Hbase 表扫描/查询操作的时间复杂度,并通过一个游戏公司客户实…

    2016-04-26
  • 为什么Spark将成为数据科学家的统一平台

    Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。

    2016-04-21
  • 有赞搜索引擎实践(工程篇)

    随着互联网数据规模的爆炸式增长, 如何从海量的历史, 实时数据中快速获取有用的信息, 变得越来越有挑战性. 一个中等的电商平台, 每天都要产生百万条原始数据, 上亿条用户行为数据. 一般来说, 电商数据一般有3种主要类型的数据系统: 关系型数据库, 大多数互联网公司会选用mysql作为关数据库的主选, 用于存储商品, 用户信息等数据. 关系型数据库对于事务性…

    2016-04-20
  • 神策数据:做一款帮用户真正实现数据驱动的工具

    内容摘要: 2016年4月19日神策数据正式对外宣布获得由红杉资本领投的2600万A轮融资,一个数据分析类的产品如何在资本寒冬成功融资并获得众多知名投资机构认可与支持?BAT背景,高技术壁垒,最能为用户创造价值的产品理念……这些高度概括的语言或许很难阐释神策数据发展与成长的秘诀,借着本次神策战略发布会契机,小编特别整理了神策四位创始合伙人在419…

    2016-04-20
  • 三种优化方式让你的数据分析如虎添翼

    摘要:融合式基础架构系统为我们提供了很多有效地进行大数据分析所需的资源,包括处理Hadoop的能力以及大规模存储能力。

  • 数据开发系列篇:大数据处理和编程实践Hadoop

    Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…

    2016-04-10
  • 让大数据成为一种基本的使用和操作能力

    摘要:“大数据”之“大”,不仅仅源于其体量的庞大,更表现在它的无处不在。数据充斥在我们生产生活的方方面面,从大数据分析中获得竞争优势,已不再是所谓的高精尖企业或是高大上的科研项目的专利。它与劳动力、资本一样,开始为企业提供重要的生产因素。 你承认吗我们正生活在逐渐被大数据掌控的时代。我们在论坛里评论发帖,我们在社交平台晒照片,我们在网购后对产品留下评价…… …

    2016-04-07
  • 教你怎么跟老婆解释MapReduce的概念?

    摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…

    2016-04-07
  • 你的大数据项目使用的工具正确吗?

    摘要:工具/产品/解决方案是数据科学家洞察数据的利器。KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据。 通过主成分析(PCA)法进行降维分析 对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。 分析结果: 当前分析的目标:通过…

    2016-04-04
  • mmTrix大数据分析平台的基本架构构建过程

    摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…

    2016-04-02
  • 海纳百川 有容乃大:SparkR与Docker的机器学习实战

    题图为美国尼米兹核动力航空母舰 介绍 大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,SparkR和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了分布式计算的操作,还简化了安装部署的环节,我们只几乎…

    2016-03-28
  • 数据湖将如何改变大数据?

    摘要:拥抱开源技术的前提——认识数据湖 世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据…

    2016-03-28
  • 数据就是力量:亚马逊如何练就“读心术”?

    摘要:精准的推荐、心水的价格、充足的库存以及高效率的配货,在你还未下单之前,亚马逊早已使用“读心术”并作出预测,为你计划好了一整套井井有条的购物体验。作为电商巨头的鼻祖,二十几年来依然占领着电商界前几名位置,亚马逊自家的大数据系统是当之无愧的大功臣。 “数据就是力量”,这是亚马逊的成功格言。EKN研究的最新报告显示,80%的电子商务巨头都认为亚马逊的数据分析…

  • 大数据工作职位所需的数据场技能包

    摘要:除了报表统计外,还需要对数据的有很强的解读能力。电商中的个性推荐技术,商业与银行中的欺骗检测,智能手机中语音识别等等技术,让我们浑身便散发出大数据与机器学习的各种场信息,给人以满满的正能量。 01 数据场 学过物理的小伙伴,都知道世界充满了电场和磁场。了解过佛学的人,都知道世界充满了念力场与信息场,通过信息场,可以与更高一级的文明进行沟通。 有的人一出…

    2016-03-27

联系我们

如有建议:>>给我留言

QR code