大数据技术

基于Spark的异构分布式深度学习平台

导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构资源做分配，支持Multi-Tenancy，让资源的使用更有效。深层神经网络技术最近几年取得了巨大的突破，特别在语音和图像识别…

张乐

2016-03-06

00

数据中台

大型网站架构系列：电商网站架构案例

摘要：大型网站架构是一个系列文档，欢迎大家关注。本次分享主题：电商网站架构案例。从电商网站的需求，到单机架构，逐步演变为常用的，可供参考的分布式架构的原型。除具备功能需求外，还具备一定的高性能，高可用，可伸缩，可扩展等非功能质量需求（架构目标）。根据实际需要，进行改造，扩展，支持千万PV，是没问题的。本次分享大纲电商案例的原因电商网站需求网站初级架…

张乐

2016-03-02

00

数据中台

Hadoop数据操作系统YARN全解析

摘要：Hadoop 2.0引入YARN，大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的？Hulu又有哪些成功实践可以分享？ Hadoop YARN的生态系统为了能够对集群中的资源进行统一管理和调度，Hadoop 2.0引入了数据操作系统YARN。YARN的引入，大大提高了集群的资源利用率，并降低了集群管理成本。首先，YARN允许…

张乐

2016-02-28

00

数据中台

浅谈12306核心模型设计思路和架构设计

摘要：元宵节结束，年就真的过完了。挥别故里，回到打拼的城市，理性思维是否也跟着工作状态一起回归了呢？每一年的春运都是对 12306 的一次大考，抛去盲从和偏见，让我们用工程师的思维重新打量、从业务分析的角度去探讨，12306 的核心模型设计思路和架构设计到底复杂在哪里？为什么我要研究这个问题？春节期间，无意中看到一篇文章，文章中讲到12306的业务复杂度…

大数据精选

2016-02-25

00

数据中台

谈谈MATLAB大数据处理

摘要：今天多数的大数据方案都是依托Hadoop环境来做结构化和非结构化数据处理，如何把自己的Hadoop算法快速部署到实际的生产环境当中去，对很多企业的大数据部署也提出了挑战。CSDN专访MathWorks中国资深技术专家陈建平，分享大数据解决方案。近年来，随着大数据在Google、Facebook等企业的成功应用，很多传统企业和初创公司都转向应用大数据…

大数据精选

2016-02-25

01

大数据

从大数据的风水图，来看到底大数据是怎么回事

摘要：本文中的Big Data Landscape图笔者随手分享在LinkedIn上，不晓得引起大量转发和评论，截止本周，得到6700个like，3800次share，400多条comment，笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck，提下这一家VC，主要投资于早…

董飞

2016-02-24

00

数据中台

Hadoop之父Doug Cutting眼中大数据技术的未来

摘要：1985年毕业于美国斯坦福大学的Doug Cutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父？以及这10年中，Hadoop的发展和未来期待又是如何的？上次见到（膜拜）Hadoop之父Doug Cutting是在2年前，2014中国大数据技术大会上。今年Hadoop10岁，刚看到他的Hadoop十周年贺词，感觉时间飞逝。最近…

张乐

2016-02-22

00

数据中台

R语言突破大数据瓶颈：Shiny的Spark之旅

摘要：我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣，本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构，解决了 R中的data frame只能在单机中使用的瓶颈，…

张乐

2016-02-21

00

数据中台

大数据不同的瑞士军刀：对比Spark和MapReduce

摘要：Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 Ma…

大数据精选

2016-02-20

00

数据中台

Apache Spark介绍及案例展示

2013年年底，我第一次接触到Spark，当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后，我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。如今，诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…

数据工匠

2016-02-10

00

数据中台

从0到1：微信后台系统的演进之路

摘要：2个月的开发时间，微信后台系统经历了从0到1的过程。从小步慢跑到快速成长，经历了平台化到走出国门，微信交出的这份优异答卷，解题思路是怎样的从无到有 2011.1.21 微信正式发布。这一天距离微信项目启动日约为2个月。就在这2个月里，微信从无到有，大家可能会好奇这期间微信后台做的最重要的事情是什么我想应该是以下三件事： 1、确定了微信的消息模型微…

大数据精选

2016-01-24

00

数据中台

大数据，从打好分布式系统的基础开始

分布式系统是大数据的基础，大数据是分布式系统的最佳实践。本文将介绍分布式系统对数据的基本处理方法，包括数据的分布方式和对数据副本进行控制的协议和算法。这些算法也是大数据各类组件技术的基础。分布式系统定义分布式系统是若干独立计算机的集合，但这些计算机系统集合从用户的使用角度来说，则是一个单一的应用系统。组建一个分布式系统具备五个关键目标：资源的可访问性：…

张乐

2016-01-10

00

数据中台

大数据分析技术生态圈一览

摘要：大数据领域让人晕头转向。为了帮助你，我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商，而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。 Platfora 这是一款大数据发现和分析平台。 Qlikview 这是一款引导分析平台。 Sisense 这是…

小胖

2016-01-08

00

数据中台

从内部机理的角度，详细分析Hadoop的核心架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内…

张乐

2016-01-03

00

人物观点

滴滴CTO：详解大数据战略与三次生死战役的架构变迁

2012年成立的滴滴打车，仅用了三年时间就书写了：覆盖300个城市，用户数从2200万增到1.5亿，月活跃用户增长了600多倍（2014年平安夜当天，全国用滴滴打车出行人数超过了3000万人），打车成功率高于90%……这些永远会被铭记在移动互联网历史中的神奇记录。而不为人知的是，支撑滴滴打车如此庞大用户数量的架构，以及那些曾无数次不眠不休应对挑战的技术伙伴们…

小胖

2015-06-30

01