spark

  • 十大最热门的大数据技术

    摘要:随着大数据分析市场的快速渗透到各行业务,哪些大数据技术是刚需?哪些技术有极大的潜在价值? 根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术: 预测分析:随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险; NoSQL数据库:非关系型数据库包括Key-value…

    2016-03-19
    0
  • 如何建立一个完整可用的安全大数据平台

    摘要:要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…

    2016-03-18
    0
  • 如何基于Spark进行用户画像?

    摘要:从数据分析、机器学习和结果三方面详解利用高性能分布式计算平台解决现实问题的过程。 近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。 主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个驾驶类型的算法类签名,来表征驾驶员的特征。例如…

    2016-03-17
    0
  • 一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统

    摘要:本文是一位算法师工程师的Spark机器学习笔记,教你构建一个简单的推荐系统。 推荐引擎应用场景: 用户有海量选择:随着场景内item越来越多,用户越来越难以选择到合适的产品 个性化场景:在选择产品时,会借鉴那些与推荐用户相似地群体,利用群体智慧对用户进行推荐”千人千面” 在本篇博客中,会涉及到以下几个部分: 介绍不同类型的推荐引擎 使用用户偏好模型来构…

    2016-03-13
    0
  • 一篇文章读懂Hadoop:风雨十年,未来何去何从

    摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…

    2016-03-13
    0
  • 领英宣布开源数据挖掘软件WhereHows

    摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…

    2016-03-09
    0
  • 基于Spark的异构分布式深度学习平台

    导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。 深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别…

    2016-03-06
    0
  • Hadoop数据操作系统YARN全解析

    摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…

    2016-02-28
    0
  • Airbnb基础数据架构

    摘要:这一篇关于Airbnb基础数据架构。云计算尤其亚马逊的云服务(AWS)提供弹性计算能力,无需购买昂贵服务器甚至机房,通过虚拟化主机,还提供丰富配套组件,节约运维成本,方便扩展,成为很多创业公司的首选。这里Airbnb 工程师James Mayfield以AWS作为基础搭建数据架构中走过的坑和经验分享,由于笔者也刚好做过,难度2星,供做数据的朋友学习。 …

    2016-02-26
    0
  • 实时分析社交媒体数据

    摘要:本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据,通过创建了一个不停运转的流程序,来演示如何实时获取 Twitter 数据,根据文本和位置来收集推文,并使用了 K 均值算法。 这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。 您想知道人们在发微博谈论世界的哪些不同地方吗,是在谈论各大洲还是在…

    2016-02-25
    0
  • 从大数据的风水图,来看到底大数据是怎么回事

      摘要:本文中的Big Data Landscape图笔者随手分享在LinkedIn上,不晓得引起大量转发和评论,截止本周,得到6700个like,3800次share,400多条comment,笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck,提下这一家VC,主要投资于早…

    2016-02-24
    0
  • 国内云计算服务竞品分析

    摘要:据NIST(美国国家标准与技术研究院)的权威定义,云计算的服务模式分为IaaS,PaaS和SaaS。未来云计算的规模依旧会保持高速增长,原因有二:1).智慧城市、工业4.0的普及会促进互联网数据中心(IDC)和云服务整体规模的增长。2).由于公有云的部署方便,价格低廉,互联网数据中心(IDC)用户转型公有云的趋势明显。 1.行业背景 1.1.市场背景:…

    2016-02-22
    0
  • R语言突破大数据瓶颈:Shiny的Spark之旅

    摘要:我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣,本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。 什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,…

    2016-02-21
    0
  • 大数据不同的瑞士军刀:对比Spark和MapReduce

    摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…

    2016-02-20
    0
  • Apache Spark介绍及案例展示

    2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。 如今,诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…

    2016-02-10
    0
关注我们
关注我们
分享本页
返回顶部