张乐
-
《连线》杂志创始主编凯文·凯利:大数据将横扫一切
摘要:如果我们穿越到1980年,告诉那时的人,30年以后你们会有维基百科,会有今天各种各样很酷的技术,没有人会相信。展望今后20年,也是今天的我们难以想象的。我唯一知道的是,20年以后最伟大的产品,现在还没被发明出来。未来将至,你怎么看 个人数据才是必然的大未来 未来数据还有一个趋势:如今很多数据都…
-
R语言突破大数据瓶颈:Shiny的Spark之旅
摘要:我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣,本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。 什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构…
-
2016互联网数据分析人才高度稀缺
当前中国互联网行业正呈现一片火爆之势,不仅依托互联网 战略成为了推动各行业创新的支柱行业,更形成了巨头大放异彩,各家百花争鸣的火热格局。因此,互联网行业也成为了炙手可热的人才聚集地。 2月4日,从全球最大的职业社交平台领英获悉,目前研发工程师、产品经理、人力资源、市场营销、运营和数据分析这六大职位是…
-
租房数据分析:2016年在北京如何租到好房子?
过年之后,很多人选择租房。我的不少朋友告诉我,”之前你公众号发布的北京买房攻略很有趣,可是不接地气,能不能分析一下帝都租房啊”! 我想也是,春节后我配置了爬虫工具,从北京各大中介网站抓取了8万余条租房数据。其实经过去重和过滤,剩下的不过两万余条。我估算,整个租房市场在春节后这个旺季,也就2万左右的存…
-
大数据是许多公司时髦的外衣却是Netflix的骨髓
Netflix成立于1997年,最早是一家在线DVD租赁公司,以选片方便、免费递送著称。而今Netflix已积累了价值122亿美元的视频内容,供付费用户通过多种终端设备在线观看。 到2009年,Netflix订户达到1000万、可以提供多达10万部DVD电影。2011年,Netflix网络电影销量占…
-
「猫脸识别」距离真正的人工智能还有多远?
摘要:「人工智能」已经成为当下最为火热的词汇,它不仅涵盖了无人驾驶,语音助手,甚至图像识别也是它下面的分支。目前人们已经成功地将它调教成能够辨识猫咪的智慧体,但「猫脸识别」只是人工智能成长中的一小步,要想完全成为人类想象中的样子,它或许还要先掌握「无监督学习」这个重要技能。 在 2012 年之时,全…
-
整天看用户埋点数据,知道数据是咋来的吗?
摘要:我们平时看到的报表复杂而多样,能够通过多种纬度的数据评估用户的使用习惯和对应功能的价值。然而这些报表是如何产生的呢今天咱们就看看上报数据一步一步变成报表的大致流程。 所有上报的数据都是为了记录一次事件的发生或者描述一个状态,具体的上报数据可以设计为KEY-VALUE的形式或者数据组合的形式。K…
-
干货:SaaS领域如何分析收入增长?
摘要:关于在SaaS领域如何分析用户增长,创业公司在自己的运营过程中可以借鉴这些分析方法,以密切关注自身成长和不断提升收入增长。分享给大家,希望你会觉得有用! 在之前的文章中,我们通过对月活跃用户增长以及挖掘不同潜在用户群的分析,探讨了如何分析用户增长,更好地理解增长动力。今天我们试着将其模式运用到…
-
通过“观数”实现“观人”,观数科技深挖社交数据实现用户精准画像
在一个数据缺乏的市场提供数据服务,是幸运也是不幸,幸运的是市场中充满了机会,不幸的是市场上缺乏基本的数据源。 这是国内每一家数据公司所面对的基本情况,因此到底是自己挖掘数据源,还是利用已有数据源来开发模型,就成为一个重要的选择。观数科技更倾向于前者,虽然观数也有模型类的产品,但其核心能力在于对社交数…
-
博而不精——不要盲信数据,用户多的不一定好
摘要:作者为新型内容发布平台 Medium 首席执行官 Evan Williams。本文介绍了作者对于互联网公司价值该如何衡量与评判的独特看法。 最近有人引用我的文章说:“我才不在乎 Instagram 的用户是不是比 Twitter 要多呢!” 如果你确实读过我写的那篇文章,你会发现我说那句话是有…
-
Kimono Labs被大数据公司Palantir收购,2月底将停止数据收集服务
Kimono Labs 被 Palantir 收购,并将于 2016年2月29日 停止服务。 Kimono Labs 由 Pratap Ranade 和 Ryan Rowe 联合创办,是在 Winter 2014 Y Combinator 项目中孵化的一家初创公司,其主要目的是把网站变成 API。 …
-
大数据下客户金融产品购买概率预测
本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。 模型 基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。 该逻辑回归Logistic Regression模型简单描述如下: 客…
-
IBM拟以26亿美元收购健康大数据公司Truven Health Analytics
据路透社报道,美国时间本周二,IBM 宣布打算以 26 亿美元的价格收购医疗保健数据和分析提供商 Truven Health Analytics。IBM 预计交易将于今年晚些时候完成,这将是过去 2年 来蓝色巨头进行的第四笔与健康数据有关的重大收购,也将令 IBM 在医疗保健方面的投入超过 40 亿…
-
概率的意义:随机世界与大数法则
导语 1987年,是印度传奇数学家拉曼努扬(SrinivasaRamanujan,1887-1920)的百年诞辰。为了纪念他,有一系列的活动。当代著名统计学者, 出生于印度的劳氏(C. Radhakrishna Rao,1920),也应邀做了三场演讲。之后,印度统计学研究所(IndianStatis…
-
机器学习的十三套框架
过去几年以来,机器学习已经开始以前所未有的方式步入主流层面。这种趋势并非单纯由低成本云环境乃至极为强大的GPU硬件所推动; 除此之外,面向机器学习的可用框架也迎来了爆发式增长。此类框架全部为开源成果,但更重要的是它们在设计方面将最为复杂的部分从机器学习中抽象了出来,从而保证相关技术方案能够为更多开发…