张乐
-
机器学习必备的7项技能包
摘要:机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法创新,即在面对新数据时,其自身能够发生演化。 在某种程度上,机器学习与数据挖掘很相似。它们都是通过数据来获取模式。然而,与人类可理解的…
-
人格量化 —— 个人金融画像探索
摘要:本文主要探讨将行为金融学相关理论应用于个人客户金融画像构建。 一 原始数据 目前业界的个人金融画像主要在金融机构内部数据结合外部数据基础构建。如对原始数据进行特征提取,得到如下客户特征: 图一 (来源[7]) 在实施过程中可以为个人金融画像中每个人打上几千个标签。再结合具体场景如股票购买概率预…
-
Python教程:7款数据图表工具的比较
摘要:本文介绍7款 Python 数据图表工具的比较 Python 的科学栈相当成熟,各种应用场景都有相关的模块,包括机器学习和数据分析。数据可视化是发现数据和展示结果的重要一环,只不过过去以来,相对于 R 这样的工具,发展还是落后一些。 幸运的是,过去几年出现了很多新的Python数据可视化库,弥…
-
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和Map…
-
Airbnb教你使用数据理解用户旅行体验
摘要:Airbnb是如何使用数据理解用户旅行体验的? Airbnb的数据科学家收集数据并使用这些数据来优化产品,通过数据找出问题所在,并且通过数据协助做出业务决策。对于大多数用户,“Airbnb体验”最典型的瞬间就发生在现实世界——当他们根据自己计划去旅行时,当酒店主人跟他们打招呼时,当他们住在酒店…
-
如何牛逼地设计电影推荐系统
摘要:如何牛逼地设计电影推荐系统 个性化 所谓个性化就是系统在对每个用户进行相关引导时,应该考虑改用户的特点,比如他的历史搜索行为中表现出来的特点,比如是喜欢科幻、或者喜欢文艺,在搜索相关内容时,可以根据这些潜在模式去调整内容的顺序。 精准营销和消费者分群 精准营销是通过用户的个人资料和行为数据,训…
-
31个与大数据有关的非常不错的资源和文章(附全链接)
资源 1.用贝叶斯模型计算我的妻子是否怀孕 2.在基础R中使用插值法和平滑功能 3.数据兵工厂里的武器:R vs Spark【这个链接好像挂了~】 4.最好的大数据、数据科学、数据挖掘和机器学习播客视频大全 5.数据科学的线性模型导论 6.黑客读物:数据统计 7.Apache Spark-执行概要 …
-
R语言和Python —— 一个错误的分裂
最近有一些文章提出与年龄相关的问题:“ 崭露头角的年轻数据科学家们是学习R语言还是Python更好 “ 答案似乎都是“视情况而定”,在现实中没有必要在R和Python中做出选择,因为你两个都用得到。 它被称为RPy2: http://rpy.sourceforge.net/rpy2/do…
-
李开复:AlphaGo 若打败了世界冠军,意味着什么?
创新工场董事长李开复在知乎就 AlphaGo 与李世石的人机大战发表了自己看法,他认为四个月前的 AlphaGo 击败李世石基本不可能,不过这四个月AlphaGo 进步很多,比赛应该很精彩。但是,无论这次结果如何,机器 1-2年 之内必然完胜人类。完胜人类之后呢?可以做个通用的大脑吗?意味着机器可以…
-
日本移动分析和营销工具服务商Repro宣布获得260万美金的融资
近日,日本移动分析和营销工具服务商Repro宣布获得 260 万美金的融资,投资方来自 Jafco、Voyage Ventures、以及之前一些天使投资人。这是继去年5月 份,他们获得来自 DG Incubation、Brain Pad、 Shift back 83.5 万美金天使轮融资后的第二笔融…
-
大数据:更多的数据还是更好的算法?
我知道很多人自始至终都认为数据是越多越好,Google甚至直言:更多的数据胜过更好的算法,而过去很多侦探剧中崇尚“信息越多,就越靠近真相”的刑侦金句也似乎佐证这一点。而事实上,我的观点是,数据只是基础,如何建构起有效的算法、模型比数据本身更重要,最起码对目前而言是这样的。持与我相近观点的大有人在,如…
-
大数据科学工具包(万余字介绍几百种工具,经典收藏版!)
前言:数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用…
-
11款开放中文分词引擎大比拼
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。
-
互联网人群画像和你所不知道的真相(三)
人群画像的基础在于对个体的准确描述(profiling),如果个体描述不准确,人群画像也会有偏差。对每一个个体的描述,我们使用一种被称为“标签”的东西。
-
搞懂5种数据可视化方法,胜任90%热门信息图设计
因为接下来要做卖家后台数据纵横的改版,对数据可视化这块儿又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。 概念 借助于图形化的手段,清晰、快捷有效的传达与沟通信息。从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深…