面对即将到来的AI时代,我们该何去何从

快乐、理性去学习,乐意交流,思想碰撞。——这篇文章不做推广,仅此送给关注我的1000位朋友们
  • 前言:人之所以痛苦,在于追求错误的东西。可是我认为,痛苦很多时候却来源于迷茫和无奈,这并不是很多人想要的一切。于我而言,不管是生活,还是工作,我更看重先做一件正确的事,并且不顾一切去正确做下去。

世界互联网大会世界互联网大会

11月16日到18日这三天,世界互联网大会在浙江乌镇举行,全世界都关注,我也一样很期待。

而在李彦宏演讲结束以后,我深思了很久,伴随着互联网的日新月异,从移动互联网,再到人工智能。在大数据思维全面灌输的时代里,我们何时能够追得上科技发展的步伐?是否在不久的将来,必定成为一名吃瓜群众,稍不留神,或许就被淘汰失业了?

一点看法

在我看来,不管是战胜李世石的AlphaGo,还是因为锤子M1一炮走红的科大讯飞,甚至是用工程师做障碍测试的百度汽车,这些都是推动大数据实践落地的优秀先驱者。

整个大数据环境从萌芽,逐渐尝试着突破层层泥土去让人们看到它有价值的一面,我认为这是好事。

我也同样在做类似的尝试,我相信数据产品能够服务于业务,应用于生活中,去彰显大数据更有价值的一面。就拿反欺诈产品来说,能够整合全渠道,甚至是第三方的数据源,通过分析用户在平台上的一举一动,以及多个用户之间的强关联性,实时精准去监控用户在生命周期内的异常行为,甚至是识别恶意大批量的诈骗团伙。

在对于公司一定比重的运营成本上,这样的大数据应用意义非凡。

还有很多这样有价值的应用,他们致力于服务消费者。就像今年淘宝3月份推出的聚星台,得源于移动互联网的发展,越来越多的用户群体从PC端引流到手机端,去购物,去看新闻,甚至是饮食。

2016年双11移动端占比81.87%2016年双11移动端占比81.87%

对于淘宝来说,让用户在小屏手机上去挑选琳琅满目的商品,显然是不切合实际,也会导致用户体验极差。

聪明的这群人,提出了用户画像和商品画像在精准推荐的另一个应用场景——千人千面,异于传统模式下的协同过滤(基于人,基于物,甚至是基于商品之间的推荐),更人性化去差异展示给用户不同的商品宝贝,精准的在商品和用户之间缩短了购物路径。这样对于选择困难症的朋友来说,会是一个福音。

虽然在和淘宝对接的过程中,这样的大数据应用落地效果并不是如此完美,还有待优化。但是我想告诉大家的是,大数据时代的价值,已经轰轰烈烈的来临了。

但是……不少人会感觉到恐慌,陌生,甚至是无助。

大数据时代的一种无助大数据时代的一种无助

他们对大数据思维没有任何概念,但是他们都有一个信念——期待能够获得大数据时代豪华游轮的一张船票。

而我想说的是,只要你足够走心,有大数据情怀,并找到正确的方向,这艘游轮一直为每个人开放,这并不是鸡汤。

因为现在的大数据环境,还需要更多先驱者去推动这个领域的发展,去打破不少外界对它的偏见,大数据并不是大忽悠,而是一种必然。

一段回忆

想着想着,我想到了几年前的那一个冬天。

银杏叶飘落的冬天银杏叶飘落的冬天

  • 市场:那时候大数据的整体氛围还没有这么强烈,很多公司都是在目前业务方向上做小数据量的数据分析和挖掘工作,更多时候借助于一些分析软件,比如Matlab、SPSS和SAS。

职业:那时候身边的同学都在忙着考研、出国,也有些在找专业相关的工作,做通信,做芯片,去三大运营商。很少有朋友会选择从事数据相关的工作,甚至压根觉得没啥前途。

培训:那时候整个线上培训环境还很纯洁,大部分都是针对学校范围内的考研培训、外语培训和Java编程培训。仿佛大家对于IT行业的认知一直停留在很多年前。不像现如今,鱼龙混杂,不在乎传授的内容是不是已经不符合当下了,只一味的圈钱。

当时的我,有一个怪号——大神、大侠,可为什么不是学霸呢?

因为我专业课程一塌糊涂,整天不把心思放在学业上,一股脑的去学习数据,学习模型,参加建模比赛。

这个称号与其说是对我方向的不理解,更多是带有些一笑而过的无奈。

那时候我只有独自的学习,也走错了一些方向,大概列举这些:

  • 整天抱着学术论文去学习各种看不懂的算法,特别是一些启发式算法,基本学完就忘,也不知道适用场景。
  • 还曾经找excel的书籍去学习函数、图表、数据透视图,甚至是VBA,认为懂得花式越多,特牛。
  • 也一味去学习各种图表的设计,使用一些画图软件,做信息图,做可视化,让人有视觉上的冲击。

人这一生,会走不少弯路,有些坑会让你有成长,可有些坑,如果有人曾经告诉你,你却省下来很多的时间,做更多有价值的事。

这也是为什么,我乐忠于写文章,甚至打算利用业余时间自己在群里做个分享。让一些准大数据圈子里的人,能够以正确的姿势进入这个门槛,别花太多弯路在毫无价值的事上。毕竟大数据领域,还有很多值得每个先驱者去探索数据价值的方面。

说心里话,我并不是很赞同大部分人群为了所谓的高薪,花很多的钱在没必要的培训上。而很多培训组织,同样打着高薪的幌子,招摇过市。前不久被大数据行业圈内人人臭骂的案例,很多人还记忆犹新吧。(而所谓的培训平台,希望能够更走心)

既然是做大数据,很高技术门槛的一个行业,打趣说是一个高智商的领域,请大家理性去看待身边的培训。别被像传销一样,毫无察觉被忽悠进去,到头来哭天抢地。如果是如此,我劝还是换个领域去深造吧。

我有以下三点,送给大家,足矣:

  • 多看多听,知晓大数据生态圈一个正确的方向。
  • 多花点时间去学习,去亲自动手,这才是重中之重。
  • 多讨论,偶尔看些行业内实战性的文章,以及实践分享。

业余时间在做的事(活动一:互动问答)

目前,我和身边有数据情怀的朋友,组建了一个wx群,叫做大数据挖掘杂谈,人数杜绝超过150人。后期看实际情况会新增群,而不是扩人数。(目前不支持直接添加,可以先加入微博的群里,后期会根据效果加入 大数据挖掘杂谈群里,谢谢理解  )

  • 有以下几点说明
    1.提问来源:【大数据挖掘杂谈】微信群。
    2.流程步骤:每周收集群里朋友的一些问题,进行初筛,挑选有代表性的4~5个问题,在周日或下周一进行回复。
    3.反馈形式:如果自己的提问被给予回复,并且较为满意,可以在微信群里发群红包,或者私发,金额不限,纯属一种认可。

下面是2016年第一期反馈(时间:2016-11-14到2016-11-20)

咨询一:数据挖掘相关的岗位面试会不会考虑非对口专业?题主是生物信息方向,也处理过数据,但毕竟和有一定差异性。(提问者@Luok)

回复:曾经我作为面试官时,当我收到应聘者求职数据挖掘岗位的简历。我的确会首先注意到专业的相关性,但仅仅只是一个映象,并不能起多大作用,更多在于后期交流的判断。在目前的教学环境下,并不存在完全对口的专业符合大数据领域,甚至是数据挖掘,即使是统计学,应用数据相关的,在学校做的研究和市场环境差别很大,这一点是我当时面试下来发现的一个现象。

自我自己为例,我学通信工程专业,不同样也来做数据挖掘了?我以前的同事,也是学生物相关的专业,不也来做大数据,目前想转数据挖掘了?

别担心,有真材实料才能有底气。

咨询二:接着上面问题,如果考虑非对口专业的话,面试官一般会通过什么方法评估应聘者的能力?刷Kaggle这类型的会有帮助?(提问者@Luok)

回复:我写过几篇文章,都有提到这个问题,作为专业的面试官,如何考察数据挖掘岗位应聘者的综合能力,简单明了,有以下几点,做一个排序。

  • 对于常用算法的了解(四类:有监督性学习的分类、无监督性学习的聚类、预测响应类型、计算综合得分类型。),更重要是对个别算法的熟练程度,以及应用场景的了解。
  • 对于应聘行业业务是否有了解,还是仅仅是个小白鼠?
  • 一定的编程能力,这是很多做数据挖掘人所缺少的,能够将场景转化为能够落地的模型,只有通过code去实现。
  • 对大数据生态圈的了解,都步入大数据领域了,别总是停留在传统挖掘范畴里。

刷Kaggle目的上是没用,意义上是你去学习过程中对于算法模型的了解,这个点有用。

咨询三:想请教一下,消费金融风控系统分析师的职业发展方向,题主本硕都是统计学专业。(提问者@龚瑜)

回复:我对这个岗位不是很了解,所以拉勾看了某公司的JD要求,说说我的看法,主要有以下几点:

风控系统分析师的JD风控系统分析师的JD

  • 看得出来,妹纸更多会想偏分析师的岗位,辅助业务运营这块做一些决策判断。
  • 从上面的大体JD要求,没看出有什么差异性,基本属于一个数据分析师在金融行业的要求吧。所以,如果应聘这类型的岗位,除了具备一定的数据分析能力(你是统计专业,这个会是一个优势),金融行业业务会是占很大的考核比重。
  • 我在目前的互联网金融公司内,经常会有人咨询大家有没有各种金融相关的证书,一些人都会考有点含金量的证书。对于公司而言,增加公司在行业内的可信度。对于你而言,它会是你从事金融行业分析的一个敲门砖,可以在这方面下一定功夫。

咨询四:题主是做信息安全的,觉得用大数据解决金融交易中的欺诈问题,和用大数据来分析用户在信息环境中的违规,内部泄密等行为的原理类似。想请教下,用大数据解决金融交易中的欺诈行为,主要用到哪些模型和算法?准确率、召回率有多少?(提问者@深圳-信息安全-咨询-Jason)

回复:你说的大数据分析欺诈问题,与公司内泄密等行为,属于大方向上相同——都是监控防范打击的事。但是细来说,没有多大联系,同时内部泄密这不属于大数据领域概念——至少我认为是这样。

在大数据解决金融交易的欺诈行为里面,需要首先对用户进行细分,简单来说有以下几点:

  • 那些人是合格的
  • 哪些人是异常,但是我不进行干预
  • 哪些人是异常,但是我必须进行监控干预

毕竟是服务于用户的平台,用户总量侧面也反映一个平台的活跃度和综合能力,所以一般性的用户行为都是可以接受的,而针对恶意大批量,甚至是一个团伙作案,靠诈骗平台利益养家糊口的群体,则是金融平台要重点打击的对象。

说到这儿,自然而然的道出一些相关的业务场景模型,比如下面这几个:

  • 分析用户是否属于欺诈用户
  • 分析用户在金融平台的风险异常得分
  • 分析用户属于那种类别的欺诈用户

一层一层深入,更精准去判断这个用户是否会被行为干预。

上述这三个业务模型场景,并不是某一个算法能够完美解决的,都是需要结合实践的业务场景,组合一些算法和业务逻辑规则去做分析。

但是从算法上,大概还是这几类:1.用样本集去训练有监督性学习的分类模型。2.考虑特征维度,特征向量的权重大小,确定用户综合得分模型。

对于你说的准确率和召回率,分为两个场景:线下和线上

针对线下的准确率,但是有8w个训练样本,通过交叉测试的流程去训练、测试5次,得到平均的准确率大约在85%左右,召回率忘了。(其实这并不能代表什么,仅仅符合上线的标准)

而针对线上,更多采用AB-test的方式,目前我们把重心放在线上测试,调整模型准确率上,所以还没有一个准确的稳定结果,后期会分享。

快乐学习,理性学习,乐意交流,思想碰撞

<本文完>

作者:汪榕  微博:乐平汪二

原文链接:http://weibo.com/ttarticle/p/show?id=2309404044589374768879

注:数据分析网遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏,请联系主编邮箱:afenxi@afenxi.com

分享到:更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址