老王带你搞定社交网络分析

程序员老王对隔壁公司的美女经理阿花十分仰慕,虽然他们常常在写字楼电梯间偶遇,最多也就是点头问好,但怎样才能名正言顺和阿花在工作以外的时空产生交集?

摘要:程序员老王对隔壁公司的美女经理阿花十分仰慕,虽然他们常常在写字楼电梯间偶遇,最多也就是点头问好,但怎样才能名正言顺和阿花在工作以外的时空产生交集?其实,人与人之间的关系往往错综复杂,何不让数据模型帮你挖掘一下,找出打入阿花朋友圈的最短路径?本期就让老王带你了解社交网络分析(SNA)。

老王带你搞定社交网络分析

社交网络分析究竟是干嘛的

社交网络分析(Social Network Analysis) 最早是由英国著名人类学家拉德克利夫-布朗(Radcliffe-Brown)在对社会结构的分析关注中提出,是理解人类(可延展为任意主体)各种关系的构成、交互模式以及信息传播规律的分析方法,使用技术包括离散数学、随机过程、社会学、管理学、心理学等多学科的融合理论和方法。

上面这段太玄乎了,我们实在点,搞懂了SNA,你可以解决这几种问题

  • 可达性问题

如果你有全城人的电话通讯录,SNA可以告诉你某人和阿花是否认识,即使TA的电话本里没有阿花的电话;

老王到阿花可能有多种联系方式,找到途径节点最少的那条。

  • 传播问题

老王的朋友圈里,有三个是Fintech精英,年薪百万,还有两个赌徒,他还有一个叔叔是被法院通告的老赖;能否估计老王经济状况,信用风险

广告投放给谁传播效率最高你关注的大V是真的传播力惊人还是八十万水军教头公司里谁是八卦源头

  • 演进问题

你在Linkedin 上更新了职位,是不是收到了很多新的人脉介绍Linkedin 是怎样优化推荐算法帮你打入新圈子

公司从10人打拼到500人,人事结构经历怎样变化如何优化组织的人力结构怎样从邮件交互中识别谁是拍板的,谁是跑腿的,谁是活稀泥的

社交网络基本要素

为完成以上目标,我们要用图语言来描述问题和建模,不用担心,大部分是非常符合直觉的概念。

  • 节点(Node):节点是指要分析的物体,每一个物体就是一个节点,比如在Social Network中每个人就是一个节点。
  • 边(Edge):Graph中两个节点间的连线,用于表示两个节点的关系。比如在Social Network中两个人的关注关系,微博传播中转发关系。
  • 图(Graph):图是用来表示一组物体之间的关系的方式。有向图(Directed Graph):边代表的关系具有方向的图。比如微博的关注关系,电话拨入呼出,银行转账收账就是有方向的。无向图(Undirected Graph):边代表的关系没有方向的图。
  • 度(Degree):节点的度是指与其相连的边数,你通讯录的名单长度就是你的联络人度数。
  • 输入度(In-degree):有向图中一个节点收到的边。
  • 输出度(Out-degree):有向图中一个节点发出的边。
  • 路径(Route): 两个节点之间经过的边和节点序列,路径有长度,通常衡量两个点之间的距离。

社交网络分析的应用

小世界(六度分隔):找对人在日常生活中,有时你会发现,某些你觉得与你隔得很“遥远”的人,其实与你“很近”。小世界网络就是对这种现象(也称为小世界现象)的数学描述。用数学中图论的语言来说,小世界网络就是一个由大量顶点构成的图,其中任意两点之间的平均路径长度比顶点数量小得多。除了社会人际网络以外,小世界网络的例子在生物学、物理学、计算机科学等领域也有出现。二十世纪60年代,美国哈佛大学社会心理学家斯坦利·米尔格伦(Stanley Milgram)做了一个连锁信实验。他将一些信件交给自愿的参加者,要求他们通过自己的熟人将信传到信封上指明的收信人手里,他发现,20%的信件最终送到了目标人物手中。而在成功传递的信件中,平均只需要6.5次转发,就能够到达目标。也就是说,在社会网络中,任意两个人之间的“距离”是6。这就是所谓的“六度分隔”理论。三元闭包:弱联系会变成强联系

这个是对网络稳定性的探讨,是关于网络演进非常基础也很重要的一个认识。如果存在 a <-> b, b <-> c, 那 a <-> c 的期望会非常高 。在时间序列上对很多网络的动态演进过程分析都验证了这个观点。对它的解读也非常符合我们的日常认识:近墨黑,近朱赤; 爱屋及乌 等。

三元闭包在很多线上线下场景都有很多的应用。比如你在 Linkedin 上更新一下联系人,会得到后台很多联系人推送,你会发现Linkedin 的推送节制而高效,既没过分打扰,又能打开你的人脉,这种推送是基于三元闭包理论的。

老王带你搞定社交网络分析

三种重要结构:环、簇、树

三元闭包构成了一个最小的稳定结构:包含3个节点的环(Loop)。 对一般社交网络来说,环形结构不算特别。在有些场景,环形意味着风险和欺诈。

比如收集一个年度所有车辆受损和理赔案件信息,构成一个理赔网络。因为车辆事故是低概率事件, 这个网络必定是节点数量远远超过边的数量的稀疏图。如果在这样的网络里你能找到这样的撞车-理赔链条:

老王带你搞定社交网络分析

这个链条就非常可疑,往往和团伙骗保相关。

除了环形(Loop),还有一种结构特别重要:聚集(Clique)。根据小世界理论,微弱的关联可以让全世界构成一个大的网络,如果以路径可达作为‘认识’ 的判断标准,看起来感觉谁都认识,但是谁都不熟。 Clique 就是一个强连接的小网络:如果一群人两两直接认识,这一群人构成一个Clique。举个例子,产品部的同学们彼此认识,整个部门是一个Clique;产品部的小洪因为参加足球队认识了开发部一众兄弟,通过小洪同学,整个产品部都可以和开发部传递需求,但是产品部+开发部不是一个Clique,因为两边只要有一对人不能直接沟通就不算是Clique了。 说到这里Clique 的重要性就很明了。

树形结构代表是人力资源图,对大部分公司来说这都是仅限HR访问的资源,有检验的人在公司结构图中可以窥见很多信息:公司发展处于那个阶段, 结构是否健康,资源倾斜在那个业务线,人力交叉情况,信息流通成本。

老王带你搞定社交网络分析

老王带你搞定社交网络分析

多数树形结构都不是严格树,存在环形和共享叶节点。严格树形暗示这是个不同寻常的人事组织,比如邪教和传销组织,教主为了保持神秘性,传销头目为了掌控自己的下线资源,往往有意控制人事网络的结构,行成金字塔形, 并让底部网络尽可能隔离,避免下线自由交换信息,保持自己的控制力。这种网络结构非常不自然,在正常的社交压力下非常容易崩溃变形,只有通过洗脑,精神/金钱控制才能存在。

老王带你搞定社交网络分析

社交网络分析难点在哪里

简单说,非线性的模型都很难,而SNA玩的就是网络,肯定难上加难。以上问题除了能一阶判断的可达性,没有一个是简单的。原因如下:

图分析最坏情况通常很坏

考虑最简单的可达判断,如果原始关系是点对存储 (a -> b), 想得到 (x -> y) 的结果需要遍历完成。因为图的结构特点,遍历图比遍历列表,遍历字典更难以预期。一个经典的例子是小世界网络(也叫六度分割),大意是地球上任意两个人的社交距离不会大于6。反过来想就是:从一个人出发,只要六次深度遍历迭代就要访问所有人的信息!为了判断阿明是否认识阿花,如果我们不走运,可能要遍历全城的人信息才能得出一个肯定的答案,而这差不多是SNA中最简单的问题了(图中右下方红色路径)!

老王带你搞定社交网络分析

结构不稳定这也是和非线性结构相关的。拿身边的例子说,滴滴 和 uber突然合并前,管理层一对姐妹花是认识的,少量员工可能在挖角中互换阵营也是认识的,但两家公司构成的人员网络大体上是分开的。随着突然并购,两家公司网络迅速融合,任意两个节点的可达性,关系路径长度都发生了极大的变化。如果用临时表存储上述信息,这张大表在一天之内的有效性就降低为零了。牵一发动全身形容网络对微小变化的敏感实在太贴切了。

总结

由于在线社交网络具有的规模庞大、动态性、匿名性、内容与数据丰富等特性,近年来以社交网站、博客、微博等为研究对象的新兴在线社交网络分析研究得到了蓬勃发展,在社会结构研究中具有举足轻重的地位。今天说了这么多和社交网络分析有关的原理和概念,想必老王这样的老司机早就在码代码了。别着急!下期让老王接着讲讲,如何规避上述社交网络分析的难点,并着重讲讲其在现实场景中的应用。

来源:前海征信中心 作者:朝阳35处

本文为专栏文章,来自:SAS中文论坛,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/35638.html 。

(0)
上一篇 2016-10-17 10:59
下一篇 2016-10-30 05:28

相关文章

关注我们
关注我们
分享本页
返回顶部