从Erdos数谈网络数据特征

你听说过鄂尔多斯吗?

你听说过鄂尔多斯吗?别迟疑,不是做羊毛衫那个,是数学家鄂尔多斯(Paul Erdos)。Erdos是20世纪最伟大的天才数学家之一。如果你的研究方向是数论与组合数学,那么你很有可能已经读过他的大作。但其实他的论文涵盖数学各个分支领域,甚至统计、物理等跨学科领域。Erdos发表论文如同开挂,战斗力惊人。据说他每天工作19小时,在古稀之年仍然如此。他毕生发表过的数学论文超过1500篇,在数学史上仅次于神级人物欧拉(Euler)。Erdos广泛的研究兴趣使得他有超好的“人缘”。据不完全统计,他的合作者超过450人,若加上别人所作但曾获他关键性的提示的论文,则总数应有数万篇。

从Erdos数谈网络数据特征

图为Erdos Paul, 摄于1983年夏

Erdos的好人缘并不是没有根据的,他人缘好到啥程度呢?数学家们争相以与他合作为荣,甚至设计了一个特别的数字:Erdos数。这个数字的设计原理非常简单:Erdos本人的Erdos数是0;曾与Erdos合作发表过文章的人的Erdos数是1;没有与Erdos合作发表过文章,但与Erdos数为1的人合作过的是2,……,自然,不属于以上任何一类的就是无限大∞。简单来说,大家把Erdos本人当成数学界的宇宙中心,人人都想跟他套近乎,不过得按照远近亲疏排出个先后来。这跟创业公司的员工号码非常类似,号码越小,越早加入公司,越重要。尽管Erdos数远近闻名,但是这个数字并非是Erdos本人设计的(不然的话我想他可能是20世纪最自恋的数学家了)。据已故著名数学家Melvin Henriksen所说,Erdos数字是John Isbell在1957年前后于普林斯顿大学提出的。而第一次以文章形式提出则是由Casper Goffman。

从Erdos数谈网络数据特征

图为Erdos 数项目网站图,由奥克兰大学主持,网站链接(https://www.oakland.edu/enp/readme/)

数学家们甚至为这个数字成立了一个项目,叫做“Erdos数项目”。从这个项目中,可以看出数学家合作网络的变迁。

不过,如果你发现自己的Erdos数小于6,也不要太过沾沾自喜,因为你并没有打败99%的用户。事实上,人们发现,几乎每个数学家都有一个有限的Erdos数,且这个数字往往小的出乎本人预料。比如说证明Fermat大定理的Andrew Wiles,他的研究方向与Erdos相去甚远,但他的Erdos数只有3,是通过这个途径实现的:Erdos–Andrew Odlyzko–Chris M.Skinner–Andrew Wiles。1903-2016年的Fields奖得主的Erdos数都不超过6。甚至一些八竿子打不着的人物,比如首富比尔·盖兹(Bill Gates), 他的Erdos数是4。经过Erdos数项目统计,具有有限Erdos数的直方图分布如下:

从Erdos数谈网络数据特征

图为有限Erdos数分布(2004年数据),在2004结束时所有具有有限Erdos数的工作数学家中,数值范围可达13,中值为5,平均值为5.58; 几乎所有Erdos数有限的人的erdos数都少于8

以上这些事实告诉我们似乎名人并没有那么遥不可及,通过有限的几步我们也可以与名人相连。这一点也被哈佛大学著名社会心理学家米尔格兰姆(Stanley Milgram)验证,他通过连锁信件实验表明任何两个欲取得联系的陌生人之间最多只隔着5个人,也就是最多经过六个步骤,便可完成两人之间的联系。这就是有名的“六度分割理论”,在学术界也被成为“小世界效应”。除此之外,网络数据还有无标度以及稀疏性的特性。为了方便理解,我们这里利用一个实际数据向大家说明网络的三大特性。

1、豆瓣电影数据及网络构建

从Erdos数谈网络数据特征

豆瓣电影主页

从Erdos数谈网络数据特征

《复仇者联盟3》信息页

我们用于展示的数据来自于豆瓣电影,许多观影爱好者在网站上获取影片信息。共爬取了2005年至今所有豆瓣评分超过7.5的1742部优质电影中所出演的7025位主演情况,依此构建“电影演员合作网络”。每一个演员作为该网络的一个节点。如果两个演员共同主演过至少一部电影,则两位演员之间有对应的连接边。共同合作的电影数目则表示两人之间的联系的密切程度,反映到“电影合作网络”中则是两个节点连边的权重大小,合作1部电影则权重为1,2部则权重为2……。基于上述网络构建规则,我们删除没有合作者的演员,保证每个演员都有合作者,可以得到完整的电影演员合作邻接矩阵,进而获得6647名演员合作关系的无向网络。

通过一些简单的描述统计,我们不难发现一些电影合作出演的规律。如下图所示,演员合作数的直方图中我们可以看到,在“电影演员合作网络”中,在6647名演员中,每一名演员的合作者大概都是一到两人,并随着电影合作者增多,演员的数量也在急剧减少,也就是说合作者多的演员是非常少的。其中,有5728名演员只有1到2名合作者,占总人数的86.17%,看来大多数演员接触其他演员并一起合作的机会还是不多的,只有1到2次,只有少数演员与其他演员一起出镜的机会比较多,当然他们就是那种我们常说的“当红炸子鸡”和“文艺老戏骨”们。

从Erdos数谈网络数据特征

电影合作者数量分布

那么我们就来看看这些国际知名的当红演员们在2005年至今的人缘情况吧!在豆瓣数据中统计了在拍摄电影中合作者数量最多的top10。也可以说是电影界人缘最好的top10了。而且还有一个很有意思的现象是,在2005年后合作者数量最多的演员的前十名中,英国演员占据4席(图中红色标记),而日本演员占据6席(图中蓝色标记)。从一个侧面也印证了这两个国家的影片较为高产且质优(豆瓣7.5分以上基本已经算是电影中的“优等生”了)。

从Erdos数谈网络数据特征

电影合作者数前十名

从图中我们会发现我们比较熟悉的演员,像“卷福”和“奇异博士”康伯巴奇,“李狗嗨”中的堺雅人等炙手可热的影视演员,还有中村悠一和神谷浩史这些声线逆天的配音演员。这些影视巨星拥有着很多的影视作品,也就有着很多合作者们,成为合作网络中的中心人物。让我们以这些影视巨星为中心来构建一个简单的网络,如图,显示这10位明星的2005年至今的电影合作情况。不难发现top10中的演员之间也有合作关系,并形成了四个集团。其中英国演员两个集团,分别是田纳特、康伯巴奇、苏切为代表的英国电影集团和麦克伊万的《马普尔小姐探案》影视剧集团。日本也有两个集团,分别是加濑亮、户田惠梨香、二宫和也、堺雅人日本影视出演集团和神谷浩史、中村悠一日本影视配音集团。在集团中的当红明星中除了相互合作外还会通过一些都有过合作的明星来建立联系。

从Erdos数谈网络数据特征

合作者数量最多的演员之间的合作网

2、演艺圈的社交网络

为了使的网络清晰可见,删除参演电影较少的配角演员,提取出前300个合作者较多的演员以及他们参演电影中的合作演员,一共1216名演员作为节点画出他们的电影演员合作网络图如下图所示:

从Erdos数谈网络数据特征

电影演员合作网络

密密麻麻的网络被呈现在眼前,是一幅比较完整的电影合作网络。在网络中可以较为明显的看出网络貌似被分成了两部分。上方的一部分是可以看到节点的演员全部是日本演员,所以我们可以认为上面的合作网络是“日本影视合作网络”;而下方的电影网络的演员则全部是欧美的演员,所以我们可以称呼下面的网络为“欧美影视合作网络”。两部分合作网络由一个演员节点连接——“乔治·布洛林”(图中红色点)。这是一位著名的电影导演,在他出演的一部有关于导演介绍的电影《每个人都有他自己的电影》中,他与著名的日本导演北野武进行了合作,因此将两部分影视网络进行了连接,另外值得一提的是乔治.布洛林最近在大卖电影《复联3》中也饰演了大反派“紫薯精”——灭霸。但也可以在网络中看出,虽然现在已经进入到了电影国际合作化的阶段,但是演员们之间的优质电影的合作还是比较少的。

从Erdos数谈网络数据特征

乔治·布洛林

从Erdos数谈网络数据特征

《每个人都有自己的电影》信息页

在电影合作网络中还可以发现一种现象是,在“日本影视合作网络”中又有两个较为明显的合作网络集团,如下图所示,蓝色节点和绿色节点的两个集团。没错,这就是日本影视界的独特的现象——“荧幕演员”和“配音演员”集团。绿色节点部分是声线逆天的声优们,而蓝色节点则是演技出众的日本艺人们。

从Erdos数谈网络数据特征

电影合作社区划分图

从Erdos数谈网络数据特征

图为三个集团的代表人物,从左到右分别为欧美影视集团康伯巴奇,日本影视集团堺雅人和日本配音集团神谷浩史。

3、网络三大特性

1)网络稀疏性:芸芸众生,人海茫茫

佛说,前世500次回眸,才换来今生的一次擦肩而过。那么,我们每个人很有可能是扭断脖子才见到彼此的。这说明啥问题呢?这代表网络结构往往是稀疏的。这里的稀疏是什么意思?简单来说,稀疏就是人和人之间基本没关系,请大家珍惜身边人。每个人精力有限,不是所有人都是“交际花”。经过统计,一个演员平均合作的演员数目是3.39。远远小于我们这里总演员数(1216)。也就是说,网络中直接相连的边寥寥无几。

表示网络稀疏特性的还有一个指标,叫做网络密度。可用于刻画网络中节点间相互连边的密集程度。一个具有个N节点和L条实际连边的网络,网络密度计算方式如下:

网络密度基本代表了任何两个人相连的概率是多少。实际数据中“电影合作网络”密度为0.24%,这再次说明,可能佛说的确实没错。

2)小世界效应:朋友是个圈,我们都在圈里面

我们常常感叹,这世界真小。常常感觉八竿子打不着的人,说不定某天就通过某一位朋友相识了;在朋友圈里,发现小学同学跟大学朋友竟然打得火热;《创造101》中的人气偶像小姐姐竟然是我大学舍友的妹妹,自己距离荧屏上的偶像居然可以那么近;Erdos数其实也表达的是同一个道理。俗世的人管这叫:缘分。从网络数据特性上,有一个特别的名称:小世界特性。先来看两个指标。

  • 网络的平均距离。网络两点间的距离被定义为连接两点的最短路所包含的边的数目。它描述了网络中节点间的分离程度,即网络有多小。就拿日本影视集团的网络进行简单举例吧。在日本影视集团的网络图中,堺雅人到加濑亮的路径既可以是“堺雅人-宫崎葵-二宫和也-加濑亮”也可以是“堺雅人-宫崎葵-二宫和也-渡边谦-加濑亮”。但是,堺雅人到加濑亮的最短路径为前者,所以堺雅人和加濑亮的距离为3。把所有节点对的距离求平均,就得到了网络的平均距离。通过R的计算,求得日本影视集团网络中的网络的平均距离为3.11。 说明日本影视集团的网络中每一个演员想找到图中任何一个演员合作平均需要经过3个左右的演员。
从Erdos数谈网络数据特征

图1:网络平均距离说明图

  • 簇系数。在现实的朋友关系网中,你朋友的朋友很可能也是你的朋友;你的两个朋友很可能彼此也是朋友,也就是说你的朋友间的联系一定会很紧密。簇系数就是用来度量网络的这种性质的。对于某个节点,节点的簇系数为所有相邻节点之间连的边数目占可能的最大连边数目的比例。网络的簇系数则是所有节点簇系数的平均值。专门用来衡量网络节点聚类的情况。这次以中国的影视明星合作网络为例,如下图所示,计算黄秋生的簇系数。黄秋生的合作过的演员为(桂纶镁、周杰伦、梁洛施、杜汶泽),而这四个演员的连接边数为2,最大可能的连接边数为k(k-1)/2=4(4-1)/2=6。则黄秋生的簇系数为1/3。通过R计算,求得图2中的中国影视网络的簇系数为0.5。
从Erdos数谈网络数据特征

图2:簇系数说明图

研究表明,规则网络具有大的簇系数和大的平均距离,随机网络具有小的簇系数和小的平均距离。而小世界网络则具有大的簇系数以及小的平均距离,而几乎所有的真实复杂网络都具有小世界效应。

不过现实中的社交人际网络,在普通的单一功能性网络里,最长路径长度为更接近logN而非N(N为节点数),则可以认为“小”。通过R计算出“电影演员合作网络”的平均路径只有10.27,最长的路径长度也不过为24。在反观聚集性,“电影演员合作网络”的簇系数高达22.47%,比较网络密度的0.24%,已经是一个很高的数值了。说明电影合作网络中,聚集效应比较明显,同一个演员的合作者之间的合作关系也比较多。因此,电影演员合作网络中具有较小的平均路径以及较高的簇系数,电影合作关系的小世界效应可以说是非常明显了。

3)无标度特性:明显总是少数的,做个普通人也挺好

不少人觉得明星的生活跟自己隔着一堵墙。从社交网络上,明星们往往粉丝百万,点赞无数。前段时间,谢娜的粉丝数目还突破了吉尼斯纪录。反观我们自己,与明星相比,粉丝可以说是少的可怜了。不过也没必要自怨自艾,事实上,大部分人都是“芸芸众生”。

从Erdos数谈网络数据特征

微博信息页

在真实的社交网络上,节点的度往往呈现非常不均衡的分布,即大多数节点只具有少量连接,而少量节点具有大量连接。这部分人可以说是“社交达人”了。我们用幂律分布来近似刻画这种节点度的统计特性。幂函数曲线是一条下降相对缓慢的曲线,这使得度很大的节点可以在网络中出现。不过不要伤心,如同你我这样的芸芸众生是大多数,普普通通过一生也很好。

在这个意义上,我们把节点度服从幂律分布的网络叫做无标度网络,并称这种节点度的幂律分布为网络的无标度特性。许多实际网络系统的幂指数值介于2.0与3.0之间。利用R软件对于“电影演员合作网络”中的节点度进行统计如下图所示:

从Erdos数谈网络数据特征

电影合作网络节点度分布

可以清晰地看到在电影合作网络图中,节点之间的图分布在1~27之间,其中度为1和2的节点数量很多,占所有节点的将近75%,远远超过其它度数的占比。高节点度数的节点又很少,像度数为26~27的节点都各只有1个。他们分别是英国演员大卫·田纳特和日本演员加濑亮,整体的节点度分布图又很近似一个幂律分布,可以看出电影合作网络是符合幂律性特征的。看来,即使是在名人辈出的大荧幕圈,也总能找到“社交达人”。

从Erdos数谈网络数据特征

日本合作小能手加濑亮拥有27个合作主演,英国团队之星田纳特拥有26个合作主演

本文由 狗熊会 投稿至 数据分析网 并经编辑发表,本文链接:https://www.afenxi.com/58905.html 。内容观点不代表本站立场,如转载请联系原作者。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

大数据交流群

统  计  学 数据分析网-统计学

商业智能 数据分析网-商业智能

数据挖掘 数据分析-数据挖掘

数据产品 数据分析网-数据产品

QR code