摘要:以《大秦帝国之崛起》为例,来谈大数据舆情分析和文本挖掘

摘要:本文作者以《大秦帝国之崛起》作为分析对象,来详细阐述在大数据时代数据分析会涉及到的全网舆情分析、微博传播分析以及文本挖掘。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

今年开年,因饰演白起的演员王学兵吸毒而拖延上映的《大秦帝国之崛起》(以下简称为“崛起”),终于在剧迷的千呼万唤中播出。

这部根据孙皓晖同名小说改编的电视剧是“大秦帝国”系列的第三部,首部《大秦帝国之裂变》,第二部《大秦帝国之纵横》分别于2009年、2013年播出,均获得不错的口碑,第三部《大秦帝国之崛起》因为上面的原因而补拍,直到今年年初才在央视开播。

本文将以该剧作为分析对象,来详细阐述在大数据时代数据分析会涉及到的三个“子课题”:

  • 全网的舆情分析:基于全网媒体或网民关于该剧的探讨,进行“Social Listening(社会化聆听)”,了解该剧整体口碑概况
  • 微博传播分析:基于新浪微博某条对于该剧具有重大影响力的微博的传播情况,了解该条微博的传播规律,互动粉丝的画像,以及水军的辨识
  • 文本挖掘:通过对该剧相关非结构化文本数据的分析,了解其获得观众较高认可的原因

在接下来的分析中,笔者将结合分析工具(新浪微舆情、头条媒体实验室、Python、Gephi等)、分析思路(分析角度和分析流程)、业务知识(对该剧的了解和原著小说的认知),来谈谈一个完整的数据分析case如何完成,上面所涉及的3个子课题是本文分析的重点。下图是本文的主要内容和文章结构:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

1“崛起”的全网舆情分析

1.1 全网关注情况

(1)“崛起”的全网关注度走势

因为该剧播出的时间段是2017-2-9~2017-3-6,故笔者选取了在该剧播出前后略有延展的时间区间,以便观察这段时间内关于该剧的全网信息量走势。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

大秦帝国之崛起全网关注度走势图(2-1~3-13)

从全网总体的关注度来看,在电视剧播出前的关注量较少,而在电视剧播出期间的关注度(有关该剧的网络信息量)陡然上升,在播出的第一天(2017-2-9)关注度就出现了明显在上升。在该剧在播出结束后(2017-3-6),信息量逐渐减少,呈下降趋势。

(2)“崛起”的全网关注度来源

从各信息发布渠道的表现来看,该剧在微博(新浪微博和腾讯微博)上的信息量占据主导地位,“二次崛起”后的微博仍是娱乐影视的主阵地,是粉丝与主创团队进行互动的首选。下图是“崛起”的全网信息量来源构成。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

除去微博的信息之后,则可以看到除微博(新浪微博和腾讯微博)以外哪些信息渠道关于该剧的讨论量较多。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

由此可以看出,新浪博客、百度贴吧这样的泛娱乐化社区关于该剧的讨论也颇多,前者滥觞于明星入驻,是全国最主流,人气颇高的博客频道之一;而百度贴吧是全球最大的中文社区,是“粉丝文化”的催化剂。百度贴吧的迅速走红,是与“粉丝”及“粉丝文化”的流行紧密相关的,而在“粉丝文化”的发展过程中,百度贴吧也起到了重要作用。

1.2 全网关于“崛起”的关注点

(1)“崛起”的全网信息形成的关键词云

以下是全网关于“崛起”的文本信息的关键词提取,总计有60个,这些关键词来自于媒体报道,抑或用户UGC评论,从中我们可以发现网路上关于该剧的讨论集中在哪些关键点上。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图中可以看出,除了本剧的片名—“大秦帝国”以外,还有一些比较反映该剧特征的词汇,根据笔者对该剧的了解,特挑出其中主要的两类词汇:

  • 剧集相关:“收视”和“收视率”(在无大规模宣传的情况下,收视率一路走高)、“拍戏”、“张博”(饰演秦昭襄王嬴稷的演员)、“导演”、“剧本”、“创作”、“花絮”、“创作者”
  • 该剧的意义:“文化”、“历史”、“陕西”、“国家”、“文明”、“秦国”、“正剧”、“大秦”,(这类词汇能在一定程度上代表该剧想要表达的价值观—居今之世,志古之道,所以自镜,拒绝戏说,尊史重实)

(2) 与“崛起”相关的关联词分析

全网事件的热度信息关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇(关于“共现”的原理介绍,请看《如何用数据分析,搞定新媒体运营的定位和内容初始化?》的第三部分)。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

假若读者看过该剧,从上面的关联词即可看出,该剧的“正剧”属性确凿无疑,是一部独具匠心的佳剧!

(3)与“崛起”相关的热门文章

这里的关于“热门”文章的定义主要是通过三个维度综合得出,即阅读量、转发量和评论量的综合评价。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

上面有7篇个热门文章,它们在全网信息中的综合得分(阅读量、转发量和评论量)最高。从这几篇文章的标题可以看出,它们主要以预告即将播出的剧集的剧情为主,关于剧中主要人物的出场及情节预告居多,由此可见该剧的关注度较高。

1.3 关注网民的人群画像

以下数据来源于选自“头条媒体实验室”,基于今日头条7亿累计激活用户,7800万日活用户(截至2016年12月底)的海量行为数据及文章数据。鉴于今日头条庞大的用户数量,对其相关人群进行分析可以起到“管中窥豹”、“一叶知秋”的效用。如果该用户点击并阅读跟“大秦帝国之崛起”影视相关的文章,则判定该用户对该剧感兴趣。

(1) 关注网民的性别渗透率及年龄渗透率

此处,用渗透率(度)来表示用户对特定事件关注度的比例,而非绝对值。有可能出现的情况是:一个人口稀少的地区有一百个人的人关注了某事件,相比一个人口大省有一万人关注该话题,计算得到的渗透率(度)可能更高。

以下是这两类渗透率的计算公式:

  • 性别渗透率:某性别用户对关键词的关注度/全网该性别用户总关注度
  • 年龄渗透率:某年龄段用户关键词的关注度/全网该年龄段用户总关注度
用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,“崛起”的男观众要多于女观众,当然这也在预料之中。年龄方面,青年群体(18-30)对该剧的热衷程度要比想象中的高,说明在当今这样一个盛行“宫斗撕逼玛丽苏”、“手撕鬼子裤腰藏雷”和“玄幻科幻架空历史”的戏说历史、全民娱乐时代,大家还是蛮希望有良心、有匠心、不浮躁的优秀剧集出现,并不是“劣币驱逐良币”或者是一味的迎合大众口味的“糙剧”。

(2)关注网民的地域分布

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

意料之外,情理之中,这部主创团队(原著小说作者、导演、制片人)全部是“秦人”(陕西人)的影视剧,陕西地区的受众关注度(阅读量、转发量、评论量等)最高。

“大秦帝国”系列电视剧,展现了一幅波澜壮阔的图景:

在一个热血的时代,一个积贫积弱的偏蛮小国由几代秦国人奋发图强,秉承着“赳赳老秦,共赴国难,血流不干,誓不休战”的大无畏精神,历经磨难终于实现大国梦。

出于对祖先的崇敬和身为秦人后裔的自豪,陕西地区的网民对于该剧的关注度高不足为奇。

(3) 关注网民的兴趣图谱

该部分度量了关注“崛起”的受众的整体兴趣情况,同样是根据他们阅读文章的类别(如“科技”、“历史”等)来进行判断的,以此为指标对各兴趣类别在关注该话题的人群中从高到低进行排序。

“用户兴趣”的计算公式:

某兴趣类别的用户对关键词的关注度/某兴趣类别用户总关注度

在这里,兴趣图谱分为3层,越往下分则越细致。结合上面的年龄、性别和地域因素,从这些兴趣图谱中,我们能得到关于受众人群更为深层的洞察。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网
用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网
用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

通过上面对受众兴趣图谱层层递进的“钻取”,我们可以看到,他们主要的兴趣有“国际足球”、“中国古代史”、“电影”、“中国足球”、“NBA”、“购房”和“法律”。结合先前的2个人群画像维度,可以判断出喜爱《大秦帝国之崛起》的人群是一些酷爱历史(尤其是中国古代史)、和运动,且具有一定经济实力的中青年群体,他们具有较高的文化素养。

2“崛起”的热门微博传播分析

在前面的全网舆情分析中笔者有提到,该剧(其实大部分影视剧皆是如此)在微博上的声量极高,所以笔者在这一部分着重描述下它在微博上的声量表现。

其实,造成微博上声量较大的原因,绝大部分是因为用户参与转发或是评论了某条微博,每一条转发和评论都被视为一个用户UGC。而微博文本每天13万的日发博量和短视频每天的32万日发布数量,这两方面每天形成的内容体量是相当庞大的。(新浪微博2016年年终数据)

又因为,微博上“注意力资源”分配极不均匀,少数大V博主拥有庞大的粉丝资源,他们发布的内容往往能引起微博上广大民众的讨论,能造成极大的影响力。

鉴于此,笔者选择了微博上一个关于影视娱乐的自媒体大v—“low君热剧”,该账号曾传播过一条跟“崛起”相关的微博,用户互动较为活跃,权当“解剖麻雀”之用。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

笔者选取了一条带视频的微博,下面的播放量、转发量、评论量和点赞量都较为可观。可以作为微博传播分析的一个例子。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

以下关于该条微博的传播分析,数据来源及相关可视化呈现皆来自于新浪微舆情的微博传播分析(微分析)功能模块。

2.1 传播概况

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

截至分析时间03-18 11:50,@low君热剧 的微博共收获转发数13,393次(其中有效转发10,576次)、 评论数2,209条,点赞数29,646个。

此外,该条微博的覆盖人次为20,260,770,包括原创者(也就是“low君热剧”)和转发者的粉丝数的叠加,当然也免不了重复计算,但整体的传播效果是惊人的。注意,这是没有排除水军的数据。

内容敏感度为0.27%,也就是说,关于该条微博的用户评论中仅有0.27%的评论是呈负面的,这个量很小。

值得注意的是,原创者“low君热剧”自身是此条微博的关键传播用户,这个看起来有点费解,笔者会在下面有详述。

2.2 转发评论趋势

一条微博的传播是有生命周期的。能够十分清晰的观察到该微博转发、评论的发展趋势,微博的互动及散播活跃与否,以及处于生命周期的哪个阶段(引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期和反馈期),对于及时、准确研判事件及舆情走向起到至关重要的作用。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,该微博于03-17 12:05发布后,于03-17 12:30、03-17 23:30达到转发、评论高峰,转发峰值516条、评论峰值34条,此后微博传播速度逐渐降低。

同时,意见领袖也是在该条微博的传播高峰期进行活跃的,图中深黄色的圆圈即代表它们引起的转发量。

2.3 传播层级

转发层级可以看出某个微博传播渗透力的强弱,层级越多,代表话题的渗透性和传播性越强,微博粉丝的参与度也就越高。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

本条微博的传播层级为5级,在传播深度上一般,渗透力不足,说明本话题以及该剧属于小众圈子。

值得注意的是,在剔除掉水军及僵尸粉之类的用户后,该条微博的覆盖人次变更为18,070,952,跟初始覆盖人次相差了100多万的人次数。

在这里,原创者“low君热剧”有重复出现多次,这是为什么呢?请接着往下看。

2.4 传播路径

微博传播路径分析是微博传播分析中的重中之重,分析微博传播路径图能发现其中的关键传播枢纽节点(意见领袖)和识别传播质量。

下图是传播路径图中常见的三种传播节点类型。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

联系Malcolm Gladwell在《引爆点”(The Tipping Point)》中提出的观点,原创节点、传播节点和长尾节点非常接近其表述的、在某类流行事件中的三种主要角色:

  • 联系员:就是那种“认识了很多人的人”,这类人把朋友当作邮票一样地搜集,随时与人保持联系,这个角色可以把信息快速的散布出去。
  • 内行:就是那种“什么都懂的人”,他对某一种知识可以说是“达人”,不厌其烦地把相关的知识与朋友分享,但是却没有很好的说服力。这个角色对某件事情的狂热,使他所发掘出来的事情成为有价值的。
  • 推销员:就是那种“什么人都能够说服的人”这种人没有很深的知识,但是有特殊的能力让见到面的人在短暂的时间就交付信任。这个角色能够把内行发现的东西与人们以简易的语言沟通。

稍有差异的是,处在长尾节点位置的粉丝,多半是被动的接收者,传播层级到他们这里基本戛然而止,但如果长期接收某一类事物信息,他们也会变成该事物的忠实拥簇,会转变为联系人或者内行。

从微博传播分析系统上获取传播节点相关的数据之后,笔者利用复杂网络分析工具Gephi,基于Fruchterman Reingold的力导向算法和Modularity Class的谱聚类算法,得到了如下能反映该条微博传播路径及传播社群关系的微博传播路径图。(Gephi详细使用方法请参看《万字干货|10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”》)

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,“low君热剧”在该条微博的传播过程中出现了很多次,而且其中呈明黄色的枢纽传播节点也是本尊。那究竟它们是同一个账号转发了很多次呢,还是同名但不同账号各自发布了一条信息呢?我们接着往下看。

调出关于传播节点的基础数据,得到下面关于本条微博TOP转发20的列表。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上表可以看出,在转发数TOP20中,“low君热剧”包揽了状元、榜眼、探花和传胪这前四名。第一列的的“发布微博ID”代表某个账号将本条微博重新转发,形成一条新的微博(ID)。因而,“low君热剧”在本条微博的传播中,总共发布了4次,将“联系人”“内行”和“推销员”的角色都过了一遍,而且二次转发效果上佳,不得不说,只有这样粉丝过百万且活跃度极高的微博大v才能这么玩,而且玩的不亦乐乎!

2.5 互动粉丝画像分析

笔者把传播者分为两类,即转发者和评论者,将二者分别进行分析。

一般来说,如果没有水军操作的话,这两类群体的属性应该基本一致。评论者的互动意愿更强,且机器操作的难度较大。

(1)转发者和评论者的性别分析

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,转发者和评论者的性别占比趋近一致,都是女性压倒性的超过男性。貌似和该剧面向的群体不太一样,不过,我们需要知道的是,“low君热剧”平时发布的关于影视剧的微博之类繁复,像《大秦帝国之崛起》这种风格的影视剧不是主流,平时它的画风是这样的:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

这样就不难理解,为何历史正剧互动的女粉丝较多,因为这个大v平时吸聚的粉丝多半是女性群体~

(2)转发者和评论者的地域分布

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图看来,转发者和评论者的地域分布差异较大,转发者集中在东北黑龙江,而评论者主要集中在南方。联系前面的传播路径分析,该条微博人为干预较为突出。

(3)转发者和评论者的兴趣标签

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,该条转发群体和评论群体的兴趣图谱几近一致—都是热爱生活、喜好休闲娱乐的乐活一族。

综合上述关于微博传播分析的5个维度,本条微博的传播有轻微人为干预,不是大面积的商业推动行为,微博传播情况正常。

3 原著相关的文本分析

在本部分,笔者选取了《大秦帝国之崛起》相关的原著小说进行分析,即《大秦帝国之金戈铁马》。

与影视剧不同的是,原著小说交代了秦昭襄王嬴稷上位前的一段经过,比如秦武王讨伐东周并举鼎而亡,以及秦宣太后和嬴稷质于燕,等等。

以下笔者就从文本挖掘的角度来分析一下原著小说、观众影评等方面的文本分析。

不过,在进行正式的分本分析前,需要对原著小说文本进行预处理,也就是词汇替换(同一个人名的不同称谓)、中文分词(一个汉字序列切分成一个一个单独的词)和停用词过滤(过滤掉2类“无意义”的词汇:一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如’你’、’我’、’的’、’或者’、’而是’等;另一类词包括词汇词,比如’想要’、‘打开’等,这些词应用十分广泛,对于揭示特定文本的含义的重要性意义不大)。

此外,还需要统一原著中的人名称谓,将在文本中具有多个称呼的人物统一为一个名称,便于精准的统计人物出现的频次及其相关关系。

人物名称替换表见下表。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

预处理效果如下图所示:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

3.1 原著小说的关键词提取

笔者没采取一般文本分析时所采用的词频统计,因为词频统计的逻辑是:一个词在文章中出现的次数越多,则它就越重要。但笔者采用的是TF-IDF(term frequency–inverse document frequency)关键词统计方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。

以下是该原著小说的关键词TOP300,笔者用电视剧的海报作为词云轮廓,大家可以在词云中看到关键的信息,和电视剧“崛起”做一下对照。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网
用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

在关键词TOP100中,基本上都是跟秦国/秦军相关的词,秦国君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦国的死对头—齐国、赵国和楚国等;一些重要的他国人物,鲁仲连、蔺相如、廉颇、春申君和赵奢等…

等等,“鲁仲连”什么鬼?电视剧里压根没瞧见哪!

这就涉及《大秦帝国之崛起》的原著小说和电视剧本身的差异了,它们的差别是显而易见,甚至在第二部和第三部被“摒弃”出制作团队的原著小说孙皓晖也说,“电视剧相较原著改编幅度太大,完全可以另外取个名字” 。

综合来看,笔者认为,电视剧和原著小说不同之处主要集中在如下方面:

  1. 内容起始不同。原著中第三部以秦武王即位后发动宜阳大战、通三川窥周室为开端,白起在其中崭露头角;而电视剧中将此部分并入了第二部,第三部直接从嬴稷亲政之后开始。
  2. 关于甘茂的结局。在原著中,甘茂因为受到魏冉与宣太后的排挤,愤而离秦,投奔齐国,并为齐国献策,最终因为齐王的昏庸而隐居山野;而电视剧中改为了嬴稷希望为甘茂求得一个善终,于是听从了苏秦的建议,暗中帮助甘茂在齐国谋得上卿之位。
  3. 关于白起的定位。在原著中,白起是本部的第一主角,白起所占篇幅超过任何一个其他角色,而本部的结束也几乎是以白起身死为完结的。在迎立嬴稷的过程中,白起发挥了最主要的作用,同时也展现出白起行事风格的鲜明特色;而在电视剧中,白起的功能大为弱化,大多由樗里疾和魏冉代替,当然这可能跟主演白起的演员王学兵吸毒,补拍戏份太多而被迫删掉一些戏有关。
  4. 对于苏秦这个关键人物的处理。原著中,苏秦原是第二部《国命纵横》中的人物。原著按照《史记》和《战国策》的记载,选用了更为传统的“张苏纵横”之说,使得张仪、苏秦处于同一时代背景,一人合纵一人连横,在为我们揭开纵横大戏的同时,也建立起张苏并雄的双子结构。;而在电视剧中,则采用了与原著完全不同的故事版本,遵从了于1973年在长沙马王堆三号汉墓出土的帛书书,—《战国纵横家书》(成书要早于《史记》和《战国策》)的记载——苏秦主要活动时间在燕昭王时期,一生最重要的事迹,是以“间者”的身份,为燕灭齐。由此,苏秦一改从前史书中“从约长兼佩六国相印”的威风凛凛,而变成一个城府极深、一心间齐、灭齐而凭一人搅乱战国格局的“心机婊”。

不过,他在剧中关于“笃定”和“忠诚”的一段话很是经典,体现了他“一生只奉一人主”的“从一而终”:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

总的来说,电视剧中删去了大量原著中的虚构人物和虚构情节,增加了大量史料中的人物和情节。这种做法无疑对原著的故事性有所破坏,但也增加了故事情节的可靠性和真实性,最大限度的还原历史。但孰是孰非,还是留给书友们/剧迷们去自行判断吧。

3.2 原著小说中的主要人物的社交网络分析

根据上面的人名词典,笔者构建了原著小说中的主要人物社交网络图谱,并对其中较弱的关系及人物节点进行了过滤。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

上图中,每个节点代表一个人物,线条代表人物之间的关系,线条颜色的人物节点代表他们之间有着较为频繁的交往(或友或敌)。节点及其代表人物字体的大小表征的是“Betweenness Centrality中介性核心性)”,该词学术的说法是“两个非邻接的成员间的相互作用依赖于网络中的其他成员,特别是位于两成员之间路径上的那些成员,他们对这两个非邻接成员的相互作用具有某种控制和制约作用“,说人话就是—字体大的人物具有更大的人际关系影响,能接触和影响的人物较多,而在小说中出现次数多的未必就是这类人物,这里的存在感需要以人脉和影响作为基石。

从上图中可以看出,在位56年的秦昭襄王嬴稷无疑具有较强的人际网络关系和影响力,更大的人际关系影响:广纳六国贤才,频繁与六国君王过招,合作连横,翻手为云,覆手为雨,后面迫使六国君主尊他为天子,人际影响力不可谓不广。

其次是赵武灵王—赵雍,这位开创“胡服骑射”的君王,北击匈奴和胡人,并吞中山国,扶植了燕昭王和秦昭襄王2位君主也是开疆拓土,广纳贤才,在六国中拥有广泛的人际网络。

同样的道理,“战国四公子”中的平原君和春申君在六国中的声望较高,人际资源丰沛。

当然,对于统帅赵、楚、韩、魏、燕五国军队伐齐的乐毅自不必说。其他人的情况也类似,无一不具有较强的人际网络关系。

3.3 豆瓣上关于该剧影评的文本聚类和典型意见抽取

豆瓣电影是中国最大与最权威的电影分享与评论社区,收录了百万条影片和影人的资料,有2500多家电影院加盟,更汇聚了数千万热爱电影的人,因而这里关于影视剧的评论能具有一定的代表性和公信力。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

如上图所示,该剧在豆瓣上的评级较高,达到8.5分的分值,其中4星和5星评价站到整个评级里的84.6%,正面评价的比例相当高。

笔者抓取了豆瓣上关于该剧的18068条评论信息,按赞同数的多寡保留了前3000条具有代表性的评论。抓取的数据格式如下图所示:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

经简单处理,用AP算法进行文本聚类得到如下图所示的结果:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

最后,AP算法自动将3000条评论划分成43个类别。

更进一步,在文本聚类的基础上进行典型意见挖掘,得到如下结果:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

选取其中最具代表性的意见(也就是包含文档数最多的意见),即为:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

由上表可知,“豆油”们对于“崛起”的评价主要集中在以下几个方面:

  • 该剧尊重历史,是一部很不错的历史正剧;
  • 该剧制作精良,还采用了比较真实的现场收音(现场录音,有如下好处:最简化音画匹配问题;鼓励演员情感真实到位;保留各种声音与环境音的真实互动。),是一部良心剧;
  • 该剧演员的演技很赞,尤其是饰演秦宣太后/芈八子的宁静。

3.4 《芈月传》和《大秦帝国》中秦宣太后(芈月)的人物形象差异分析

因为这两部剧中都涉及了中国历史上一个有名的女人—秦宣太后,她是第一个自称“太后”并开启垂帘听政的女当权者,且因其传奇而又复杂的情感纠葛而引人注(ba)目(gua)。(注:因正史中并未提及“芈月”,史称“秦宣太后”居多,故笔者在下面仅取后者)

因此,笔者想结合豆瓣影评的相关评论数据,来对《芈月传》和《大秦帝国2、3》中秦宣太后的人物形象进行分析。

为此,笔者爬取了豆瓣上关于《芈月传》、《大秦帝国之纵横》和《大秦帝国之崛起》中涉及秦宣太后及其主演(孙俪、宁静)的若干评论作为分析对象。

以下是关于孙俪和宁静所主演的秦宣太后的评论的文本分析,可以在这张直观的可视化效果图上看到“豆油”们对这两位演员出演秦宣太后方方面面的评价。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

上图中,对于2类评价文本分别按照“高提及率(Frequent)”和“低提及率(Infrequent)”进行了划分。上图若以横纵轴的“Average”进行划分,则可以分为4个象限,右上角的为2类文本提及率皆高的词汇,左下角为二者提及率皆低的词汇。左上和右下仅是二者之一高提及率的词汇。

另外,蓝色点阵代表的词汇属于对“芈月传-孙俪”的评价,黄色点阵所代表的的词汇属于对“大秦帝国-宁静”的评价,右上角的象限二者的评语趋于重合。

可以看到,大家还是对两位主演的演技很关注,其次是剧中演员的讨论:跟孙俪相关的春申君黄歇及其扮演者黄轩、惠文后及其扮演者马苏;宁静这边则是秦惠文王及其扮演者富大龙。

点击“点阵”中的“宫斗”一词,可以看到“豆油”们对2部电视剧及其演员在剧情“宫斗”方面评价的异同:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上图可以看出,孙俪主演的《芈月传》延续了《甄嬛传》中的宫斗情节,“豆油”们评价它“狗血”“狗尾续貂”、“脸谱化”等,负面评价比较多;而在宁静所主演《大秦帝国2 3》评价中,“宫斗”的评价几乎没有,而且大家都会拿前者来做对照,“正剧”是大家对它的评价。

再将2类评论文本中的关键词提取,做成主角所对应的的词云,显示如下:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上面的词云可以看出,“豆油”对于宁静所主要的秦宣太后的评价最具代表性的词是“霸气”、“野性”、“正剧”“不庄重”、“良心”、“气场”、“育子成龙”和“不怒自威”等,评价多为正面,认为宁静主要的太后野性霸气,且具有气场、不怒自威。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上面的词云可以看出,“豆油”对于孙俪所主要的秦宣太后的评价最具代表性的词是 “义渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“绿茶婊”、“玛丽苏”、“矫情”和“宫斗”等,多为负面评价,且对其演技的评价不是很好。

从历史上的记载来看,楚人介于华夏与蛮夷之间,立于东南西北之中,他们的习俗既有蛮夷之异,亦有华夏之同,具有极强的兼容性。楚人确信自己是日神的远裔、火神的嫡嗣,由于日、火均为红色,因而古时楚人富有激情和生命力,张扬不羁。而宁静饰演的秦宣太后很符合这个特征,她之前还主演过《红河谷》中善良而又野性、任性的丹珠,《战国英雄吕不韦》的秦王嬴政的母亲赵姬,以及《孝庄秘史》中热情奔放的的大玉儿(孝庄),这些角色其实与秦宣太后这个角色有很多相同之处。与之相比,出演宫廷内斗局扬名的孙俪在角色塑造方面过于脸谱化,把这个角色演出了甄嬛的感觉。

在“崛起”中,虽然宁静所饰演的芈八子霸气十足,将帝王家的无情、残忍演绎得淋漓尽致,但她是一个顾全大局,一心为国的女当权者,在电视剧片花末尾,更是展露出寻常母亲的心疼与无奈:“为了爱他,我在他心里种下了一个冷血,可我不后悔。”

下面这句话是她教给秦昭襄王嬴稷的,被嬴稷铭记在心,并用刀将“王”字刻在手臂上:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

3.5 原著小说中的若干关键词的关联词分析

在最后,笔者把前面经过预处理得到的小说文本进行词向量处理,将这些词汇映射到向量空间,变成一个个词向量(WordVector),以使这些词汇在便于被计算机识别和分析的同时,还具有语义上的相关性,而不仅仅是基于词汇之间的共现关系。

笔者分别将剧中的“秦昭襄王”、“白起”和“宣太后”做了语义联想,也就是于计算词语之间的语义相似度,找出与之最为相似的TOP20词汇。结果如下表所示:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上表中可以看出,与秦昭襄王嬴稷最相关的词是和他密切相关的人物,如宣太后、白起、王稽和魏冉等。而离自己最近的却是“秦王”二字,但做秦王不易,连他自己也说:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

这和毛主席的那句,“牢骚满腹愁肠断,风物长宜放眼量”有异曲同工之妙,不过这句话还有一层意思,作为深系国家命运的君王,要想成为雄主,就要对自己狠一点!

对于战神白起,与他密切相关的是他的妻子荆梅,电视剧中为赵女赵曼,其次就是秦昭襄王。

说起这对君臣CP,前后相处的景况令人唏嘘。

下面一个是秦昭襄王继位之初,求教白起读书之道和兵法之道的场景:

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

这样的场景可以看出君臣之间的融洽、和谐,从中,我们也可以了解到白起用兵的独到之处—不墨守成规,善于根据实际情况调整战略部署。这也可以解释我为什么在后来的秦赵之战中,白起能打破《孙子兵法》中”十则围之,五则攻之”的兵法黄金原则,而采用50万对50万的“等量包围”策略,获得赢得秦国国运的大胜利。

而最后,君臣之间落了个不欢而散的下场,曾经情同兄弟的君臣关系跌落到了谷底,变得势如水火……

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网
用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

这几句从“成业(成就霸业)”到“得贤(获得贤才)”、“用贤(任用贤才)”以至于“任贤(信任人才)”,层层揭示,步步深入,最终得出成业的关键在于信任贤才的结论,也暗示了白起对于秦昭襄王对自己赤诚之心存疑的不满。

而秦宣太后最为相近的几个词,有自己的儿子嬴稷、同母异父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后来直接导致她失去权力的丞相范睢。

值得注意的是,这里和秦宣太后最为相关的也是“秦王”一词,不过这里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。

最后,按照“或、与、非”的布尔逻辑,进行“与‘秦国’-‘赵国’有关,但和‘楚国’无关”的最相关的TOP20的词汇的计算,得到如下图所示的词汇逆序排列。

用(大)数据全方位解读电视剧《大秦帝国之崛起》-数据分析网

从上面的TOP20相关词可以看出,秦赵两国之间还夹杂着魏国和韩国,后二者与赵国合称为“三晋”,缘起于战国初期韩、赵、魏“三家分晋”。而二国倾举国之力进行正面交锋的导火索正是“上党之争”,上党的得失直接关乎赵国国都邯郸的安危,因而赵国不得不接手这块“烫手的山芋”。

4 结语

看完这部历史正剧,笔者自己的有这样的感慨:

这部说“庙堂的事”的历史正剧,其演员功力深厚,塑造的人物形象饱满。宣太后,魏冉、苏秦、田文、楚王,这些叱咤风云的老江湖,联手教会了秦昭王如何在险恶中生存,在危机中壮大,而秦昭王具有强大的学习能力,迅速汲取着别人的经验和教训,逐步从一个政治手腕稚嫩、备受掣肘的君主成为一个雄霸天下、独当一面的雄主。在这个过程中,他学会了如何在不利的局面下运用谋略,从而实现自己的目的,奠定了秦国崛起东出的霸业。

参考资料

1. 数据来源:新浪微舆情(热度指数查询、全网事件分析、微博事件分析和微博传播分析)

2 .数据来源:头条媒体实验室

3.“大秦帝国之崛起”百度百科官方词条

4.《<大秦帝国之崛起>小说电视剧与真实历史有何差异?》,观察者网的博客

5 .文本数据来源:《大秦帝国(第三部)之金戈铁马》

6.《孙皓晖:要以历史实践为标准评价历史人物》,光明网

7.评论数据来源:《大秦帝国之崛起 (2017)》影评

8.Malcolm Gladwell.《The Tipping Point》

本文作者:苏格兰折耳喵(微信公众号:运营喵是怎样炼成的),数据分析爱好者,擅长数据分析和可视化表达,喜欢研究各种跟数据相关的东东。本文由作者授权数据分析网发布。