从数据挖掘的角度看草榴社区

营造健康上网环境从你我做起

提示:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含不健康信息,营造健康上网环境从你我做起!

采集到的统计数据样本说明

  • 数据来源:CL网站《达盖尔的旗帜》版块100 页内容, 时间跨度 2015060520150907 。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。
  • 8537 条主题帖的标题、发帖时间、每条主题的回帖数量、发帖用户。(共由576个用户生产)
  • 12,8841 张图片的图床绝对链接地址
  • 1,4568 页回复帖
  • 13,0704 条回复的发表用户、回帖日期时间
  • 1,1250 个用户的用户名、注册时间、最后登陆时间

让一起来品味一下这个神秘社区的数据。

8537条主题信息中总共提取出了 576个用户,三个月中平均每个用户发表 14.8篇主题 排名第一的用户发帖数量更是达到了276篇。猜测一下,看来所有的网站都需要一部分活(ban)跃(yun)用(gong)户充实内容啊。 这里面真正的原创帖的比例能占到多少已经不重要了,内容才是王道!!

当我码完这段js代码刷新浏览器查看结果的时候,整个人都不好了!!城会玩!城会玩啊!大家看排名第1和第6的关键词, 把和自己女朋友、老婆XXOO的照片分享出来真的那么好玩儿么。另外,让我们回归到小学语文课,来,请用以上关键词造句…… 你用上面的词组成的句子就是发帖者们所热衷的事情…

可能只看这一张图是没有很大的代表性的,表面上只能看出从8月份开始主题新增数量开始大步的上涨,什么原因导致的呢, 过一会在下面看到用户新增情况图的时候就会恍然大悟,对,大量新用户的加入。

从128841个图片url中提取出来的图片网盘,ihostimg.com 毫无疑问遥遥领先,难道这是CL的副业?这之间到底有什么 千丝万缕的联系我先不瞎猜了,感兴趣的朋友可以自己想办法再去了解(不用梯子也可以访问!)。另外,大家注意排名倒数第二的图片网盘, sinaimg,对,就是你知道的那个新浪,sinaimg是新浪旗下的开放云存储服务, 地址在这 “新浪作为国内10多年领先掌握全国最先进的全分布式系统架构和存储技术之一的公司,为你的 XXOO私密照片存储提供一站式解决方案” 233333

这张图代表的是11250个用户账号分别是那一年注册的,可以看出2007-2010年和2011-2014年这两个时间段相对数量还是 比较平均的,50.6%的用户是在今年注册的,难道今年大范围的开放注册了。有邀请的码的朋友请联系我,求码!求码!

这张折线图和上面的那张基本展示的信息是类似的,分类精确到每个月。

理论上说,只要是网站继续正常运营下去,且无论统计哪个时间段,这个图会一直保持这个状态,统计数据的基础是11250个 账号的最后一次的登陆时间,每次登陆都会用新的覆盖旧的,右边的顶点越高代表了用户重复登陆的次数越多,网站的运营越正常。

130704条回复帖的时间段分布情况,从8月份开始互动明显越来越多。单独看意义不大,只能看到最近互动增多,但是通过与 每日主题发表数量和新增用户图放在一起看,这三个趋势是成正比的,注册用户增多导致新增主题帖增多,不断的新内容产生带动了论坛的 活跃度,从而产生了更多的互动回复内容。

这张图的数据是从13074条回帖时间统计出来的,其实这张图的最终结果和我预计的还是有挺大差距的,原本我以为用户 访问的高峰期会是晚上的9点-12点,而真实的用户在线高峰期顶点确是上午的10点,10点不是大家刚刚开始投入工作的时间么。

后记:

忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图片下载下来,是不是可以作为图像识别系统识别色情图片的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?

出处:http://1024data.sinaapp.com

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
上一篇 2015-11-22 03:11
下一篇 2015-11-22 19:33

相关文章

关注我们
关注我们
分享本页
返回顶部