数据分析系列篇：数据采集哪家强？

说到我们要做数据分析，没有米下锅怎么行？没有数据，我们还怎么做数据分析？前几天有个哥们在现场就问我，说我们是一家创业公司，我们也非常想做数据分析、机器学习这些，但是我们没有数据啊！这可怎么办？我们也不懂这些数据从哪儿来，更不懂技术方面的东西，公司也就几个人，还都是从传统公司或者刚毕业的。

当时我就给他打了个比喻，这就有点像我们没米怎么煮饭一样。如果真的没米了，我们可以自己去种稻，也可以去菜场上买米，也可以拿其他东西和别人家做交换，也可以吃小麦。

那同样，我们没数据，那就要想办法去搜集数据啊。如果你是个spy man，那肯定也要各种搜集情报。

我们常见的数据收集分内部和外部两方面：

1.内部：

a）历史log日志+会员信息；

b）基于基础标签特征预测；

c）集团各业务、子公司数据等。

2.外部：

a）爬虫采集引擎；

b）数据购买；

c）合作公司数据交换；

d）收购兼并公司；

e）营销等手段。

针对内部已有数据这些自不必多说，谁都会。重点说一说我们常用的网络爬虫方式。

在这块数据采集基于本身需求的规模，如果是大规模的维护系统，可以用专门的采集引擎,比如基于apache服务器的nutch。

如果以填充网站为目的，觉得哪个网站的内容好，想借为已用，这种需求随机灵活，而对抓取量又不太高的采集，可以采集python的爬虫工具scrapy。

当然php也有可以实现各种网站抓取的方式，但是似乎没有成型的框架，因为抓取本质是基本网络协议，http什么的，所以你对这些协议了解的清楚，又懂一些脚本语言，基本都会画出一个可以实现你需求的采集的工具。但是效率就千差万别了。框架会提供你完善采集的多元素补充，你几乎涉及到采集应该处理的全部问题，它都给你提供了对应的方案，你有耐心死扣方案，总能读懂他传授你的意思，然后按理为之，就可以不断把自己的爬虫实现起来。但是采集只是数据处理的一个环节，采集之后如何对数据提纯精炼，基于自己商业化目的的导向，可能还涉及到知识产权等问题，当然这不是技术采集考虑的层面了。至于数据的分析，当然，我都是用python多一点，python提供了许多内置的math函数处理库，比如说numpy,scipy,matplotlib,这些网上都有对应的使用教程，入库或把采集到的数据按这些组件可以处理的格式保存，然后把数据导入进来，就这样折腾折腾。

另外对于初级用户，介绍下现成的工具：
火车头
火车头应该是国内采集软件最成功的典型之一，使用人数包括收费用户数量上应该是最多的
优点：功能比较齐全，采集速度比较快，主要针对cms,短时间可以采集很多，过滤，替换都不错，比较详细；
技术：技术主要是论坛支持，帮助文件多，上手容易。有收费、免费版本
缺点：功能复杂，软件越来越大，比较占用内存和CPU资源，大批量采集速度不行，资源回收控制得不好，受CS架构限制

发源地
可能大部分人还不知道，这是我自主研发的，以前一直用爬虫写程序，java、python等，后面觉得很麻烦，就捣鼓着要做的简单一些，然后就没法收手了，最近一直在进行产品迭代。
优点：功能聚合性强、速度快、saas架构、数据可预览、数据规则市场、api等多种输出方式、免费
缺点：知名度还比较低

三人行
主要针对论坛的采集，功能比较完善
优点：还是针对论坛，适合开论坛的
技术：收费技术，免费有广告
缺点：超级复杂，上手难，对cms支持比较差

ET工具
优点：无人值守，自动更新，适合长期做站，用户群主要集中在长期做站潜水站长。软件清晰，必备功能也很齐全，关键是软件免费，听说已经增加采集中英文翻译功能。
技术：论坛支持，软件本身免费，但是也提供收费服务。帮助文件较少，上手不容易
缺点：对论坛和CMS的支持一般

海纳
优点：海量，可以抓取网站很多一个关键词文章，似乎适合做网站的专题，特别是文章类、博客类
技术：无论坛收费，免费有功能限制
缺点：分类不方便，也就说采集文章归类不方便，要手动（自动容易混淆），特定接口，采集的内容有限

狂人
优点：非常适合采集discuz论坛
缺点：过于专一，兼容性不好。

本文为特邀专栏文章，来自：数据分析侠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/10672.html 。