数据分析前的量化工作

如果讲到数据分析前有哪些事是需要我们做的，那么有几个关键词：数据采集、特征提取、数据标准化、数据清洗和数据预处理，这些是常规数据分析前的工作。

那么再来看一下常规数据分析的流程，首先我们会有个需求，中间通过一些阶段，到达数据预处理。通常做数据分析的人员是从这一步开始，拿到数据开始预处理以及数据分析、建模、结果可视化或者是产品的输出。今天我想跟大家分享的是，中间通过的这些阶段，有了需求之后，到数据采集这个阶段，中间还需要利用数据分析方法做的事，包括数据采集中一部分量化的事情，也就是采集前，我们需要量化好后，才能做采集。

首先，需求理解与沟通

我们拿到了需求，这个需求可能是从客户那沟通来的，也可能是领导给我们讲的一句话，讲的过程当中，不同的人，沟通表达的复杂程度完全不同，有些人条理非常清楚、需求罗列，有的人讲的天花乱坠，最后说我的需求就这样，你们自己看着办，非常的发散和开放。

那么这个时候，他的主题可能总结就一句话，我们第一步就是要细化研究类工作。我给大家举个例子：我们早上都在食堂吃过早餐，吃鸡蛋的时候大家可能发现，有的鸡蛋壳容易剥，甚至直接吹就能吹下来，有的鸡蛋壳非常难剥，如果领导问你，利用数据分析，说一下这个问题，你会从哪里入手。

拿到这样一个生活场景里非常小的问题：熟鸡蛋为什么有些难剥有些容易剥？如果你拿到这个问题，你的第一反应是不是，我要数据。然后领导就说你可以回去了。这个数据，是要我们自己设计实现去收集的。

我们常规的数据分析的人员习惯别人提供整理好的数据进行分析，但数据怎么收集，收集哪些数据，通常也是数据分析的工作。

再看第二个例子：基本每一年，媒体都会发布这样的消息，高考后的家庭，离婚率会增加，民政局就很想辟谣这个事情，如果让我们来做，我们可以怎么做。

看第三个例子：很长时间在知乎上特别火的帖子，男女之间有没有纯洁的友谊。

拿到这个需求，作为数据分析人员，第一步，拆解多个子话题（子需求），子需求的拆解并不是凭空想象的，听到这个话题的时候，有多个结论，比如说，知乎上就有几个点赞率非常高的结论，第一个就是，男女之间有纯洁的友谊，越丑越纯；还有人说，等到结婚后就有纯洁的友谊了。因为我们研究的精力有限，我们需要把大的话题拆分成多个，从多个中先选一到两个进行研究。所以我们拆分：是不是所有的男女之间都有纯洁的友谊，还是有些人有、有些人没有；越丑越纯——友谊跟颜值有没有关系，有什么关系，颜值在其中起到多大作用；结婚（更年期）之后才纯洁——友谊跟年龄有没有关系；纯洁的纯度有多高；纯洁的纯度会不会有变化。这些都是经过细化后的子研究内容，然后再去选取内容，收集数据。

第二步，有了研究内容后，我们需要对概念进行操作化。

可能大家没有听说过这些，但我们肯定听过另外一个名词——抽象化或者叫做概念化，把抽象化的过程反过来，叫做操作化。

以鸡蛋难剥这个事情为例，可以操作化拆成两个，鸡蛋的完整度和剥壳的时间，鸡蛋的完整度是测量剥完鸡蛋后还剩下多少。通过概念操作化，我们实现了把宏观概念转化成可测量的微观概念，有了微观概念，下一步，如何测量。剥壳时间直接用表就可以测，那么完整度怎么测呢？剥完之后，鸡蛋的表面可能是坑坑洼洼的，也可能掉了一半等等情况，概念操作化有一套严谨的方法论。抽象化的过程往往不同人做出来的结果是不一样的，重复性比较差，但是操作化，不同人来做，往往重复性非常高，因为遵循了一套理论——概念界定、概念分类、设计自然指标。

经过操作化之后，我们要设计指标以及测量工具。

再来说男女之间纯洁友谊的话题，我们界定一个指标叫做友谊的纯洁度，这个指标也不是一两句话就可以把握的，所以我们要设计一个专门的测量工具。有人可能会说，我做数据分析的，这些推给产品经理做就可以了，通常也确实这么做的，但是掌握数据分析方法分析出来的数据和没有掌握方法出来的数据，往往有很大不同，有着可以落地和不可以落地的差别。

有了测量工具后，接下来需要检验：有效度、难易程度（针对不同人群）、信度、敏感度。

可以利用数据分析方法：项目分析、探索性因子分析、验证性因子分析，聚类分析、IRT等等对测量工具进行验证。如果测量工具无效的话，那么后续都不会有效，所以测量工具的非常重要，这些验证需要两年或者更久的时间，最终得到精简有效的测量工具。当然现在已经有一些成熟的测量工具验证量表了，同样，这些量表在心理学中应用非常广泛。

那么，测量工具检验完，是不是就开始数据收集呢？不是的。

下一步需要进行理论模型设计

在做大数据的时候，包括数据挖掘等相关分析，方法都是涉及一个输入层一个输出层，这是个常规的模型，但是在实际问题中，很多模型都不是这样的，比如贝叶斯模型，我们研究人员肯定不会设计出这些东西，可能贝叶斯、马尔科夫这些都没有听说过，只有懂数据分析方法的人，了解这些方法，根据我们的业务，涉及多少关系，关系是单向还是双向的，等等，这样的图首先是懂数据分析方法的研究人员设计出来，接下来才会进入到数据收集阶段。

数据收集可以在网上爬虫、直接从数据库导入数据、线下采集等途径。

这里还要提及抽样方法，抽样的方法有很多种，通过不同理论模型选取不同的抽样方法。举一个案例：北方到冬天会有暖气，采暖就会产生空气污染，那么暖气对人的寿命会不会产生影响呢？

我们如何用数据分析的方法验证这个事情，数据我们要怎么取呢？我们常规的思路是在北方和南方各找一些人，看看暖气对寿命会不会产生影响。

但是这里涉及因果关系的验证，因果关系在关系中有三个前提，第一个是，两个事件必须相关；第二个是，原因事件必须发生在结果事件之前；第三个就是，需要控制住干扰因素。

这个案例，有学者在常规方法基础上提出改进和创新，叫做断点回归。他不是在北方和南方去抽，他在中国的南北分界线的地方抽取，我们知道，寿命跟很多因素有关系，选择淮河两岸的人员，可以有效保证他们生活的环境等因素大致相同，然后他得到结论，有暖气会让人的寿命减少5.5年。上不上一本对未来发展有没有影响，影响有多大？学者选取某省一本线的曲线，上下加减5分，在这个10分带中，人的未来发展差别。同样，这个案例也是利用断点回归的方法。在现实其他场景中，人们一般会考虑多个因素，那么涉及多个因素的所有人群是不是都要包含呢？其实不是，日本统计学家发明一种正交设计方法，挑取特定的覆盖特征数据进行采集。

接下来，数据二次抽样。

吉野家在做各种促销活动，有次对营销平台进行改进，实验组，把展示图片换成性感女模特的照片，配上宣传文稿；对照组就用普通的图片配上文字。得到促销结果令人十分意外，实验组促销比对照组要低得多，找原因，利用二次抽样，二次抽样的方法有PSM模型，这个方法使对照组和实验组数据一一匹配，可以有效解决样本选择性偏差。

上边就是数据分析前，需要大家做的各种量化工作。

本文为特邀专栏文章，来自：融智未来，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/74215.html 。