大数据建模的自主和外包，边界到底在哪里？

很多企业的IT工作都存在外包现象，其中一个工种是比较特殊的，BI分析或大数据分析，按照性质又可分为四种，功能型的支撑、事务性的支撑、仓库模型支撑和数据挖掘的支撑，功能性的支撑就是建设一个BI系统或工具，事务性支撑泛指报表、取数、运维等例行性的工作，仓库模型支撑是指数据的归集和整合，数据挖掘则更多体现为数据分析和知识发现，但这四者经常混为一谈，统称数据分析支撑。

有的些企业将这类工作全部外包，自身的人员只做管理，有的企业则全部自己做，比如很多互联网公司，有的则处于中间状态，部分外包部分自己建，那么，外包和非外包的边界在哪里？在大数据时代，是否情况又发生了新的变化？

在表达看法之前，笔者先讲一个理论，再讲几个故事：

我们来理解下交易成本这个概念：交易成本就是你从自由市场上寻找、沟通、购买一项服务，为这个购买能够达成，所付出的时间和货币成本。通常来说，交易成本包括搜寻成本、信息成本、议价成本、决策成本、监督交易进行的成本等等，交易成本的概念，由科斯提出，由威廉森系统化，这两个人获得过诺贝尔经济学奖。

科斯的交易成本理论，回答了经济学家一直争论的一个问题：企业的边界在哪里？企业应该做大还是做小？

科斯说，是交易成本与管理成本的对比，确定了企业的边界，交易成本越低的事情，越应该外部化，管理成本越低的事情，越应该内部化。

比如为什么亚马逊用FedEx作为物流支撑，而京东要花巨大成本构建自己的物流体系？

因为美国的物流体系已经非常发达，可靠度也非常高，亚马逊可以很放心地用相对低的价格，购买到高品质的物流服务。因为成熟，交易成本，比如搜寻成本、决策成本等，都很低，自己做呢，第一，不一定做的比FedEx好，第二，自己组织团队来做的管理成本，可能比从外部购买的交易成本更高，所以，亚马逊用公共物流体系，而不是自建。

而京东对物流的速度、品质要求非常高，它想在中国市场上搜寻到符合条件的公众物流公司，非常难。议价成本、决策成本，尤其是监督交易进行的成本，都会非常高，虽然管理很麻烦，但是自己组织团队来做的管理成本，还是比从外部购买的交易成本更便宜。所以京东选择自己来做。

又比如共享单车这个事情，到底是自己买辆自行车方便还是租用共享单车方便？

也可以用这个理论解释下，自己买自行车除了买车的成本，还包括了维护成本，安全成本，携带成本，停放成本等等，这个管理成本太高了，而每次租用共享单车其实交易成本不高，因此现在越来越多的人习惯于租自行车而不是自己买了，比如我家买的山地车已经几年没骑了，因为被盗的成本很高。

好了，如果你理解了这一点，让我们言归正传说说大数据建模自主和外包的问题。

一项建模工作能外包，最好是交易成本足够低。

交易成本怎么才能低呢？

比如双方的人员工作界面比较清楚，交付物没有歧义，结算也比较简单，最好不要留有尾巴，能够计件薪酬的最好，根据以上的原则，交付一个BI系统，完成一个报表取数，买人头做维护比较容易外包，因为交易成本比较低。

但仓库模型和数据挖掘则比较难，为什么？

因为这类工作交易成本是很高的。

首先，数据仓库和数据挖掘的行业垂直特性非常明显，其建设的好坏跟企业现有的的业务和数据相关性太大，决定了其在特定行业的稀缺性，你在市场上很难找到能理解你企业的业务、数据的人员，当然有部分外包人员对于行业的理解甚至超过了本行业的大多人，但这不具有统计学意义，一般来说，凡是打上了深刻的行业烙印的工作都是不适合外包的，也许保安能外包、食堂能外包、外呼能外包、甚至产品能外包，但绝对不可能外包营销策划工作。

有这么一个生动的故事：

一天，一个农民赶着一群羊在草原上走。迎面碰到一个人对他说：“我可以告诉你，你的羊群有几只羊。”他用卫星定位技术和新的网络技术将信息发到总部的数据库……片刻后，他告诉农民共有1460只羊。农民点头称对。随后，他要求农民给他一只羊作为报酬，农民答应了。不过农民说：“如果我能说出你是哪家公司的，您能否把羊还给我？”那人点头。农民说：“你是麦肯锡公司的。”那人很惊讶地问农民是怎么知道的。农民说：“有三个理由足以让我知道你是麦肯锡公司的：1、我没有请你，你就自己找上门来；2、你告诉了我一个早已知道的东西，还要向我收费；3、一看就知道你一点都不懂我们这一行，你刚刚抱走的那只根本不是羊，而是只牧羊犬。”

现在人工智能很火热，但是很多垂直行业的人工智能工作其实也是不适合外包的，互联网公司大力推进的人机交互技术，很多程度上是要让自己在流量入口抢夺上占据先机，但大多数企业其实没有这类特定的使用场景，他们需要的是针对这个行业的专用的人工智能，解决这个行业专业的问题，我们有时候甚至会陷入为人工智能算法找场景的困境，这是有深层次原因的。

其次，由于数据仓库模型和数据挖掘对于迭代的要求很高，外包的“你付钱，我工作”的交易模式显然有点不划算，即使当初做出了很好的模型，比如通过一个项目，但铁打的营盘流水的外包，意味着模型的优化很难得到长期高质量的维护，传统BI时代数据挖掘项目效果很多不理想，仓库模型几年推倒一次，这种交易成本的确有点大。

再次，数据挖掘等工作非常强调主动性和创新性，但一般企业不会为外包人员的创新性额外买单，大多会认为创新是支撑工作理所当然的，但创新实际就意味着风险，企业一般无法容忍外包去做可能没成果的事情，因此外包会倾向于保守，不求有功但求无过，但数据挖掘一旦缺失了创新基因就很难有大的突破，原来的交易成本相对就显得过大了。

最后，由于外包人员受企业和外包企业双重管理，一方是以为自己的业务创造更高的价值为导向，一方是以最小的代价获得最高的利润为评估标准，这两者要达到共赢挑战很大，很多探索性，创新性的免费项目往往由于外包企业的资金压力不了了之。

由于以上一些原因，在数据仓库和数据挖掘对外交易成本相对变高的情况下，也许企业可以考虑自己做，企业传统业务的最好的数据挖掘师一般也在内部，笔者所在企业组织了很多次建模大赛，最适合的模型往往是具有丰富业务和数据经验的企业内部人员创造的，其实数据仓库建模一样，谁最有可能设计出一张好的宽表呢？大多是企业内部的经营分析人员。

虽然企业自己培养人才、自己建模增加了管理成本，但从长远来看可能是合算的，当前管理的阵痛换来的是一个光明的未来，特别是在大数据这个讲究快速，个性化的时代背景下。

但是外包和自建这个平衡点不好找，比如大多传统企业不大可能培养或拥有这么多的建模师，一定程度上还是需要依靠外力，这里笔者就给出一些原则建议，当然仁者见仁，智者见智。

1、对于拥有一定数据规模的企业，数据仓库模型不能外包：数据仓库模型属于企业的核心数据资产，是数据中台的核心，企业再没有人，只要你有数据仓库，就必须腾挪出资源来构建自己的模型团队，家当必须掌握在自己手里，曾经看到做数据模型的外包企业以核心机密为由不对其他合作伙伴开放数据字典，这对于企业也是巨大的讽刺，就好比你家的数据资产账本放在别人家里，但这种现象确实存在。

2、传统业务的数据挖掘不值得外包：针对企业传统业务的数据挖掘尽量不要外包，因为外包了大多也做不好，如果的确人手不够需要外包，就要有这个心理准备，不会比企业自己的人做得更好，性价比最高的就是让企业内部人员来，比如企业自身的数据人员对于一个数据的异动会想到也许是某个促销造成，但外部的建模师可能以为找到了一个天大的数据规律。

3、创新型业务则鼓励多方唱戏合作共赢：针对新型业务的数据挖掘可以外包，因为对于这些业务，没有存量的包袱，企业内和企业外都处于同一起跑线，为了促进创新业务的快速发展，需要依靠多方外部力量，现在很多互联网企业在大数据领域开疆扩土，对于大数据建模人员求才若渴，很多是新增业务的驱动所致，而不是去搞老的业务。

4、数据的培训和运营可以外包：很多企业的人员对于数据和业务熟悉，但往往不理解算法，不会使用工具，不会操作大数据平台，不懂好的运营手段，而这些能力往往比较通用，因此可以充分利用外部的力量来补足自己的短板，所谓“搭台唱戏”，这个台可以让外部人员来一起搭，让外包人员成为企业的使能者。

5、外包团队选择至关重要：数据挖掘要产生价值是个长流程，外包企业合作需要是战略性、长期性的，而不是打一枪换一个地方，外包人员必须自己直面客户并为结果负责，而不是为过程负责，外包团队需要有更为开放的文化，能够充分理解客户的诉求，因此外包团队的选择重要性要远远大于进来后搞一堆的外包管理制度，在当下低价中标越演越烈、主动性和创新性又难以有效量化的情况下，要引入一家性价比高的数据服务企业很难。

当然，企业也要处理好自身人员与外包人员的关系，人家是来帮助企业开疆扩土的，不是来顶替自己的建模师的工作的，很多时候，企业的外包人员能力成长很快，而自身人员却停滞不前，这会让企业在技术上丧失主动权，交易成本实际上很大。

在这个大数据时代，无论是企业还是个人，必须找到那些你自己做，比市场更高效的事情，建筑你的核心竞争力，而把那些你做的其实一般的事情，尽快扔回给市场，要有所为而有所不为。

本文为特邀专栏文章，来自：与数据同行，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/56388.html 。