分析了自家150个ML模型之后，这家全球最大的旅行网站得出了6条经验教训

在许多媒体文章中，我们都能看到「机器学习赋能 XX 行业」的字眼，但这种「能量」究竟体现在哪些方面，企业在引入机器学习模型的过程中要注意哪些问题，很多文章都没有说清楚。在今年的 KDD 大会接收论文中，全球最大的线上旅行代理网站 Booking.com（缤客网）贡献了一篇论文，分析了他们面向客户的 150 个成功的机器学习应用以及从中得到的六条经验教训。本文是对这篇论文的简短总结。

åˆ†æžäº†è‡ªå®¶150ä¸ªMLæ¨¡åž‹ä¹‹åŽï¼Œè¿™å®¶å…¨çƒæœ€å¤§çš„æ—…è¡Œç½‘ç«™å¾—å‡ºäº†6æ¡ç»éªŒæ•™è®

「150 successful Machine Learning models: 6 lessons learned at Booking.com」是一篇绝佳的综述，它结合了 Booking.com 大约 150 个面向客户的成功的机器成功应用以及从中得到的经验教训。奇怪的是，虽然论文的标题这么写了，在正文中却从未明确列出这 6 条经验教训。不过，我们可以从论文的划分中推断出这些部分，以下是我的解读：

使用机器学习模型的项目会创造巨大的商业价值
模型的性能不等同于经营业绩
弄清你正在尝试解决的问题
预测的延迟是个重要问题
及早获取模型质量的反馈
用随机对照试验测试你的模型的商业影响力（第二点中也有提到）

当然，这篇论文中的好建议可不止这六条。

我们发现，发挥真实的商业影响力极为困难，更何况，将在建模方面所做的努力和观测到的影响力之间的联系分离开来好好理解原本就是一件难事。我们主要的结论是：要用机器学习打造出这 150 个成功的产品，其根本在于，要有一个迭代的、由假设驱动的流程，并结合其他学科。

别把这段引文解读为不值得在机器学习上投资。与之相反，我认为正如 DevOps 的现状报告中所提到的高效能组织具有的所有其它特质一样，提升一个组织设计、构建以及在面向用户的场景中成功部署机器学习模型的能力，对于提升该组织的竞争力有根本性的作用。（而且，如果能在未来的报告中看到有数据证实或者证伪那个假设，不也是很有意思嘛！）

Booking.com 在构建模型时需要解决那些问题？

你大概听说过 Booking.com，「世界上最大的在线旅行社」。给用户传递良好的旅行体验是个有挑战性的任务，主要有以下几个因素：

推荐的风险很高——预订到一个错误的住处，可比播放一部你不喜欢的电影糟糕多了！

用户在预订旅程的时候，对于他们真正期待的东西往往没有给足信息。

住宿的供给受限，价位变动会影响住客的选择倾向。

住客的选择偏好在他们每次使用平台的时候都可能发生变化（比如说，如果每年只预订一两次）。

住宿的相关信息过多，用户无法及时消化。

这 150 个模型都是什么模型？

目前已经有大约 150 个机器学习模型部署到了生产中，因此，机器学习已经触及了 Booking.com 用户体验的方方面面。有些模型非常具体，聚焦于特定背景下的特定情形；另外一些模型则像一个语义层，对某些在多种语境下都能派上用场的概念进行建模，比如基于用户旅程的终点预测该用户灵活性的模型。

Booking.com 所使用的模型可分为六个大类：

旅行者偏好模型：在语义层工作，对用户的偏好做出各种预测。（如灵活度）
旅行者背景模型：同样在语义层，预测旅程发生的背景（如家庭出行、与朋友出行、商务出行、……）
条目空间导览模型：追踪用户的浏览记录，使得推荐能整体考虑用户个人历史记录和整个目录。
用户界面优化模型：优化背景图片、字体大小、按钮等 UI。有趣的是，「我们发现没有某个特定的值是整体最优值，所以我们的模型会根据背景和用户信息，来确定最佳的用户界面。」
内容策展模型：策划并选择性地展示人工生成的内容，如评论。
内容扩充模型：计算一个旅程所含元素的附加信息，如当前哪些选择物超所值，或者某个区域内的价位趋势。

经验教训 1：使用机器学习模型的项目会创造巨大的商业价值

在 Booking.com，以上各类模型都提供了商业价值。而相比其它那些没有使用机器学习的成功项目，基于机器学习的项目往往创造出更高的回报。

图 2：各类模型相对于影响力中位数的商业影响力

而一旦投入使用，除却即刻的商业利益，它们往往会继续成为产品进一步发展的基石。下图显示了一系列产品部署的影响力，每一个都基于前者，又继续改善商业产出。

图 3：关于某推荐产品的一系列实验。每个实验测试了一个专攻某个领域的新版本或某个机器学习问题的设定。条形的长度为相对于初版的观测值（都有显著的统计学差异）

经验教训 2：模型的性能不等同于经营业绩

Booking.com 通过随机对照试验衡量模型在某些商业指标上的影响力，以此来预估模型产生的价值。

我们有一项有趣的发现：提高模型的性能未必就能增加商业价值。

原因可能有以下几点：商业价值的饱和（无论你做什么，都没什么再能榨取的了）、受众较少导致的部分饱和（新老模型效果大致相同）、对某些不能成功转化为商业指标（如转化率）的间接指标（如点击量）的过度优化、以及下图中所阐释的恐怖谷效应（人形玩具或机器人的仿真度越高人们越有好感，但当超过一个临界点时，这种好感度会突然降低，越像人越反感恐惧，直至谷底，这种效应被称为恐怖谷）。