一号店用户画像分析系统实践

电子商务是互联网应用中发展期最早且模式最为成熟的商业模式，其用户和业务所带来的数据规模不断扩大，如何从大数据获取更大的价值？如何开发出真正贴合用户实际需求的推荐系统？1月9日，在七牛云主办的架构师实践日——瞩目电商：从架构开发到系统优化专场沙龙，一号店架构师王富平为大家一一解答了这些问题。以下是他的演讲实录。

在开场之前，我想先引用梵高的一句话：“我想强调的是，同一个人有多样的自画像。与其追求照相般的相似性，不如深入地发掘相似处”。下图是是当时梵高比较得意时的画像，戴了礼帽，穿了西服，但那时耳朵已经割掉了。我觉得作为一个好的架构师，要有艺术家的精神。时至今日架构发生了很多变化，新语言在不断出现，我觉得没必要把思维停留在某一个方面。

用户画像的定义

用户画像定义使用标签来量化用户特性属性，达到描述用户的目的。用户画像的难点就是数据源，因为你要拿到足够多足够全的数据很不容易，所以要与业务结合，比如说这个人在30天内购买了你的商品，这就是一个标签，但是如果你不参与开发这个系统，你不会想到有这个标签。然后是动态更新，一个人是不断变化的，就像梵高一样，他不同时期的自画像也是不一样的。

假设现有用户画像有姓名、地域两个属性，你将如何使用？

最简单的分析不同性别的群体特征，做特定营销。分析广州、北京、客户的群体特征，分析90后、80后的群体特征。其实这里面有共同点，就是说分类和聚类。京东也好、淘宝也好、一号店也好，我不可能真的每一个用户生成一套推荐方案，我们都是把人分成了一万个类，或者一千个类，我们把你划分到某一个类别里面，在那个类别里面做一个推荐。而且群体特征往往更能反映你的个人喜好，就是说其实人与人之间是有共同点的，也是有异同点的。

分类—聚类：迈出个性化的第一步，用户画像的应用开始

1号店建立用户画像的初衷是来自于《千人千面》项目，简而言之：分析不同群体特征，针对群体进行推荐调整，典型的群体有小区、学校公司等。下图是2015年9月份转化率的数据。我们覆盖面也比较大，目前差不多355家公司，591个行业，覆盖293个城市的4.26万个小区。

1号店从零开始打造了自己的用户画像系统，包含了用户标签画像、用户偏好画像。经历了全量版画像、Storm版实时画像、电商用户标签画像等演进和完善的过程。在两年的时间里，遇到了性能瓶颈、数据质量评估、用户标签的膨胀、画像在精准化营销等应用场景的摸索，一步步成长，在推荐系统发挥了巨大作用。

用户标签画像

我们的用户标签包含基本特征、社会身份、顾客用户生命周期、类目偏好等等。比如说你怎么判断一个人是不是对女装感兴趣，假设我们有一个类目就是女装，那很好办，如果你购买都是女装，那会认为你这个人对女装比较感兴趣。如下图所示。

挑战

我们期间遇到了两方面的挑战：

1.亿级画像系统实践和应用

2.记录和存储亿级用户的画像，支持和扩展不断增加的维度和偏好，毫秒级的更新，支撑个公司性化推荐、广告投放和精细化营销等产品

怎么做到的

1.用户画像算法模型不断优化

2.引入Storm等实时技术

3.主题推荐标签、用户命名实体等新增标签补充进画像

4.HBase的离线和在线分离、Hbase的KV读和Solr的批量读分离、region热点监控和切分

5.数据流不断优化

6.数据存储改进

第一版画像现状

偏好系统包括类目偏好和导购属性偏好两个部分，第一版的偏好系统接口调用数每天达千万次，主要服务于推荐栏位和EMD，但改变的偏好系统存在性能低下，偏好得分分布不合理等问题：

1.运行一次全量的数据更新太慢

2.用户的偏好得分数据分布不合理，得分呈多波峰分布，且在6.0、8.0区间的得分数目几乎为0

3.用户强偏好和弱偏好的阈值界限未有明显规定

4.用户未产生新的行为，兴趣偏好分值将不会发生变化（未按时间进行衰减）

新版画像系统流程

这个很简单，就是大家都能想到的离线和在线，离线要基于用户的行为，产品的信息进行打分，要得到一个个人的偏好，前端提供一个接口，基本上是这样子。

画像模型优化1

关于算法模型做了一些优化，第一个优化就是得分，通过操作得分使它的偏好更有区分性，历史行为应有衰减。你这个得分假设永远是叠加的，这也是有问题的，因为你一个月之前或者一年之前所有的行为，如果现在还影响着你的得分，会有不准确性，所以会有一个历史的衰减得分。偏好得分分布应与用户对类目的权重分布一致，关键是对数据的处理，还有怎么样去调整你的模型。

偏好画像的得分应满足三个条件：