达观数据于敬：推荐系统实践与优化

大家晚上好，我是达观数据的于敬，很感谢infoq提供了这个机会，分享下达观数据在推荐系统方面积累的一些经验。我本人曾先后在盛大创新院、盛大文学和腾讯文学一直从事智能推荐系统相关的研发和效果优化工作。

今天的分享内容主要包括以下三部分：

1）推荐系统概述
2）达观推荐系统架构
3）推荐系统效果优化

达观推荐系统架构

接下来是第二部分，达观推荐系统架构，主要介绍下达观数据推荐系统的层次结构、如何近实时捕捉用户行为反馈以及推荐效果展示

首先，我们从整体上看下达观数据推荐系统的层次结构。

从图中的系统框架图可以看出，整个推荐系统从下往上依次可分为：基础层、模型层、算法层、组合层和应用层。在具体的业务场景中，这种层次结构和实际的数据流向是对应。从最底层的数据存储，经过一层一层的数据加工，最终在顶层的应用层，汇总成最优化的推荐结果，按照指定格式对外提供服务。

1）基础层，主要包括数据生成、传输、预处理和存储。

数据的采集有多种方式，包括HTTP方式的上报、服务器日志打印、SDK采集、爬虫爬取、FTP拉取等。为了保证后续使用的数据一致性，需要通过不同的管道方式进行传输，将原始的数据汇总到一起，并生成统一的规范化格式，如用户多种ID的归一。

数据不仅包括基本的用户和物品数据，还包括各样各样的用户行为数据，如用户的注册、登录、浏览、点击、购买、收藏、打分、评论等。

另外，在原始的数据源中会混杂各种各样的噪音数据，一方面是在数据采集和上报的过程中，出现一些异常数据，另一方面也包括系统上线运行时所产生的作弊数据。所以在数据存储前需要进行深度清洗。

数据采集和上报的异常数据，需要结合数据库表结构和实际场景做过滤，如空值检查、数值异常、类型异常、数据去重。另外，对于 “人为”的噪音数据，如刷点击、刷榜单等行为，这些关键数据会严重影响后续算法的效果，需要有一些反作弊策略进行清除或者降权，如进行session分析，结合cookie、ip、行为发生的时间和次数等一些规则进行过滤。

2）模型层，主要是包括生成用户和物品画像以及建立各种底层的数据模型。

用户画像包括两方面信息，一是通过多种方式采集到基本人口统计学信息，二是通过对海量用户行为数据进行深入分析和挖掘，从多个维度来描述用户的基础属性、标签及兴趣点等，如对品牌、标签和类别的偏好，清晰并且准确地勾勒出用户的轮廓概貌。这些数据帮助企业更好了解用户行为路径，明确用户流失情况和原因，为应用方的产品功能优化决策提供可靠参考依据。

物品画像除了包括基本信息，对于服装而言如名称、类别、标签、品牌、尺寸、适合年龄和性别等，还包括各种维度的指数数据，如衡量新商品的潜力指数、衡量商品历史销量的吸金指数以及全局热门指数等。

其它模型包括基于历史商品销售数据的销量预测模型、基于流失用户数据的预流失模型等。

3）算法层，包括各种推荐算法以及多种强规则策略。

推荐算法是将物品推荐给用户的纽带，基于各种各样的算法生成待推荐的物品集合，作为最终的候选集输入到组合层。其中应用最广泛的是基于内容的推荐和协同过滤。

a）基于内容的推荐

主要过程是将推荐物品的信息特征和待推荐对象的特征相匹配的过程，从而得到待推荐的物品集合。匹配算法很多是借鉴了信息检索领域中的技术，如K最近邻KNN和Rocchio的相关性反馈方法。

基于内容的推荐方法，优点是能保证推荐内容的相关性，并且根据内容特征可以解释推荐结果，而且对新物品的推荐是也能有很好的考虑，也不需要专业的领域知识。另一个重要的优势，是基于内容的推荐能很好的解决推荐系统的“冷启动”问题，因为这类推荐算法不需要依赖用户行为的积累。当待推荐的物品是新出现时，基于内容的推荐算法往往是最有效的方法。缺点是由于内容高度匹配，导致推荐结果的惊喜度较差，而且对新用户不能提供可靠的推荐结果。对稀疏数据、复杂属性的处理等问题的推荐结果不够理想。

b）协同过滤

主要思想是基于群体智慧，利用已有大量用户群过去行为数据来预测当前用户最可能感兴趣的东西。这种方法克服了基于内容方法的一些弊端，最重要的是可以推荐一些内容上差异较大但是又是用户感兴趣的物品。构成CF(Collaborative Filtering)的两种主要技术：基于领域的方法和隐语义模型。

基于领域的方法重点关注物品之间的关系或者用户之间的关系，基于物品的方法是根据用户对和他感兴趣的物品相似的物品评分，来对该用户的偏好物品建立模型。隐语义模型采用的是另外一种方法，把物品和用户映射到相同的隐语义空间。这个空间试图通过描述物品和用户两种实体在因子上的特征来解释评分，而这些因子是根据用户的反馈自动判断出来的。

用隐语义模型来进行协同过滤的目标是揭示隐藏的特征，这些特征能解释观测到的评分。该模型包括pLSA（Probability Latent Semantic Analysis）模型、神经网络模型、LDA（Latent Dirichlet Allocation）模型，以及由用户-物品评分矩阵的因子分解推导出的模型（也叫基于SVD的模型，Singular Value Decomposition）。由于矩阵因子分解技术在线上业务的准确性和稳定性的突出表现，已经成为协同过滤算法的首选。

4）组合层，主要是对算法层的结果数据进行重排序。

推荐系统需要面对的应用场景往往存在非常大的差异，例如热门/冷门的内容、新/老用户，时效性强/弱的结果等，这些不同的上下文环境中，不同推荐算法往往都存在不同的适用场景。不存在一个推荐算法，在所有情况下都胜过其他的算法。而融合方法的思想就是充分运用不同分类算法各种的优势，取长补短，组合形成一个强大的推荐框架。

由于排序过程牵涉到各种维度的参数数据，导致调参费时费力，而且很可能会出现过拟合现象。而机器学习方法不仅有成熟的理论基础，而且很容易融合多种特征，通过不断的迭代来进行参数优化，可有效解决数据稀疏、过拟合等问题。

经过多个推荐算法的处理，最终得到待推荐物品的结合，使用少量维度的特征进行排序过于简单，效果也大打折扣。基于推荐算法得到的相关特征，结合物品和用户的特征进行组合，可以得到各种特征，并且有些特征是正相关有些是负相关，需要不断优化。借助机器学习方法得到了最终的物品排序，呈现给用户。

5）应用层，主要是按照不同的推荐类型，将推荐结果通过API调用的方式返回，包括个性化推荐、相关推荐和热门推荐。

高质量推荐系统的一大特点是能在高并发的情况下，快速响应用户行为反馈。用户的信息诉求受很多因素影响，如时间、场景、心情等。用户心情有低落有兴奋、在地铁上还是在办公室。达观数据推荐系统采用三层结构，根据用户点击反馈实时挖掘用户兴趣，最快最准的满足用户信息诉求。

受制于硬件资源和时效性因素，推荐系统的性能也面临诸多考验，体系结构也需要优化到极致。数据量急剧增加，每天采集到的物品数据、用户数据以及海量的行为数据，对计算资源都是极大的挑战，而且数据变化很快。hadoop集群的运算能力也是有限的，分布式计算的时效性也跟不上用户实时的信息诉求。

达观数据推荐系统三层体系借鉴了信息检索领域思想，采取online-nearline-offline的结构。主要思想是让最珍贵的资源留给高价值的user和item。Online模块采用负载均衡，负责及时响应API请求，并返回推荐结果，保证高可靠高并发。Offline基于hadoop集群对海量数据进行深入挖掘，承担高负荷的算法。Nearline模块主要是填补Online和Offline之间的空白。作为Offline的补充，保证快速响应点击反馈数据。作为Online的补充运行一些轻量级的算法。

三层体系协同工作，保证了推荐系统的高可靠、高并发的性能；同时高负荷和轻量级的算法并举，秒级响应用户行为反馈，保证了推荐结果的精准。

推荐系统效果的好坏有多种维度，结合到实际的业务场景，一般是选取主要的几个指标进行量化，通过不断的迭代和AB测试来优化推荐系统。

达观数据个性化推荐点击率提升了3倍、付费金额提升了60%……推荐系统不仅极大的改善了用户体验，满足了用户的信息诉求，同时也增加了用户粘性、减少了用户流失，提升了企业经济效益。

达观数据于敬：推荐系统实践与优化

推荐系统概述

达观推荐系统架构

推荐系统效果优化

你可能也喜欢这些文章