1. 数据分析网首页
  2. 大数据
  3. 数据挖掘

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

当产品的订购或下载明显上升,需求量逐步扩大,营收业绩稳定增长,那么产品将进入发展时期。这时,产品经理应重点关注和考虑用户和产品之间的关系,了解哪些产品是经常被一起购买的,购买与不购买某类产品的用户特征又是怎样的。

通过挖掘产品横向之间的关联关系,分析出不同产品之间的内在共性,产品经理可以根据研究结果设计出针对性的产品组合,以此促进产品的订购和使用,为业务交叉销售或捆绑营销提供分析基础。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

在具体研究过程中,则需由产品经理和数据分析师相互配合、共同完成。首先找到产品与产品之间的联系,发现一些满足强关联规则的产品组合,然后过渡到用户和产品之间的关系,进一步确定产品组合所面向的目标用户群体。

一般来说,从用户基本属性、订购行为等维度,来考察用户在产品购买、使用消费等方面的情况,同时还要借助关联规则和决策树的数据挖掘模型,以达成分析目标。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

确定好分析目标后,接下来的数据预处理重点在于处理采集数据过程中存在的若干问题,主要由数据分析师来完成。

在提取样本数据时,其中的用户基本属性描述了年龄、性别等用户特征;产品订购行为数据包括用户订购或购买了哪些产品等。产品经理需要辅助数据分析师理解业务需求,并确认变量字段以及统计周期,以便更好地完成数据准备的工作。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

除了采集样本数据以外,为了确保数据的有效性和完整性,还要对样本数据质量进行必要地检查及校验。一般会借助补充空缺来填补变量中的缺失值,通过格式统一将收集到的原始数据转换成构建数据模型中所支持的格式,利用数据降噪过滤掉样本比例为极端值的变量。如上所示,产品变量里的手机交友,使用比例为95.2%,所占比例太高应该剔除。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

产品组合分析,顾名思义,就是研究那些同时出现被订购的产品组合,即要找出那些产品间存在的某种联系。此处所指的联系可以看成一种关联规则。关联规则的形式形如A→B,其中A和B为单个或多个产品,A称为前项,B称为后项,表示如果事件A发生时,那么B也倾向于发生,也就是说购买产品A的人也有可能购买产品B。值得注意的是,关联规则要同时确保前项A和后项B之间没有重合的项。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

在关联规则的算法实现过程中,首先产品经理要与数据分析师相互配合,共同明确产品组合的业务需求和分析目标,即业务需求问题转化为内部数据分析的问题,然后产品经理帮助数据分析师理解业务需求及目标,并确认挖掘结果,最后根据关联规则的结果,为产品交叉销售、捆绑营销和细分筛选提供有意义的分析结论。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

建模结束后的效果评估可以从支持度、置信度以及提升度三个指标判断关联规则的优劣,并来衡量产品即变量之间的相关性。此处,理解指标的关键在于“频繁”二字,频繁意指在统计层面应满足一定的水平,即要达到一定的频率,而频率的理论值则表示为概率。所以,从中可以看出,关联规则算法最终研究的其实是一些概率问题。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

假设有A和B两个产品,支持度揭示了A和B两个产品同时出现的可能性,支持度小,说明A与B的关系不大;置信度揭示了在购买A产品的条件下,又有多大的可能性购买B产品,由此可见,支持度和置信度用来衡量产品(变量)间的强弱关系。而提升度却是用来衡量其中的正负关系,如果提升度大于1,表示规则前项和后项正相关;小于1,表示负相关;等于1,表示前后项两个产品互不影响。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

通过关联规则挖掘能够发现具有强关联的产品组合。支持度大的两项或多项产品适合开展捆绑营销,置信度和提升度都大的两项或多项产品适合开展交叉销售。实际挖掘任务中,需要产品经理根据业务的具体情况自行设置规则应满足的最小支持度和置信度。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

有时也可以利用可视化的表达形式更为形象地展现关联规则的分析结果,产品之间的关联关系可以通过网状图显示。其中,不同的结点代表着各种不同的产品,如产品1、产品2和产品3用不同的节点来表示,节点间的连线代表着关联关系,连线越粗表明产品间的关系越强,最终会选取满足强关联的产品组合来进一步分析。使用网状图分析能够向已经使用产品1的用户,推荐与之强相关的产品2和产品3,从而有效提升产品1的整体贡献价值。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

通过计算产品两两之间的相关性,也就是被同时订购的次数,并将其绘制成网络形状,图中线条的粗细标示两个产品之间的关联性强弱。不同结点代表了不同的产品,节点间连线代表关联关系,连线越粗表明产品之间的关系越强烈。如上所示,从中找出强关联的产品系列,即手机证券、财经资讯和手机支付,并将其命名为“商务型”的产品组合。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

得到具有强联系的产品组成属于研究产品的范畴,除此之外,还要建立用户和产品之间的关系,即研究用户。接下来便是通过构建合适的数据挖掘模型,判断出同一组合内的产品经常被何种特征的用户订购,订购与不订购某类产品的用户之间又有什么样的显著区别。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

为了区分出不同群体的用户特征并提取汇总,所用到的方法为常用于判别分析的决策树算法。建模过程中,根据采集的样本数据,需要把用户的基本属性作为输入变量,新补充的商务型产品组合的是否订购标识作为目标输出变量,即同时购买组合内所有的产品时,变量值为1,否则为0。通过分析用户信息,挖掘出什么样的用户会购买此类产品组合。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

最后,决策树分类模型的输出结果是用树状结构来展现数据受变量的影响并转化为分类规则,树中每一条从根到叶的路径都对应一个规则。如上所示,接受订购商务型产品的用户特征有两条路径:第一条路径的用户特征为年龄大于30岁,收入高;第二条路径的用户特征为年龄小于等于30岁,性别男,收入高。

大嘴巴漫谈数据挖掘:用户产品藏联系,借助决策树结构

综上可知,借助关联规则和决策树,能够发现样本数据中的频繁产品系列以及用户和产品之间的关系,通过汇总面向于此的目标用户特征,从而设计出相应的产品组合服务,并筛选出所对应的潜在用户名单。

总的来说,在产品发展期,一个成功的产品,不仅要有直击刚需的痛点功能,更在于全面入微的精细运营,以此促进用户活跃和业务的有效使用。

大嘴巴漫谈,有货,有形,有味!

本文为专栏文章,作者:大嘴巴漫谈,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/17208.html 。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code