一. 群组分析方法
定义
组群分析 cluster analysis 这是多变量分析方法之一。
某集团的因素,可以归纳为外部标准和指定簇群数,根据多维空间的因素分布,把类似的因素集中归纳为组群(cluster)。根据适当的相似度(或者距离)制出各因素间的系数表,将其中相似度最显著的进行汇集作为中心,以计算新组群与其余组群的相似度。
这样就增加了最近似的组群内容。反复采取这种程序,便逐级地形成组群。
其结果多是以相似系统图表示出来。组群分析常用于生物社会学和数量分类学的统计分析。
1.1 作用
按照某个特征将数据分为不同的数据组,然后对比各个数据组的数据。根据产品业务不同灵活定义数据分组分析数据指标。
例如产品发布发布版本的更新是导致用户增长还是流失。
可以按照用户使用产品的月份特征进行用户数据分组,分为1月用户组和2月用户组。
对比两个数据组的用户留存率随着时间的变化分析结果,按月份特征进行分组分析随着时间变化的留存流失问题,再细致分析出每个组的用户为什么留存率高,流失率低等等。
二. 应用方法
2.1 使用群组分析
按月份特征进行数据分组后,通过留存率分析公式得出留存率=留下的人数(2人) / 1月份群组人数(10人)。
记录每个月份的用户群组的留存率并得到留存率随时间变化的数据 (空白格表示还没有留存率)。
将得到的留存率数据进行可视化后,观察数据指标随着时间的变化。
在通过用户分析、假设检验分析、相关分析等方法进一步进行分析
三. 应用案例
3.1 推特用户留存分析
推特团队早期通过数据群组分析方法发现:推特在新用户注册后,向新用户推送30个用户感兴趣的账号博主,这样才能让新用户成为长期用户
当时推特团队发现用户注册完成之后留存率不高。
推特团队用每月使用产品的天数作为数据分组指标进行群组分析。
以下为例子:一个月后留下的用户数/当月用户数=各组的留存率
经过可视化后得到一个月至少使用7次(拐点)的用户中有90%~100%的用户在下一个月留存。
再拆解分析一个月使用7次的用户多吗?可将用户进行分组在统计每一组的占比。
并分析每一组数据的用户的共性,分析出提高留存率的方法
【核心用户组】每个月至少使用7次的人 【一般用户组】不频繁使用的人 【冷漠用户组】使用率非常低的人
在通过相关分析(参考下篇文章),用户针对性调研的方式分析影响留存的多种因素。
推特团队得出关注人数和留存率高度相关。
向新用户推送30个用户感兴趣的账号博主,这样才能让新用户成为长期用户。
3.2 其他分析因素
为什么关注的人数在30人左右留存率越高。
假设若没有一定数量的关注人数。就如同新闻类的信息流产品,没有竞品的商业价值。
假设若关注的人数太多则如同社交类产品,没有竞品的用户价值。