CPDA考试移动客户细分聚类

资源描述

一假如你是某移动运营商的数据分析师结合用户通话行为数据通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐提供个性化套餐从而对客户进行精准营销增加客户粘性运营商收集到的数据包含下列字段变量名称变量标签 Customer ID 用户编号 Peak mins 工作日上班时间电话时长 OffPeak mins 工作日下班时间电话时长 Weekend mins 周末电话时长 International mins 国际电话时长 Total mins 总通话时长 average mins 平均每次通话时长根据客户行为数据进行数据的预处理可以自行根据现有变量构造新变量进行分析预处理之后选择适合变量进行分析分析算法自行选择写出分析思路和过程通过数据分析对客户进行细分并为运营商提供客户精准营销的相关建议请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议 K Means 据类的步骤 1 确定所有聚类变量聚类因子 2 数据预处理分类变量数值化处理缺失值分析是否存在共线性等若只有两个变量共线则用比值法较多变量共线用主成分分析进行降维 3 确定聚类个数并用处理后的聚类因子进行聚类分析若未说明则需要尝试不同的聚类个数 3 4 5 6 7 从中选择平均轮廓系数较大且结果易于分析解释的模型 4 分析聚类效果和聚类结果类中心点和每个类等 5 结合实际情况分析每类的意义等聚类分析处理共线性时不能直接删除可用比值替代或主成分分析等来消除共线性案例分析观察数据类型检查数据是否具有缺失值数据类型为数值型原始数据没有缺失值我们把数据导入 DATAHOOP 平台在展示分析中进行异常值分析分析结果如下表 Peak mins OffPeak mins Weekend mins 上四分位 1382 1 426 825 74 875 中间值 1030 2 274 05 44 4 下四分位 700 2 154 425 25 05 异常值个数 6 5 5 International mins Total mins average mins 上四分位 389 03 1781 3 4 2075 中间值 294 075 1370 85 2 73 下四分位 221 2275 1094 925 2 1 异常值个数 13 11 36 由上面可以得到异常值的个最多的具有 36 个在数据总体样本中占比比较大所以不处理异常值这些异常值有可能是数据中一些特殊的类进行相关系数矩阵分析分析得到的相关系数矩阵如下 Peak mins OffPeak mins Weekend mins International mins Total mins average mins Peak mins 1 0 121 0 1448 0 6915 0 9415 0 0367 OffPeak mins 0 121 1 0 0247 0 262 0 4425 0 0094 Weekend mins 0 1448 0 0247 1 0 1282 0 2006 0 1066 Internationa l mins 0 6915 0 262 0 1282 1 0 7123 0 034 Total mins 0 9415 0 4425 0 2006 0 7123 1 0 0364 average mins 0 0367 0 0094 0 1066 0 034 0 0364 1 观察相关系数矩阵中有一个相关系数为 0 9415 该系数比较大所以我们要处理我们用比值替换法把两个变量做比得到的比值替换其中的一个变量我们在数据中重新插入一列为得到他们的变量比值替换 Peak mins 变量得到新的变量我们把新 Peak minsTotal mins 的数据导入 DATAHOOP 中求出相关系数矩阵 OffPeak mins Weekend mins International mins Total mins average mins Peak mins Total mins OffPeak mins 1 0 0247 0 262 0 4425 0 0094 0 4771 Weekend mins 0 0247 1 0 1282 0 2006 0 1066 0 0079 Internationa l mins 0 262 0 1282 1 0 7123 0 034 0 3939 Total mins 0 4425 0 2006 0 7123 1 0 0364 0 4492 average mins 0 0094 0 1066 0 034 0 0364 1 0 0116 Peak mins To tal mins 0 4771 0 0079 0 3939 0 4492 0 0116 1 得到的相关系数矩阵中的相关系数没有大于 0 85 所以解决了共线性我们可以直接进行 K Means 聚类聚类的参数在有聚类的个数为 5 进行标准化初始中心点选择的次数要大最大迭代次数也要大然后进行 K Means 聚类运行结果如下平均轮廓系数 0 2467 该平均轮廓系数是比较小平均轮廓系数越接近于 1 越好实际案例里面我们有可能我们得不到太大的轮廓系数聚类效果是不明显聚类不是太明显但聚类是有区别的我们研究该聚类的区别类别类中心点坐标样本个数 0 0 6972 0 00146 0 10973 0 08154 0 15909 0 786669 191 1 0 469649 0 07189 1 4365 1 293804 0 04352 0 473255 89 2 0 03111 0 5675 0 53938 0 48712 3 645248 0 10716 18 3 0 721084 0 237837 0 25106 0 18959 0 11827 0 83047 175 4 1 37056 0 98922 2 12987 2 30509 0 4263 1 80452 25 我们得到上面表格的类中心点坐标是经过我们标准化的我们还原成原来的数据得到原始的分类然后求每一类的平均值总结如下表 Peak mi ns OffPeak mi ns Weekend mi ns International m ins Total mi ns average mi ns 0 1068 37 6 300 1317 53 96551 315 5413 1422 473 3 599579 1 1305 87 2 349 0611 57 77315 366 6326 1712 706 3 592437 2 1078 46 7 300 9404 52 69453 314 994 1432 102 4 008122 3 1068 29 1 300 6339 53 96841 315 9593 1422 893 3 602067 4 52 6952 39 37861 18 23432 15 56027 110 3081 2 785264 对类进行特征分析 0 类总通话 Total mins 较长下班通话时间 Offpeak mins 最长上班通话时间 Peak mins 比较长命名为中端客户 1 类总通话 Total mins 长上班通话时间 Peak mins 长周末通话时间 Weekend mins 较长国际通话时间 International mins 长命名为高端用户 2 类总通话 Total mins 较长上班通话时间 Peak mins 仅次于第一类周末通话时间 Weekend mins 居中国际通话时间 International mins 居中命名为中端用户 3 类在各项中均较低命名为不常使用用户 4 类平均每次通话时间 average mins 最长命名为长聊用户综上根据以上客户细分的结果和特征分析移动产品开发部门有针对性的开发设计套餐品类满足不同类型的客户的实际需求增加客户黏性提高客户的满意度最终提高客户的生命周期价值

展开阅读全文

CPDA考试 移动客户细分聚类

CPDA考试移动客户细分聚类