通话数据分析模型数学建模

资源描述

通话数据的聚类分析问题摘要本文是针对通讯公司对其客户的通话记录，按照所给的数据对这些客户进行分类，并且为提供的新业务推荐首选人群，此外，还考虑该地的基站建设合理性问题，通过分析提出合理的建议。对于问题一，对客户分类采用k-means聚类分析的方法，首先对客户进行初步分类，由于k-means算法对脏数字很敏感，因此，建立聚类有效性评价模型，根据有效性的两条指标类内紧致性和类间的分离度，定义有效评价函数，由此得出最优的分类数为3，再次对客户进行分类，得到相应的结果。类别123用户10，22，25，28，29，31，33，36，39，43，45，46，47，48，50，55，57，58，59，60，62，63，64，65，66，67，68，72，73，74，75，76，77，78，80，81，82，83，84，85，86，88，89，90，91，95，96，97，98，99，100，101，102，104，105，106，107，108，109，110，111，113，114，115，116，117，118，119，121136，139，140，141，142，143，144，145，146，147，149，150，151，152，153，155，156，157，159，160，161，162，163，164，165，166，167，168，169，170，171，173，174，175，176，177，178，179，180，181，182，183，184，186238，240，241，242，243，244，245，246，247，248，249，250，252，253，254，255，256，257，258，259，260，261，262，263，264，265，266，267，268，269，270，271，272，273，274，275，276，277，278，279，280，281，282，283，284，285，286，287，288，289，290，291，292，293，294，295，296，297，298，2993，4，6，7，8，9，1124，26，27，30，32，34，35，37，38，40，41，42，44，49，51，52，53，54，56，61，69，70，71，79，87，92，93，94，103，112，120，137，138，148，154，158，172，185，239，251，3001,2,5对于问题二，在问题一的基础之上，对已分类的客户的通话特点进行分析，将客户群划分为三类：优质客户群，潜在客户群和弱势客户群。针对不同的客户群，举例提出相应的新业务，优先考虑优质客户群，挖掘潜在客户群，调动弱势客户群的积极性。对于问题三，考虑基站的密集度和通话时间和次数的关系，在密集度较大的地区适当增加基站数目，通过合理性分析和实际情况分析，得出结论：15 1 27 11 22 28 30 29基站周围应新设的基站数分别为2 1 1 6 4 6 7 10。关键词：k-means 聚类有效性评价紧致性和分离度密集度一、问题重述与分析通信公司通常根据客户现有的通话记录来制定合理的决策，进而改善通信设施、拓展新的通信业务，从而获得最大的利润。电信企业一般从三个方面区别于竞争对手并获得竞争优势：价格、业务和客户服务。随着市场的开放，客户的选择增加，对市场的认识也加深了，他们更希望作为一个独立的个体被认识和理解，越希望企业更好的理解和满足他们的需要，为他们提供个性化的服务。因此，建立以客户为中心的营销服务体系是各企业的必然选择，提供既能留住老客户又能吸引新客户的决策信息则要求企业要实施客户细分1。问题一要求根据一家通信公司的2009年6月某地的300个用户10天内的通话记录来对用户进行分类。考虑到通信企业营销的最终目的是在成本最低的情况下获得最大的收益，且用户的主叫和被叫次数，通话时间的长短都会影响到公司的利润。因而用SPSS对通话数据进行分析和统计，得到每个用户在十天内被叫者与主叫者次数之比，平均每天通话的总时间以及平均每天的通话次数。将这三个指标作为划分客户的依据，对300个用户进行聚类分析，再从样本之间的紧致度和分离度出发,建立聚类有效性评价模型, 对选择的阈值给出有效性评价,从而确定最佳分类，得到合理的分类方案。问题二要求合理的选择部分用户作为新业务的首推人选。在问题一的基础上，对已经分好类的用户的通话情况进行分析，对其赋予合理的社会身份，分析适合这类人群的通信业务，从而将业务和相对应人群一一对号入座。问题三要判断该地的通信设施建设是否合理，并给出合理的建设建议。二、符号说明表2.1 基本符号说明符号描述用户总数分类总数对每个用户进行分类的通话数据指标的总集合第个用户的通话数据指标矩阵，第类中对每个用户进行分类的通话数据指标的总集合中用户的个数，所有指标的聚类中心点总集合第类中所有指标的聚类中心阈值聚类矩阵，由和的成员关系组成三、基本假设1、不考虑这300个用户在10天内的呼叫转移次数和时间，即用户之间不存在呼叫转移；2、假设这300个用户在10天内的通话数据具有代表性；3、假设每个用户之间的通话次数和时间是独立的，不受其他因素的影响；4、数据中通话时间为-9和-24是不合理的数据，在统计分析时可舍弃；5、假设图中所标出的基站是这个地区的所有的基站；6、假设不考虑用户通话的国际国内的长途漫游资费；7、假设所有基站的设备性能均相同。四、模型建立与求解4.1问题一4.1.1模型的建立对用户的分类采用k-means聚类算法2，具体思想可用下式描述：，（4.1.1）其中，是给定数据集中的数据个数，是聚类个数。是给定的数据集, 是类中心点。用表示个类，表示中数据个数，是聚类矩阵，由和的成员关系组成，是一个距离函数(例如,欧几里得距离)。为了极小化，类中心点和成员关系矩阵需要用以下的迭代公式逐步计算：，（4.1.2）而，（4.1.3）通过某些方法(如随机抽取) 初始化类中心点，然后通过方程式计算成员关系矩阵。K-means算法就是基于（4.1.2），（4.1.3）的迭代过程: ，直到。其中是给定终止条件。最终的聚类结果通过成员关系矩阵确定,即如果,则说明属于类。实际问题中得到的数据样本都是未知的，k-means聚类分析中主要关心的两个问题是最佳聚类个数的确定和所做的聚类能在多大程度上反映数据的内在结构，即聚类的有效性问题。提出有效性的标准的最终目的是使分类结果达到类内紧密，类间远离2，为此，在样本之间的紧密度和分离度的基础之上，建立聚类有效性评价模型3。紧致度定义为：。（4.1.4）类的聚类中心为：（4.1.5）紧致度表现为样本方差，方差越小，样本间的波动越小，亦即类内之间的样本紧密程度就越高。分离度定义为：。（4.1.6）其中为所有指标的聚类中心，即（4.1.7）分离度反映了不同类之间的差异性。分别将紧致度和分离度除以相应的权值，以降低类数对有效性评价的影响，然后用分离度和紧致度进行比较，以获取做大的评价值，建立的聚类有效性评价模型为：。（4.1.8）有上式可以看出，值综合反映了每个变量的类内紧密程度和类间分散程度，其值越大，说明类与类之间的距离越大，亦即类与类之间的差异越大，分类就越好，对应值最大的阈值就为最佳阈值，其所对应的分类即为最佳聚类效果。其中，由于所有样本各自成类或全部并成一类，实际上只有个方案可供选择。4.1.2模型求解首先对所给的数据进行统计，计算出每位客户的平均每天的主叫时间，主被叫次数和被叫和主叫次数之比如下表：表4.1初步统计表客户编号平均每天主叫时间（102）平均每天主被叫次数被叫/主叫（10）13.932.396.5222.131.1102.7332.461.260.8342.621.535.3352.491.4142.1463.061.621.2576.13.129.3583.732.235.4595.983.226.56103.481.8102904.552.53.22912.351.314.622923.021.452932.331.25.832944.52.51.22953.031.71.182964.422.47.52975.913.22.812982.851.75.292993.5522.53000.790.417.5根据已统计出的结果，进行聚类分析，并用聚类有效性评价函数进行检验得到如下结果：表4.2不同分类数对应的值34567.110.4640.4470.1819由上表得出，值随着分类数的增加而减小，又根据分类数要不小于属性个数，即指标个数，因此当用户分成3类时，值最大，此时的最佳分类数即为3，得到的分类结果如表4.3：表4.3分类结果类别123用户10，22，25，28，29，31，33，36，39，43，45，46，47，48，50，55，57，58，59，60，62，63，64，65，66，67，68，72，73，74，75，76，77，78，80，81，82，83，84，85，86，88，89，90，91，95，96，97，98，99，100，101，102，104，105，106，107，108，109，110，111，113，114，115，116，117，118，119，121，122，123，124，125，126，127，128，129，130，131，132，133，134，135，136，139，140，141，142，143，144，145，146，147，149，150，151，152，153，155，156，157，159，160，161，162，163，164，165，166，167，168，169，170，171，173，174，175，176，177，178，179，180，181，182，183，184，186，187，188，189，190，191，192，193，194，195，196，197，198，199，200，201，202，203，204，205，206，207，208，209，210，211，212，213，214，215，216，217，218，219，220，221，222，223，224，225，226，227，228，229，230，231，232，233，234，235，236，237，238，240，241，242，243，244，245，246，247，248，249，250，252，253，254，255，256，257，258，259，260，261，262，263，264，265，266，267，268，269，270，271，272，273，274，275，276，277，278，279，280，281，282，283，284，285，286，287，288，289，290，291，292，293，294，295，296，297，298，2993，4，6，7，8，9，11，12，13，14，15，16，17，18，19，20，21，23，24，26，27，30，32，34，35，37，38，40，41，42，44，49，51，52，53，54，56，61，69，70，71，79，87，92，93，94，103，112，120，137，138，148，154，158，172，185，239，251，3001,2,54.2问题二根据问题一的结论，得到各类中指标聚类中心如下：表4.4各类中所有指标的聚类中心指标组别123平均每天主叫时间（102）3.882.135.58平均每天主叫次数3.421.8527.45被叫/主比(10)2.851.60113.80从上表分析，根据平均每天主叫时间，主叫次数和被叫与主叫之比的数量大小，将客户划分为优质客户群，潜力客户群和弱势客户群。表4.5划分客户群客户群通话特证优质客户群平均每天的主叫时间和次数都超过一般人，且被叫次数远远大于主叫次数潜力客户群平均每天的主叫时间和次数比较正常，被叫次数和主叫次数相差不多，和人有来有往弱势客户群平均每天的主叫时间和次数都比较少，并且基本上都是被叫者身份，打电话不积极若现在通信公司推出新业务，针对不同的客户群可以推出不同的与他们相应的新业务，现根据这些客户群的通话特点，建议可提供的业务如下：本地免接听业务，包月或包年通话业务高层人士，商务繁忙，事业有成的高级领导，白领优质客户群推出虚拟网各类套餐，如校园网，亲情网对新业务敏感，新潮，时尚，愿意学习新事物潜在客户群提供优惠政策，比如推出主叫优惠的政策，调动其积极性人际交往狭隘，底层的农民工弱势客户群图4.1针对不同人群业务推行政策综上，根据合理的客户细分策略，为用户提供有针对性的个性化服务是当前每个通信公司都十分重视的工作，优先考虑优质客户群，挖掘潜在客户群，调动弱势客户群的积极性，这是一项基于事实的策略。4.3问题三有题目中所给的地图可知，每个方格的边长为3个维度，由维度理论可知，1维度=1.85*3=5.55km,一个基点覆盖面35公里，所以将基站密集度定为以某个基站为中心且与它临近的8个方格内的及它本身的基站个数。表4.6基站密度表基站名密集度通话总时长通话总时长/密集度1344101147002596061921.2353884776.845167003340541581395.2564177164429731212640428413080327096269694494.8108241543019.311611965819943126188843147.3139453855042.8147105571508.11556879913760166457087618174241836045.8183182316077193170355678.3205279195583.8216255024250.32248208720522235231354627247215533079255252015040.226455411385.32711789017890286110461184102941399063497730311519738399对该地的基站建设进行合理性分析如下：图4.2各基站对应的密集度图4.3各站对应的通话总时间首先通过上面两幅图的比较可以发现，两图形的总体趋势相似，但有部分基站对应的图形出现偏差，我们认为两图形成正比的基站为合理的，出现偏差的基站为不合理的。因此进行具体分析如下：图4.4各基站通信总时间和密集度排序后的比例图横坐标2430分别对应15 1 27 11 22 28 30 29基站假设各基站通信总时间和密集度的比例小于等于104时现有的通信设施是合理的。由图发现123基站通信总时间和密集度近似满足线性正比关系关系，而2430基站所得比例与前者相差很大，后者明显不合理。改进措施在2430各基站周围最近的八个方格内建立新的基站，提高基站的密集度，使各基站通信总时间和密集度的比例最大为104。表4.7 基站密集度与添加的基站数基站名密集度通话总时长通话总时长/密集度添加的基站数1556879913759.81.8799134410114700.333331.410127117890178900.789116119658199435.96582248208720521.754.208728511046122092.26.046130411519728799.257.519729413990634976.59.9906为了综合考虑通信的质量和设基站的费用,我们采用四舍五入法得应设的数，所以15 1 27 11 22 28 30 29基站周围应新设的基站数分别为2 1 1 6 4 6 7 10。五、模型评价与改进当前，k一means算法的优化主要在三方面:1、算法本身的改进，主要以提高效率、降低计算复杂性为目标，但该性能的提高，往往伴随着输出模型质量的下降。2、算法初始K(聚类个数)值的选定，该值主要影响输出模型合理性。3、算法初始聚类中心点的选定，该初值选择的优劣对算法运行效率和输出模型的优劣都有较大影响。在电信运营领域的客户细分方面，有较为成熟的K经验值可以参照，移动运营领域一般为8至巧个群。所以，本算法的改进主要从聚类初始中心点的优选和算法本身性能改进方面着手。首先，为减少随机选择初始中心点而出现的局部最优解情况，算法设定初始聚类数为K*(K*K根据质量与效率要求折中选择K值)，较大的K值可以扩大解空间的搜索范围，减少某些极值点附近无初值的现象。利用搜索到的初始聚类中心点采用k-means算法对原数据集进行聚类，输出K个聚类中心，然后考察各聚类中心点之间的距离，合并聚类中心最为靠近的聚类簇，直到聚类簇的数量减少到指定的K。然后，考虑如何减少k-means计算复杂性，有两种主要的方法来描述k-means算法如何减少整个计算复杂性，特别是对距离的计算:1、利用上一次循环计算的信息来减少距离计算的数量。利用模式对聚类的分配在第一个循环执行几次后相对变化很少的事实，使用一个启发式来判断模式的最近原型是否已经改变，若没有改变，就不需要进一步的距离计算。同时还可以利用另外一个事实:对于连续的循环，聚类的质心点移动较少，这样可以降低算法的复杂性。2、将原型向量组织在一个恰当的数据结构中，其结果是对给定的一个原型，发现最近的原型变得更富有效率。使用这种方法的距离计算的数量与每一个循环的nX(f，kd)成正比。对于许多的应用来说，向量的数量及原型向量的数量都是固定的，对于一个给定的输入测试模式，构造优化的数据结构可以发现最近的向量。但是，这种优化在原型向量动态变化时变得不可用。更进一步来说，不清楚如何利用这些优化来减少错误函数计算的复杂性。本次改进参照第二种方法，算法主要思想如下:Kd-tree是专门用来存储多维属性的数据的二元平衡树，可以以每个维度的中点作为分割点，逐层分割，构建树，直至达到预定的树的深度。在根一层对最近原型来说，所有的原型都是潜在的候选者，但是，对根节点的子节点，可以通过采用简单的物理度量方面的限制是指能够对候选集进行修剪。很明显，每一个子节点可能有不同的候选集。更进一步的说，一个给定的原型可能属于若干个子节点的候选集。这种方法可以递归地应用直到每一个节点的候选集的大小是一个节点时结束。在这个阶段，在子空间中的所有模式是由作为他们最近的原型的唯一的候选集的子树表示的。利用这种方法，期望k-means算法中的第一个循环的距离计算数量与成正比，其中远小于，这是因为距离计算只在内部节点上执行，而不是象大部分算法那样在模式本身上计算。这种方法可以用来显著地减少计算下一循环原型的时间复杂性。同时，也期望第二个循环的时间复杂性与成正比。为了得到下一层的候选集，改进算法的性能与采用好的修剪算法紧密相关，可以采用下面的策略:(1)每一个候选，找出到子空间内的任意一点的最大与最小距离。(2)找出最大距离的最小者，称为MniMxa。(3)修剪掉所有的最小距离大于MniMxa的候选者。上面的策略保证若候选者到一个给定的子空间的距离比任意其他候选原型都近时就不会被修剪掉。改进算法是基于模式向量的组织，这种方法就可高效的发现到给定原型最近的所有模式。在算法的第一阶段，为了组织模式向量构造了一个k-d树。该树的树根代表了所有的模式，而树根的子节点代表了完全包含在子空间内的模式的子集。在低层的节点则代表了更小子空间。对树的每一个节点，都要保留以下信息:(1)点数(m)。(2)点的线性和(LS)，即艺尸i。(3)点的平方和(55)，即艺两2。设维数为d及K-D树的深度为D。在每一个节点上按上述要求维护所需信息的额外时间及空间与。n(d)2成正比。计算D层的中点复杂性为。n(d)，这些中点是在完成树的内部节点的分支时使用。为了构造k一d树，存在以下几个影响整个树结构的不同选择。(1) 用于分支维的选择。一种选择就是选择一个普通的在树的同一层跨过所有的维。当沿着树自上而下时对不同的层选择维是以循环的方式进行的。第二种选择就是使用了有最长长度的分支维。(2) 沿着所选择的维的分支点的选择。有两种选择方法:一种是选择中心分支点;另一种是选择中间分支点。前者将分支的维按照宽度等分为两部分;后者按模式的数量进行等分。这两种方法分别定义为基于中心点及基于中间。很明显，基于中间方法的时间复杂性稍微高一些。经验表明，选择沿着最长的维及基于中点的方法对分支要更好一些。六、参考文献1 丁继承，基于聚类分析的电信客户细分系统研究与设计D，哈尔滨工业大学，计算机科学与技术学院，2006。2 李双虎，王铁洪，K-means聚类分析算法中一个新的确定聚类个数有效性的指标A，河北省科学院学报，2003.20(4):199-202。3 赵德滨，宋利利，闫纪红，基于模糊聚类分析的特征识别方法及其应用A，计算机集成制造系统，2009.15(12):2418-2419。12

展开阅读全文

通话数据分析模型数学建模

最新文档