短信种子用户识别11

上传人:lx****y 文档编号:164130614 上传时间:2022-10-24 格式:DOC 页数:4 大小:114KB
返回 下载 相关 举报
短信种子用户识别11_第1页
第1页 / 共4页
短信种子用户识别11_第2页
第2页 / 共4页
短信种子用户识别11_第3页
第3页 / 共4页
点击查看更多>>
资源描述
基于因子分析和层次分析的手机短信种子用户识别模型李燕寅 傅山铖赵振煜 王诗云(沈阳航空航天大学 机电工程学院 沈阳110136)摘要:本文运用各种数值分析方法,对大量数据进行了分析处理,综合运用因子分析法、层次分析法这两种综合评价法建立了较为准确地手机短信种子用户识别模型。关键词:种子用户、手机用户识别、因子分析、层次分析文件标识码:A0。引言: 随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们运用手机打电话、发短信、上网等等,在这些功能之中,短信是手机用户最常用的功能之一。现在,每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用.所谓短信种子用户,又称“短信领袖,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力.因此,精确识别短信种子用户,制定相应的营销策略对运营商来说非常有必要。我们研究的内容就是通过用户的基本信息和消费信息建立短信种子用户识别模型.我们采用的原始数据来自202年“深圳杯全国大学生数学建模夏令营的用户信息表。种子用户评价模型层次分析因子分析数据预处理原始数据1. 模型基本思路模型的整体结构如图1所示,我们通过对原始数据的分析处理,然后运用因子分析法从众多的用户属性中提取出与种子用户相关的n个因子,如果仅仅依靠各个因子的方差贡献率来确定每个因子的权重,显然方差贡献率与种子用户的识别没有必然联系。因此,我们采用层次分析法来确定各个因子的权重,然后通过将各个因子的得分与权重的线性组合得到识别函数.最后运用单目标非线性规划建立评价体系判定用户是否为种子用户。2. 问题分析2.1 数据预处理由于原始数据中存在很多缺失信息、错误信息,而且,原始数据中的变量过多,有的变量属于重复变量,不同变量之间的数量级相差较大.针对这些问题,我们对数据处理主要从以下三个方面进行。 作者简介: 李燕寅(11-),男,沈阳航空航天大学,学生,tel: 。 基金项目:202年辽宁省大学生创新创业训练计划(2)2.1.1 缺失值和极端值处理原始数据中存在很多极端值、异常值,其中有一部分是统计时的错误造成,但也有一些是真实的信息,因此为了最大限度保持数据原貌,我们只删除一些明显错误的数据,如某些用户的消费金额、市话费、通话费等属性为负值。对于某些用户信息的缺失,我们针对不同的用户属性的特点分别采用不同的缺失值处理方法对数据进行补充.最后为了便于分析,将字符串型变量转换成数值变量,如性别转换为0,F转换为1。2.1.2 数据标准化处理由于不同变量的数据数量级相差较大,为了方便进行接下来的分析,运用标准差标准化法(zscor)对所有数据进行标准化处理,化为服从平均数为0,标准差为1的标准正态分布.2.1.3 用户属性精简原始数据中的用户属性条目繁多,有许多属性是重复的,有的属性则是对短信种子用户评价毫无价值。通过对无关属性的删除,对重复属性运用相关系数法进行合并.最后得到了19个用户属性。如表1所示。属性名称变量类型属性名称变量类型城乡标识num。市话费num。性别nm.长途费num。用户等级num。漫游费num。用户操作系统num.通话费um。手机价格num增值费um。是否Gnu。短信费num套餐档次um。上网流量nm消费金额um.上网时长。流量费num.短信发送量num.相对年龄num2.2 因子分析因子分析法(ctor AnalysiMthod)是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。用户评价分类工作的进行通常是建立在可定量化指标的基础之上,只有建立比较完善的指标评价体系,采取合理的评价方法进行评价,结果才具有说服力, 才能为运营商提供合适的决策依据.然而,在多指标综合评价方法中,传统方法对于权重的设置往往带有一定的主观随意性.将因子分析方法运用于综合评价方法,克服了传统评价方法在处理指标高度相关和人为确定权数的缺陷,使得综合评价结果唯一,而且客观合理。 用户资料表中的用户属性很多,经过数据预处理后,它不但包含 2个量纲不同的指标,而且并未给出这些指标之间的相对重要性(权重)。为了确定是否有必要使用因子分析法,我们进行了变量相关性分析。通过PSS软件,我们从20个用户属性中提取了1个因子,又根据各个因子的成分得分系数矩阵,如表1所示。对每个因子做出了合理的解释,如表1所示。提取因子所占权重通话需求因子.7 上网需求因子01 短信需求因子。44 用户等级因子0.09地域因子0。01年龄因子0.07 消费能力因子.2信号需求因子0.05终端需求因子002 增值需求因子0.07 性别因子。02 2.3 层次分析层析分析法(Te anyic herachrocess,简称AHP)是一种定性和定量相结合的、系统化、层次化的分析方法。考虑到用户通讯是人的主观活动,故采用层次分析法确定用户属性的权重,使得模型更加准确。我们通过对用户属性的精简,剔除无关以及合并相关用户属性,得到了以用户的基本特征、消费特征、通讯特征为准则层,年龄、城乡标志、消费金额、套餐等级、短信费、短信量、通话次数为方案层建立的层次分模型如图所示。运用09标度法对各个属性进行重要性判断,最后得出用户属性的权重如表2所示。3. 种子用户评价模型3.1 用户属性得分系数根据最终得出的各因素的权重比,建立一个种子用户识别符合度函数S。式中为因子的成分得分系数矩阵,为通过层次分析法得出的各个因子权重向量。3.2 评价模型我们构造了短信种子用户得分函数为用户i的得分,为用户i的标准化处理后的属性值。我们将用户所得总分进行以下划分:个等级第一等级:该用户一定为种子用户(000)第二等级:该用户为种子用户的可能性较大(90)第三等级:该用户可能为种子用户(6)第四等级:该用户为种子用户的可能性较小(4060)第五等级:该用户一定不是种子用户(40)4. 模型评价本模型成功的运用基于数据本身的因子分析法对大量数据进行了有效的简化,然后运用层次分析法对各个用户属性进行综合评价,这样就充分考虑到了客观和主观因素的影响,是模型具有更高的准确度。参考文献:1(美)金在温,(美)米勒著 因子分析 统计方法与应用问题。上海市:上海人民出版社格致出版社, 2012。胡永宏,贺思辉编著。 综合评价方法. 北京市:科学出版社, 200. 杜强,贾丽艳编著. SP统计分析从入门到精通。北京市:人民邮电出版社, 209 黄宇芳 涂玉梅 王斌 魏智华,中国CDMA手机用户消费行为分析,广州,通讯世界, 012年月15日:56585 单锋编. 数学模型。 北京市:国防工业出版社, 22。02。 朱明编著。 数据挖掘。 合肥市:中国科学技术大学出版社,201.7 张良均著 数据挖掘 实用案例分析. 北京市:机械工业出版社, 13。07文中如有不足,请您指教!4 / 4
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!