基于基站定位数据的商圈分析上机报告

资源描述

基于基站定位数据的商圈分析上机报告1数据读取及其标准化setwd(E:/数据处理)Data=read.csv(./business_circle.csv,header=T,encoding=utf-8)colnames(Data)=c(number,x1,x2,x3,x4)attach(Data)y1=(x1-min(x1)/(max(x1)-min(x1)y2=(x2-min(x2)/(max(x2)-min(x2)y3=(x3-min(x3)/(max(x3)-min(x3)y4=(x4-min(x4)/(max(x4)-min(x4)standardized=data.frame(Data,1,y1,y2,y3,y4)write.csv(standardized,./standardizedData.csv,row.names=TRUE)2模型构建2.1层次聚类library(ggplot2)Data=read.csv(./standardizedData.csv,header=F)Data1=data.frame(y1,y2,y3,y4)attach(Data1)dist=dist(Data1,method=euclidean)hc1-hclust(dist,ward.D2)plot(hc1)plot(hc1,hang=-1)ClutffrrDendrogramhciur/i-afdDr)# 分成三类re1-rect.hclust(hc1,k=3,border=purple)#对构建好的谱系聚类图进行分类,这里分三类a=re12#歹1表名下标b=re13c=re11ClusterDHendrogramdrSl忙 HO -XuE 口2)# 商圈类别1matrix=Data1a,#137个观测值、4个变量d-dim(matrix)#1374y-as.numeric(t(matrix)#t()：矩阵转置，这里转换成数字向量row-factor(rep(1:d1,each=d2)x-rep(1:d2,times=d1)data-data.frame(y=y,x=x,row=row)View(data)ggplot(data=data,aes(x=x,y=y,group=row)+geom_line()+scale_x_continuous(breaks=c(1,2,3,4),labels=c(工作日人均停留时间,”凌晨人均停留时间，周末人均停留时间”,”日均人流量)+labs(title=商圈类另1,x=,y=)愍圈贵到1# 商圈类别2matrix=Data1b,d-dim(matrix)y-as.numeric(t(matrix)row-factor(rep(1:d1,each=d2)x-rep(1:d2,times=d1)data-data.frame(y=y,x=x,row=row)ggplot(data=data,aes(x=x,y=y,group=row)+geom_line()+scale_x_continuous(breaks=c(1,2,3,4),labels=c(工作日人均停留时间，凌晨人均停留时间”,”周末人均停留时间”,”日均人流量)+labs(title=商圈类另2,x=,y=)1.1KI-0.75-0 25-口工件日人J输5IQ夏健人唱年曾日1日Jfck-xWBlS 彼臼比1遮# 商圈类别3matrix=Data1c,d-dim(matrix)#1484y-as.numeric(t(matrix)row-factor(rep(1:d1,each=d2)x-rep(1:d2,times=d1)data%打xe)1.10.22041760.447795B0,3317S65car.wlrliinssberwee-n&ssize#数据分组aaa=data.frame(Data,km$cluster)Data1=Datawhich(aaa$km.cluster=1),Data2=Datawhich(aaa$km.cluster=2),Data3=Datawhich(aaa$km.cluster=3),# 商圈1的概率密度函数图par(mfrow=c(2,2)#公共参数列表par#设置布局plot(density(Data1,1),col=red,main=工作日人均停留时间)plot(density(Data1,2),col=red,main=凌晨人均停留时间)plot(density(Data1,3),col=red,main=周末人均停留时间)plot(density(Data1,4),col=red,main=日均人流量)工作日人均停胃时间N = Handwidtn =4M.1tHOQOdooocno 一件 u 口裱晨人均停翳时间40G 口UD 1加 120140N - HandwidtT - ti.608周未人均停留时间00-0 OEb Bo-d huultt口一N-S5 Bandwidh - 26 5日均入猊量0 zmri目口d# 商圈2的概率密度函数图par(mfrow=c(2,2)plot(density(Data2,1),col=purple,main=工作日人均停留时间)plot(density(Data2,2),col=purple,main=凌晨人均停留时间)plot(density(Data2,3),col=purple,main=周末人均停留时间)plot(density(Data2,4),col=purple,main=日均人流量)I昨日人均停留吊褪3 题叩3&0UC二 u 口口昌d Eosq 且月3百口凌晨人均停留附加C 1口4 割口 3g 川，：N=T刃日wnrrMEh =23 4410 0 目口” =1M FmE八叶r = 3J9 4le so oio 匚3# 冏圈3的概率密度函数图par(mfrow=c(2,2)plot(density(Data3,1),col=blue,main=工作日人均停留时间)plot(density(Data3,2),col=blue,main=凌晨人均停留时间)plot(density(Data3,3),col=blue,main=周末人均停留时间)plot(density(Data3,4),col=blue,main=日均人流量)_l作日人均停匿时间SQ8O与000000080&E3N=143Oardvubdlh=469c通用人应停罔时间u为入海坡900i-SL*口N=143Bartdrtth=2Ci163总结3.1数据标准化的方法及使用离差标准化原因1 .数据标准化方法数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到0,1区间上，常见的数据归一化的方法有：1) minmax标准化(Minmaxnormalization)也叫离差标准化，是对原始数据的线性变换，使结果落到0,1区间，转换函数如下：,tfti.nr=max-inui其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。2) log函数转换通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下：3) atan函数转换用反正切函数也可以实现数据的归一化：K出*2/W使用这个方法需要注意的是如果想映射的区间为0,1,则数据都应该大于等于0,小于0的数据将被映射到1,0区间上。而并非所有数据标准化的结果都映射到0,1区间上，也有一些非归一化的方法，如下：4)zscore标准化(zeromeannormalization)也叫标准差标准化，是SPSS中最为常用的标准化方法：经过处理的数据符合标准正态分布，即均值为0,标准差为1,其转化函数为：.T一但=其中N为所有样本数据的均值，6为所有样本数据的标准差。5)Decimalscaling小数定标标准化这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimalscaling标准化到x的计算方法是：x=x/(10*j)其中，j是满足条件的最小整数例如：假定A的值由-986到917，A的最大绝对值为986，为使用小数定标标准化，我们用1000(即，j=3)除以每个值，这样，-986被规范化为-0.986。2.使用离差标准化原因数据标准化处理后，原始数据均可以转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析，但是离差标准化是最常用最简单的一种方式3.2构建层次聚类模型时，可以调节哪些参数，对模型有何影响1 .层次聚类1)计算变量之间的距离代码为：dist.r=dist(data,method=”“)其中method包括6种方法，表示不同的距离测度：euclidean,“maximum,“manhattan”,“Canberra”,“binary”or分另UminkoWSBt德品E离，切比雪夫距离，绝对值距离，Lance距离，明科夫斯基距离，定性变量距离。使用不同的距离会对聚类的结果产生一定的影响2)使用hclust()进行聚类代码为：hc.r=hclust(dist.r,method=“”)其中method包括7种方法，表示聚类的方法：single,complete,median,mcquitty,average,centroid,ward。分别表示：最短距离法，最长距离法，中间距离法，相似法，类平均法，重心法，离差平方和法。3)画图plot(hc.r,hang=-1,labels=NULL)或者plot(hc.r,hang=0.1,labels=F)hang等于数值，表示标签与末端树杈之间的距离，若是负数，则表示末端树杈长度是0，即标签对齐。labels表示标签，默认是NULL，表示变量原有名称。labels=F:表示不显示标签。2 .k-mean聚类kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(Hartigan-Wong,Lloyd,Forgy,MacQueen),trace=FALSE),centers是初始类的个数或者初始类的中心。计er.max是最大迭代次数，其中默认迭代次数为10。nstart是当centers是数字的时候，随机集合的个数。algorithm是算法，默认是第一个。3 .3K-mean算法实现基本步骤1.算法步骤K-Means算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心(这个点可以不是样本点)，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤：(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去(3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止2.R语言聚类步骤(1)读入数据，准备好数据矩阵；(2)导入knn包，准备进行Kmean聚类分析(3)在数据集上运行Kmean聚类分析，设置聚类组数，观察将聚类结果进行保存(4)对以上步骤(3)结果进行修正(5)根据结果画图(6)结合问题情境做具体的管理决策分析。

展开阅读全文

基于基站定位数据的商圈分析上机报告

最新文档