SPSS在数据挖掘中的应用课件

资源描述

, , , , , ,*,第,16,章,SPSS,在数据挖掘中的应用,第16章 SPSS在数据挖掘中的应用,1,16.1,实例提出：,168,信息点播业务,数据,16-1.sav,是某月陕西主要地区各类业务的流量数据，数据,16-2.sav,是该月每天各类业务的流量数据。请利用这些资料分析以下问题：,问题一：请分析在,168,信息点播服务方面陕西各地区（西安、宝鸡、咸阳等）总流量的差别。,问题二：请指出该月点播业务最好三项栏目，并分析它们之间的流量有无显著性差异。,问题三：请预测该月点播业务最好栏目的长期发展趋势。,16.1 实例提出：168信息点播业务数据16-1.sav,2,16.2,实例的,SPSS,软件操作详解,问题一操作详解,问题一要求分析在,168,信息点播服务方面陕西各地区（西安、宝鸡、咸阳等）总流量的差别。由于各地区在股票点播、指数点播等业务上的流量数据差异较大，并没有统一的大小顺序关系，因此可以采用聚类分析研究陕西各地区的总流量差异。,16.2 实例的SPSS软件操作详解问题一操作详解,3,问题一操作详解,Step01,：,打开数据文件及对话框,打开数据文件,16-1sav,，选择菜单栏中的,【,Analyze,(,分析,)】【,Classify,(,分类,)】【,Hierarchical Cluster,(,系统聚类,)】,命令，弹出,【,Hierarchical Cluster Cluster Analysis,(,系统聚类分析,)】,对话框。,Step02,：,选择聚类分析变量,在左侧的候选变量列表框中选择西安、宝鸡、榆林等十个地区变量设定为聚类分析变量，将其添加至,【,Variables,(,变量,)】,列表框中。同时点选,【,Variable,(,变量,)】,单选钮，表示选择聚类对象为指标变量。,Step03,：,输出聚类数目,在主对话框中单击,【,Statistics】,按钮，弹出相应对话框。点选,【,Single,solution,(,单一方案,)】,单选钮，并在,【,Number of clusters,(,聚类数,)】,文本框中键入数字“,3,”,表示利用聚类分析将十个地区分为三类。其他选项保持系统默认，单击,【,Continue】,按钮返回主对话框。,问题一操作详解 Step01：打开数据文件及对话框,4,问题一操作详解,Step04,：,输出聚类图,在主对话框中单击,【,Plots】,按钮，弹出,【,Plots,(,绘制,)】,对话框。勾选,【,Dendrogram,(,树状图,)】,复选框，表示输出样品的聚类树形图。其他选项保持系统默认，单击,【,Continue】,按钮返回主对话框。,Step05,：,聚类方法选择,在主对话框中单击,【,Method】,按钮，弹出,【,Method,(,方法,)】,对话框。在,【,Transform Values,(,转换值,)】,选项组的,【,Standardize】,下拉菜单中选择,【,Z scores(Z,得分,)】,标准化方法。其他选项保持系统默认，单击,【,Continue,按,】,钮返回主对话框。,Step06,：,单击,【,OK】,按钮，完成操作。,问题一操作详解 Step04：输出聚类图,5,问题一操作详解,问题一操作详解,6,问题二操作详解,Step01,：,计算各项业务的日平均流量,打开数据文件,16-2.sav,，选择菜单栏中的,【,Analyze,(,分析,)】【,Compare Means,(,比较均值,)】【,Means,(,均值,)】,命令，弹出,【,Means,(,均值,)】,对话框。在左侧的候选变量列表框中选择“股票点播”、“指数点播”等业务。其他选项保持系统默认，单击,【,OK】,按钮完成操作。,接着根据输出的业务流量统计数据表,16-2.sav,，可以确定日平均流量最大的三项业务“股票点播”、“每日运程”和“劲爆笑话”为点播业务最大的业务。,问题二操作详解 Step01：计算各项业务的日平均流量,7,问题二操作详解,问题二操作详解,8,问题二操作详解,Step02,：,业务流量的差异性研究,选择菜单栏中的,【,Analyze,(,分析,)】【,Nonparametric Tests,（非参数检验）,】【,Legacy Dialogs,(,旧对话框,)】【,K Related Samples(K,个相关样本,)】,命令，弹出,【,Tests for Sevearl Related Samples,(,多个关联样本检验,)】,对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量，将其同时添加至,【,Test Variable(s,)(,检验变量,)】,列表框中。在,【,Test Type,(,检验类型,)】,选项组中勾选,【,Friedman,】,复选框作为配对样本检验的方法。最后单击主对话框中的,【,OK】,按钮，完成操作。,问题二操作详解 Step02：业务流量的差异性研究,9,问题二操作详解,问题二操作详解,10,问题三操作详解,Step01,：,绘制序列图,打开数据文件,16-2.sav,，选择菜单栏中的,【,Analyze,(,分析,)】【,Forecasting,(,预测,)】【,Sequence Charts,(,序列图,)】,命令，弹出,【,Sequence Charts,(,序列图,)】,对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的,【,Variables,(,变量,)】,列表框。其他选项保持系统默认，单击,【,OK】,按钮完成操作。,根据序列图，观测到股票点播数据虽然平稳，但具有明显的周期性波动特征，因此可以利用,ARMA,模型来描述点播数据的波动性。,问题三操作详解Step01：绘制序列图,11,问题三操作详解,问题三操作详解,12,问题三操作详解,Step02,：,时间序列,ARMA,模型,选择菜单栏中的,【,Analyze,(,分析,)】【,Forecasting,(,预测,)】【,Create Models,(,创建模型,)】,命令，弹出,【,Time Series Modeler,(,时间序列建模器,)】,对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的,【,Dependent Variables,(,因变量,)】,列表框，表示对其进行,ARMA,模型分析。选择,【,Method,(,方法,)】,下拉菜单中的,【,ARIMA,】,选项，表示进行,ARMA,模型估计。接着单击,【,Criteria,(,条件,)】,按钮，弹出,ARIMA,模型阶数设定窗口。,观察序列图发现点播数据以,7,天为周期进行波动，反复进行,ARMA,模型滞后阶数的尝试后，最终选择,AR(7,),模型来描述股票点播流量的波动性。于是在,【,Time Series Modeler,(,时间序列建模器,)】,窗口,【,Autogressive(p)(,自回归,(,p,)】,选项组的,【,Nonseasonal,(,非季节性,)】,文本框中填入数字“,7”,。在,【,Transformation,(,转换,)】,选项组中点选,【,Natural log(,自然对数,)】,单选钮，再单击,【,Continue】,按钮，返回主对话框。,问题三操作详解 Step02：时间序列ARMA模型,13,问题三操作详解,问题三操作详解,14,问题三操作详解,问题三操作详解,15,问题三操作详解,单击,【,Statistics,】,按钮，勾选其中的,【,Parameter estimates,(,参数估计,)】,复选框，表示输出模型参数估计结果和模型预测值；同时取消勾选,【,Goodness of fit,(,拟合优度,)】,复选框，其他选项保持系统默认。,单击,【,Plots】,选项，勾选其中的,【,Residual autocorrelation function(ACF)(,残差自相关函数,)】,和,【,Residual partial autocorrelation function(PACF)(,残差部分自相关函数,)】,复选框，表示绘制残差的自相关图和偏相关图。不仅如此，勾选,【,Fit values,(,拟合值,)】,复选框输出模型的拟合效果图。其他选项保持系统默认。,最后，单击,【,OK】,按钮完成操作。,问题三操作详解单击【Statistics】按钮，勾选其中的【,16,16.3,实例的,SPSS,输出结果详解,问题一输出结果详解,（,1,）聚类过程表,SPSS,软件首先给出了进行系统聚类分析的过程表，它动态显示了所有地区的聚类过程。下表显示第二地区和第九个地区首先被合在一起，聚类系数等于,2.356,，它们将在第二步中与其他类再进行合并。其他结论可以依此类推。,16.3 实例的SPSS输出结果详解问题一输出结果详解,17,问题一输出结果详解,Stage,Cluster Combined,Coefficients,Stage Cluster First Appears,Next Stage,Cluster 1,Cluster 2,Cluster 1,Cluster 2,1,2,9,2.356,0,0,2,2,2,6,6.123,1,0,6,3,7,10,6.489,0,0,7,4,3,8,10.459,0,0,5,5,3,4,11.166,4,0,7,6,2,5,20.564,2,0,9,7,3,7,27.801,5,3,8,8,1,3,36.823,0,7,9,9,1,2,42.702,8,6,0,问题一输出结果详解 StageCluster Combine,18,问题一输出结果详解,（,2,）,聚类分析结果表,下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类：,第,类：西安；,第,类：宝鸡、咸阳、铜川、汉中；,第,类：榆林、延安、渭南、安康、商洛。,其中第,类地区西安是,168,信息各类点播业务流量最大的地区，第,类的五个地区在所有地区中是相对,168,信息点播业务流量最低，而第,类地区的点播业务流量是介于第,类和第,类之间，保持中游水平。,分析地区间的点播量的差异部分是由于地区特征的差异引起的，例如人口数量、经济发展状况（收入水平、手机拥有量、物价水平等），同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。,问题一输出结果详解（2）聚类分析结果表,19,问题一输出结果详解,Case,3 Clusters,西安,1,宝鸡,2,榆林,3,延安,3,咸阳,2,铜川,2,渭南,3,安康,3,汉中,2,商洛,3,问题一输出结果详解Case3 Clusters西安1宝鸡2榆,20,问题一输出结果详解,（,3,）,树形图,上表已给出了相关聚类结果，最后用树形图（,Dendrogram,）直观反映整个聚类过程和结果。,问题一输出结果详解（3）树形图,21,问题一输出结果详解,问题一输出结果详解,22,问题二输出结果详解,下表（部分）是利用,【,Means,(,均值,)】,功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到，“股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务，说明这些业务深受消费者欢迎，公司应努力增加在这些业务方面的内容更新及促销。而相反的，“商讯点播”、“区号邮编”等业务的点播量太低，因此公司可以考虑停止这些服务功能以节约成本。,问题二输出结果详解下表（部分）是利用【Means(均值)】,23,问题二输出结果详解,Mean,N,Std. Deviation,股票点播,7317.9677,31,4634.75391,指数点播,278.5484,31,164.77658,外汇点播,38.4194,31,14.17927,到价提示,11.6452,31,8.24439,到价报警,176.0645,31,125.84486,新闻点播,2040.2258,31,204.82427,外地天气,139.8387,31,32.26153,本地天气,185.1290,31,54.01280,航班点播,156.9355,31,52.17786,列车时刻,49.0645,31,16.98614,话费查询,2139.0645,31,3322.93176,头脑体操,124.6129,31,69.72311,问题二输出结果详解 MeanNStd. Deviation股,24,问题二输出结果详解,（,2,）,秩统计表,下表,是多配对样本非参数检验的秩统计表。可以看到，“股票点播”变量的平均秩最大，等于,2.42,，说明它的点播量最大，排名更靠后；相反的，“劲爆笑话”变量的平均秩最小，等于,1.35,，说明它的点播量最小，排名更靠前。,Mean Rank,股票点播,2.42,劲爆笑话,1.35,每日运程,2.23,问题二输出结果详解（2）秩统计表Mean Rank股票点播,25,问题二输出结果详解,（,3,）,Friedman,统计表,Friedman,检验结果如下表所示，样本容量等于,31,，,Chi-Square,统计量等于,19.935,，自由度,df,等于,2,，近似相伴概,率,P,值为,0.000,，远远小于显著性水平,0.05,。所以拒绝零假设，认为这三种业务的点播量存在显著差异。这说明虽然它们位居所有业务的前三位，但其点播量还是存在显著的差异。因此，公司需要分开对待它们各自的点播业务特点。,N,31,Chi-Square,19.935,df,2,Asymp. Sig.,.000,问题二输出结果详解（3）Friedman统计表N31Chi,26,问题三输出结果详解,（,1,）,时间序列折线图,下图绘制了“股票点播”业务在该月每日点播量的时间序列图。可以看到，股票点播量是平稳的，但具有显著的周期性，在每个周末的点播量明显低于周内的点播量，这与股票周末休市有密切联系。于是考虑利用,ARMA,模型来刻画其波动性。,问题三输出结果详解（1）时间序列折线图,27,问题三输出结果详解,问题三输出结果详解,28,问题三输出结果详解,（,2,）,模型拟合优度检验表,下表给出了,AR(7,),模型的拟合优度值，可以看到拟合优度统计量,R2,等于,0.880,，说明模型的整体的拟合效果较好。,Ljung-Box,Q,统计量是对点播序列的线性相关性进行检验。从检验结果看，,LB,检验概率,P,值大于显著性水平,0.05,，说明序列基本不存在自相关性,问题三输出结果详解（2）模型拟合优度检验表,29,问题三输出结果详解,Model,Number of,Predictors,Model Fit statistics,Ljung-Box Q(18),Number of Outliers,Stationary,R-squared,Statistics,DF,Sig.,股票点播,-Model_1,0,.880,5.985,11,.874,0,问题三输出结果详解 ModelNumber ofModel,30,问题三输出结果详解,（,3,）,模型参数估计值表,下表列出了,AR(7,),模型的参数估计值。可以看到除了滞后,7,阶（,Lag,7,）的系数显著外，其他滞后项系数都没有通过显著性检验，其,t,检验的概率,P,值都大于,0.05,。假设“每日股票点播量”记为,Xt,，则最终拟合的模型为：,Xt=8.268+0.916 Xt-1,问题三输出结果详解（3）模型参数估计值表,31,问题三输出结果详解,Estimate,SE,t,Sig.,股票点播,Natural Log,Constant,8.268,.084,97.924,.000,AR,Lag 1,-.052,.075,-.697,.493,Lag 2,-.064,.081,-.798,.433,Lag 3,-.064,.081,-.786,.440,Lag 4,-.047,.084,-.561,.580,Lag 5,-.077,.080,-.965,.345,Lag 6,-.028,.079,-.354,.727,Lag 7,.916,.074,12.379,.000,问题三输出结果详解 EstimateSEtSig.股票点播N,32,问题三输出结果详解,（,4,）,残差自相关和偏相关图,下图给出了不同阶数下拟合模型的残差的自相关和偏相关图。可以看到，两列相关系数都落在置信区间内，说明残差序列的各阶自相关函数值和偏相关函数值都显著等于,0,，符合白噪声的特征。这也进一步反映了,AR(7,),模型的合理性。,问题三输出结果详解（4）残差自相关和偏相关图,33,问题三输出结果详解,问题三输出结果详解,34,问题三输出结果详解,（,5,）,模型拟合效果图,最后，下图显示了本实例提出的,AR(7,),模型预测值与实际值的拟合效果图。从图形来看，除了在初始几天的模型拟合值偏高外，其他时间的模拟拟合效果都较好，这样可以利用该模型进行后续日期的预测。,问题三输出结果详解（5）模型拟合效果图,35,问题三输出结果详解,问题三输出结果详解,36,第,17,章,SPSS,在金融市场中的应用,第17章 SPSS在金融市场中的应用,37,17.1,实例提出：美国金融危机下全球股市的波动影响,由于金融市场的传染效应，美国次贷危机已不仅仅影响到本国的股票市场，同时也影响了全球其他国家和地区的股票市场，例如，英国、日本和新加坡市场等。,下图表示了美国、英国、德国、日本、中国香港和新加坡等全球主要股票市场从,2007,年,1,月至,2008,年,1,0,月的股票价格日收盘指数。具体数据见,17-1.sav,所示。,17.1 实例提出：美国金融危机下全球股市的波动影响,38,不同国家股票指数走势图,不同国家股票指数走势图,39,三个问题,请你利用这些数据，分析以下问题：,请建立美国股指波动的数学模型；,请分析美国股指波动对其他国家地区的股票市场造成的影响程度；,请分析不同国家地区股指波动的差异性。,三个问题请你利用这些数据，分析以下问题：,40,17.2,实例的,SPSS,软件操作详解,问题一操作详解,问题一要建立美国道琼斯指数的波动模型，由于该指数主要随着时间的变动而变动，于是可以考虑建立该指数和时间之间的回归模型。首先从图形特点看，美股指数在研究日期内呈现明显的下降趋势，这反映了金融危机对其造成的显著影响。但是，指数的下跌并不是线性关系，而是表现为显著的非线性特征，于是可以考虑采用非线性回归模型进行数据的拟合分析。,17.2 实例的SPSS软件操作详解问题一操作详解,41,具体操作步骤,Step01,：,打开数据文件,打开数据文件,17-1.sav,。单击数据浏览窗口的,【,Variable View,(,变量视图,)】,按钮，检查各个变量的数据结构定义是否合理，是否需要修改调整。,Step02,：,设置因变量和自变量,选择菜单栏中的,【,Analyze,(,分析,)】【,Regression,(,回归,)】【,Curve Estimation,(,曲线估计,)】,命令，弹出,【,Curve Estimation,(,曲线估计,)】,对话框。在候选变量列表框中选择“美国道琼斯指数”变量设定为因变量，将其添加至,【,Dependent(s,)(,因变量,)】,列表框中。同时点选,【,Time,(,时间,)】,按钮，表示设置自变量为时间变量。,具体操作步骤 Step01：打开数据文件,42,SPSS在数据挖掘中的应用课件,43,Step03,：选择曲线拟合模型类型,从原始图像看到美股指数呈显著的非线性下跌趋势，于是在,【,Model,(,模型,)】,复选框中除了保留系统默认的,【,Linear,(,线性,)】,选项外，同时勾选,【,Exponential,(,指数分布,)】,和,【,Quadratic,(,二次项,)】,模型。这表示要对这三种模型进行曲线拟合，同时比较其拟合效果。,单击,【,OK】,按钮，完成本部分操作。,Step03：选择曲线拟合模型类型,44,问题二操作详解,具体操作步骤如下：,Step01,：,打开相关分析对话框,打开数据文件,17-1.sav,，选择菜单栏中的,【,Analyze,(,分析,)】【,Correlate,(,相关,)】【,Bivariate,(,双变量,)】,命令，弹出,【,Bivariate Correlations,(,双变量相关,)】,对话框。,Step02,：选择相关分析变量,在候选变量列表框中选择美国、日本、德国等五个国家股指变量，将其添加至,【,Variables,(,变量,)】,列表框中。这表示要分析两两国家之家股指的相关关系。,问题二操作详解具体操作步骤如下：,45,相关分析窗口,相关分析窗口,46,Step03,：,选择相关系数类型,在,【,Correlation Coefficients,(,相关系数,)】,选项组中勾选,【,Pearson,(,皮尔森,)】,、,【,Kendall,(,肯德尔,)】,和,【,Spearman,】,三种相关系数类型，表示结果窗口输出这三种类型的相关系数。,单击,【,OK】,按钮，完成本部分操作。,Step03：选择相关系数类型,47,问题三操作详解,具体操作步骤如下：,Step01,：,打开数据文件及对话框,打开数据文件,17-1.sav,，选择菜单栏中的,【,Analyze,(,分析,)】【,Classify,(,分类,)】【,Hierarchical,Cluster,(,系统聚类,)】,命令，弹出,【,Hierarchical Cluster Analysis,(,系统聚类分析,)】,对话框。,Step02,：,选择聚类分析变量,在候选变量列表框中选择美国、德国和日本等五个国家股指变量设定为聚类分析变量，将其添加至,【,Variables,(,变量,)】,列表框中。同时点选,【,Variable,(,变量,)】,单选钮。,问题三操作详解具体操作步骤如下：,48,Step03,：,输出聚类图,在主对话框中单击,【,Plots,(,绘制,)】,按钮，弹出,【,Plots,(,绘制,)】,对话框。勾选,【,Dendrogram,(,冰柱,)】,复选框，表示输出样品的聚类树形图。其他选项保持系统默认，单击,【,Continue】,按钮返回主对话框。,Step04,：,聚类方法选择,在主对话框中单击,【,Method,(,方法,)】,按钮，弹出,【,Method,(,方法,)】,对话框。选择,【,Transform,Values,(,转换值,)】【,Standardize,(,标准化,)】,下拉菜单的,【Z,scores(Z,得分,)】,标准化方法。其他选项保持系统默认，单击,【,Continue】,按钮返回主对话框。,Step05,：,单击,【OK】,按钮，完成操作。,Step03：输出聚类图,49,聚类分析,聚类分析,50,17.3,实例的,SPSS,输出结果详解,问题一输出结果,（,1,）,模型汇总及参数估计,下表给出了样本数据分别进行三种曲线方程拟合的检验统计量和相应方程中的参数估计值。,从拟合优度值,R Square,看到，二次曲线的拟合效果相对较好，达到了,76.3%,，而线性模型和指数函数的拟合优度连,50%,都没有达到。,虽然上述三个模型都有显著的统计学意义，但从拟合优度值的大小可以看到二次曲线方程较其他两种曲线方程拟合效果更好，因此选择它来描述美股下跌的趋势。,17.3 实例的SPSS输出结果详解问题一输出结果,51,Equation,Linear,Quadratic,Exponential,Model Summary,R Square,.330,.763,.340,F,215.314,702.740,225.819,df1,1,2,1,df2,438,437,438,Sig.,.000,.000,.000,Parameter Estimates,Constant,13495.485,12292.738,13524.252,b1,-3.668,12.659,.000,b2,-.037,模型汇总及参数估计,EquationLinearQuadraticExponen,52,（,2,）拟合曲线图,最后给出的是实际数据的散点图和三种估计曲线方程的预测图，这也进一步说明二次函数曲线方程的拟合效果最好。,需要注意的是，虽然选择的二次函数曲线拟合效果最好，但是它的拟合优度值也只有,76.3%,，其值也偏低。这说明股市的波动情况复杂，在较长时间范围内，很难用单一的非线性函数加以刻画；相反的，在短期内，由于股市波动变动不大，用曲线拟合的方法能得到较好的结果。,（2）拟合曲线图,53,拟合曲线图,拟合曲线图,54,问题二输出结果,（,1,）,Pearson,(,皮尔森,),相关系数表,首先,SPSS,列出了道琼斯工业指数和德国,DAX,指数、伦敦金融时报指数等其他五类指数的,Pearson,(,皮尔森,),相关系数表。从,Pearson,(,皮尔森,),相关系数大小看到，受美国股市影响强弱大小的其他国家股市分别为：新加坡、德国、英国和日本。可若从系数值看到，其他国家股市受美国股市影响都很大，说明它们的协同运动特征很显著。,（,2,）,非参数相关系数表,非参数相关系数表列出了这些股票指数的,Kendall,(,肯德尔,),和,Spearman,相关系数，它们系数值概率,P,值也远小于显著性水平。,问题二输出结果（1）Pearson(皮尔森)相关系数表,55,问题三输出结果,Stage,Cluster Combined,Coefficients,Stage Cluster First Appears,Next Stage,Cluster 1,Cluster 2,Cluster 1,Cluster 2,1,1,5,64.980,0,0,2,2,1,2,85.258,1,0,3,3,1,3,107.802,2,0,4,4,1,4,213.213,3,0,0,聚类过程表,问题三输出结果 StageCluster CombinedC,56,树形图,树形图,57,

展开阅读全文

SPSS在数据挖掘中的应用课件

最新文档