描述性分析_装配图网

资源描述

2数据转换(Transform)在有些情况下，原始数据难以满足数据分析的要求，需要对原始数据进行适当的转换o SPSS具体强大的数据转换功能，它不仅可以进行简单的变量转换和重新建立分类变量，还可以进行复杂的统计函数运算以及逻辑函数运算。计算产生变量重新赋值测量方位计数统计观测值单位排序自动重新赋值产生时间序列变量缺失值代替在主菜单中点击Transform命令，弹出数据转换子菜单，如图所示。Ccmp-ite .Rec u deVi s u al B ：diLder.CuiiiLt.E：h也 Cases.Aut on atic Recode，：ith! TirTit! S&rieE.FLepl ace M i eei ng V：=J_nieE. R：=ltli1 mm ffuniber Seed.Rijtl TeniliiLg Tr:tle orni e随机数2.1计算产生变量(Compute.)计算产生变量是根据已存在的变量，经函数计算后，建立新变量或替换原变量值。例如，我们在方差分析中常常要求对百分数和层数描叙的数据作反正弦函数的转换(sin-lSQRT(x)。ARSIN(SQRT(x)首先，打开数据文据文件(DATA1-1.SAV)，将数据调入工作区。然后，从菜单选择Transform- Compute.命令，弹出计算产生变量对话框，如下图:Target Variable:目标变量名指定栏。可以输入新的变量，也可以输入已有的变量。输入变量后，下边的Type&Label. 按钮就会被激活，点击它出现变量定义的对话框，可以设置以下变量属性。Label 栏：Label输入标签名。OUse expression as label:以数学表达式作为标签。Type 栏：Use Expression as label:数字型变量 OString字符型变量，Width： 8字符宽度。Numeric Expression:数学表达式输入使用键盘或利用系统提供的计算面板输入数学表达式。也可以将Functions（函数）框里的函数选入表达式中。系统提供了 70 多种函数，它包括算术函数，统计函数，分布函数，日期函数，缺失值函数和字符函数。f定义条件Include all cases：包括所有记录。OInclude if cases satisfies condition:符合条件的记录。选中此项后，条件输入框激活，在此框中输入变量的逻辑表达式。SPSS算术函数函数说明示例(x=3.6, y=2)ABS(x)绝对值函数ABS(y-x) -1.6ARTAN(x)反正切函数，得弧度值ARTAN(y) 1.11ARSIN(x)反正弦函数，得弧度值ARSIN(x/4) 1.12COS(x)余弦函数(弧度单位)COS(y) 0.47EXP(x)以e为底的指数函数EXP(y) 7.39LG10(x)以10为底的对数函数LG10(y*100) 2.3LN(x)以e为底的对数函数LN(y) 0.69MOD(x)取余函数M0D(x,y) 1.6RND(x)四舍五入后去正RND(x) 4SIN(x)正弦函数(弧度单位)SIN(y) 0.909SQRT(x)平方根函数SQRT(y) 1.41TRUNC(x)取整函数TRUNC(x) 3注：x可以是变量、常量，也可以是函数。2.2 自动重新赋值(Automatic Recode)有的时候，我们需要重新把数值变量或字符变量按它本身的数值大小转换成为从1开始的顺序整数，并存放在新变量对应的记录中。首先，打开数据文据文件(DATA3T.SAV)，将数据调入工作区。然后，从菜单选择“Transform Automatic Recode”命令，弹出连续型变量转换为分类变量对话框，如下图：操作步骤:1）从左边数据变量栏里把变量选入到右边的“Variabl甘New Name”框中。2）在“New Name： ”输入新变量名称后，点击Add New Name按钮加入到“Variable-New Name”框中。3）在“ Recode St ar ting from ”设置赋值顺序，有以下两种顺序：Lowest value:按从小到大顺序，赋值为1开始的顺序整数。OHighest valus:按从大到小顺序，赋值为1开始的顺序整数。4）单击OK按钮，执行转换。2列联表分析（Cross tabs）列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。SPSS的Cross tabs过程，为二维或高维列联表分析提供了 22 种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6 月25 日后）；预报因子5月份平均气温x1 （C）分为3级（1级为16.5C以下，2级为16.6-17.8C, 3级为17.8C以上），6月上旬平均气温x2 （C）分为3级（1级为20C以下，2级为20.1-21.5C，3级为21.5C以上），6月上旬降雨量x3 （mm）分为3级（1 级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4 （mm）分为3级（1级为29mm以下，2级为29.1-36mm, 3 级为36mm以上）。数据如下表。山东烟台历年观测数据分级表（）注：摘自农业病虫统计测报131页1）输入分析数据在数据编辑器窗口打开“ data1-3,sav ”数据文件数据文件中变量格式如下：2）调用分析过程在菜单选中“ Analyze-Descrip tive- Cross tabs命令，弹出列联表分析对话框，如下图rnmQ呦3）设置分析变量选择行变量：将“五月气温x1,六月上气温x2,六月上降雨x3,六月中降雨x4”变量选入“Rows:”行变量框中。选择列变量：将玉米螟卵高峰发生期y”变量选入“Columns:”列变量框中。4）输出条形图和频数分布表Display clustered bar charts:选中显示复式条形图。Suppress table:选中则不输出多维频数分布表。5）统计量输出点击“St atis tics”按钮，弹出统计分析对话框（如下图）。Qnc#i命玉乐眼阳詡s艇主期补汁月a |沱| 朴耳止屬页询為応月中眸M MlI Di刈加血kMdbwChart*Lttffl 1 otlFg|Ci osst abs: St at istics7 iChi-scijareNoriiiralContingency coefficientPhi and Cramers VLambdaUncertain CoefricienlNominal by IntervalEtaCojrelh onsOrdinalG.ammaSomers dI- Kendalls laujbKendalls lau-c 厂 KappaRi?kMcN&nriarCochran如 and Mantel-Haenwzel：赴曰h班Tel connnnon odds is lib equals:Chi-Square:卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验 (Con tinu ity Correc tion)及 Fisher 精确概率检验(Fishers Exac t test)的结果。Correlations:选中输出皮尔森(Pearson)和Spearman相关系数，用以说明行变量和列变量的相关程度。Nominal:两分类变量的关联度(Association)测量Contingency Coefficient:列联系数，其值越大关联性越强。Phi and Cramers V： Cramer列联系数，其值越大关联性越强。Lambda:减少预测误差率，1表示预测效果最好，0表示预测效果最差。Uncertainty Coefficient:不定系数Ordinal:两有序分类变量(等级变量)的关联度测量Gamma:关联度，+1表示完全正关联，-1表示负关联，0表示无联。 Somersd:列联度，其取值范围和意义同上。Kendalls tau-b：Nominal by Interval: 一个定性变量和一个定量变量的关联度Eta：关联度统计量。Kappa：吻合度系数，其取值-1至+1,其值越大吻合程度越高。厂Risk：危险度分析。McNemar:配对计数资料的卡方检验。Cochrans and Mant el-Haenszel st atis tics：检验在协变量存在下，两个二分类变量是否独立。6）设置列联表的显示单击“Cells”按钮，弹出列联表显示内容对话框（如下图）。Counts:频数R Observed:观测频数。闯Expected:期望频数。Percentages:百分比Row:占本行的百分比。Column:占本列的百分比。Tot al:占全部的百分比。Residuals:残差分析Unstandardized:非标准化残差分析。Standardized:标准化残差分析。Adj. Standardized:调整的标准化残差分析。Noninteger Weights:O Round cell counts:临近列计算。O Truncate cell counts:。O Round case Weights临近记录度量O Truncate case WeightsO No adjustments:不调整。7）设置输出格式单击Format按钮，弹出列联表输出格式对话框（如下图）。Crosstabs: Iab1. XRow Order:频数 Ascending:行变量从小到大升序排列。 O Descending:行变量从大到小降序排列。8）设置检验单击“ Exac t”按钮，弹出精确检验对话框（如下图）。Is act TestsHonte CarloConfidence level:Number of samples:EnactTime limit per fest:miriulesExact method 网ill be used imtead of Monte Carlo when computational limits IIoyl l-or nonasmptotic methods, tell counts are alwarounded or truncated in computing the test statistics.Asymp tot ic only近似的，系统设置。OMon te CarloConfidence level: 99% 置信度，系统默认 99%。Number of samples: 10000 样本数量，系统默认 10000。OExac tTime limit per test: 5 minutes限时检验时间，系统默认值5分钟。9）提交执行设置完成后，在列联表分析对话框中，点击OK按钮，计算结果输出在结果窗口中。10）结果与分析在结果窗口中查看计算结果，主要输出内容如下。五月气温 *玉米螟卵高峰发生期Crosstab玉米螟卵高峰发生期Total6月20日前6月2125日6月25日以后五月气温16.5以下Count （频数）Expected Count （期望值）12.722.031.366.016.617.8Count （频数）Expected Count （期望值）22.732.011.366.017.8以上Count （频数）Expected Count （期望值）52.712.001.366.0TotalCount （频数）Expected Count8&066.044.01818.0Chi-Square TestsValuedfAsymp. Sig. （2-sided）Pearson Chi-Square 皮尔森卡方检验7.750（a）4.101Likelihood Ratio 似然比卡方检验& 5104.075LinearbyLinearAssociation6.2481.012N of Valid Cases18a 9 cells （100.0%） have expected count less than 5. The minimum expected count is 1.33.其余的省约）结果分析：从交叉表(Crosstab)对角线中看出，只有“五月气温与玉米螟卵高峰发生期”对角线上出现的频数大于期望值(52.7, 32.0, 31.3)。从卡方检验表得知，也只有“五月气温与玉米螟卵高峰发生期”能通过线性间的联合检验(Linear-by-Linear Association)，双尾检验 p0.012。因此，玉米螟卵高峰发生期与五月气温有密切的关系，五月气温越高，发生越早。

展开阅读全文

描述性分析

最新文档