金融分析软件spss统计分析软件教案

资源描述

金融分析软件 SPSS 统计分析软件主讲教师：漆世雄公开信箱:密码:111111交作业：内容简介：?金融分析软件?是一门以SPSS统计分析软件作为工具，对金融统计中的一些数据、指标和实证问题进行数据处理和统计分析的综合课程。前半局部介绍SPSS的根本操作与统计分析方法，包括数据文件的建立与编辑、数据操作、描述性统计分析、相关分析、方差分析、回归分析、均值检验等内容；后半局部为实际应用，内容包括货币与银行统计分析、证券市场统计分析、外汇市场与汇率统计分析、国际收支统计分析和商业银行统计分析等。第一章 SPSS简介目前，在我国境内最流行的统计软件两个，一个是SAS(Statistical Analysis system)，统计分析系统，另一个是SPSS(Statistics Package for Social Science)，社会科学统计软件包。这两个软件的功能都十分强大，前者适用于比较专业的统计分析，它的统计处理操作主要是通过编程来进行，因此需要掌握大量的编程语句和语法规那么，但它的灵活性和适用性较强；后者也能够编写程序，但同时它提供了功能丰富的菜单，用户只要调用这些功能菜单，就能完成大局部常用的统计处理，非常方便。第一章 SPSS简介 20世纪60年代末，美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS，同时成立了SPSS公司，并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前，SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+，开创了SPSS微机系列产品的开发方向，从而确立了个人用户市场第一的地位。同时SPSS公司积极推行外乡化策略，目前已推出9个语种版本目前还没有中文版本。第一章 SPSS简介 SPSS/PC的推出，极大地扩充了它的应用范围，使其能很快地应用于自然科学、技术科学、社会科学的各个领域，世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。SPSS使用Windows的窗口方式展示各种管理功能和分析数据的方法，使用对话框展示出各种功能选择项，只要掌握一定的Windows操作技能，再粗通一些统计分析原理，就可以使用该软件为特定的科研工作效劳。第一章 SPSS简介 SPSS for Windows是一个组合式软件包，它集数据整理、分析功能于一身。SPSS的根本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类，每类中又分好几个统计过程，比方回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程，而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统，可以根据数据绘制各种图形。第一章 SPSS简介 SPSS for Windows的分析结果清晰、直观、易学易用，而且可以直接读取EXCEL及DBF数据文件，现已推广到多种各种操作系统的计算机上，它和SAS、BMDP并称为国际上最有影响的三大统计软件。和国际上几种流行的统计分析软件比较，它的优越性更加突出。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分中，其诸项功能均获得最高分。在国际学术界有条不成文的规定，即在国际学术交流中，但凡用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。第一章 SPSS简介但是SPSS很难与一般办公软件如Office或是WPS2000直接兼容，在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表，已经遭到诸多统计学人士的批评；而且SPSS作为三大综合性统计软件之一，其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。虽然如此，SPSS for Windows由于其操作简单，已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。第一章 SPSS简介随着计算机系统软件的开展，SPSS的版本也在不断升级换代，除了适应新的系统软件、不断增加新的统计方法和新的函数以外，它的操作界面也在不断地改进，使得操作起来更加方便。其中操作界面的最大一次改变，是出现在SPSS8.0到SPSS10.0之间的变化，它第一次单独开辟一个窗口用于变量的设置，从而使得变量的设置更加方便和直观。目前最新的版本为 SPSS 13.0版，其操作窗口相对于10.0、11.0和12.0版来说，有了比较多的变化，其中最主要的变化是：1、它支持长变量名8个以上的英文字符；2、增加了许多新的统计方法；3、它所包括的函数大大增加了，并且对函数做了归类。第一章 SPSS简介从易学、易用性来说，SPSS具有明显的优越性，它更适用于非统计专业的人员使用，只要是初步掌握了一些统计知识的人，都很容易上手。相比之下，SPSS在我国的应用和普及程度要比SAS更广泛一些。归纳起来，SPSS统计软件具有以下一些特点：1在SPSS中普遍使用Windows的窗口方式来管理程序运行的全过程，通过对话框来实现各种命令参数的设定，只要掌握了Windows的操作方法，又粗通一些统计分析原理，就可以应用该软件得到具有专业水准的统计分析结果。第一章 SPSS简介 2SPSS具有强大的数据库互接功能，在其它数据库软件中建立的数据库文件可以非常方便地导入到SPSS中，包括dBASE、Excel、Foxpro、VF、MS access、text等数据文件，利用SPSS进行统计处理。3SPSS具有强大的图表功能，使用该软件不但可以得到数字式的分析结果，还可以得到各种统计报表和形象直观的统计图形。第一章 SPSS简介教材和参考书的选择：在教学中的一些主要例题、数据文件和练习题都是采用中国水利水电出版社的是?SPSS实用统计分析?郝黎仁编著，SPSS 11.0，我们希望每人都能拥有一本并把它作为一本工具书来对待。在教学中另有一局部例题和理论解释来自于?应用数理统计?中央广电出版社，并且采用excel作为统计公式的计算、解释和验证，对excel有关操作可参考任何一本关于excel使用方法的书籍。第一章 SPSS简介马春庭主编：?掌握和精通SPSS10.0?，中国机械出版社出版。该书在介绍SPSS的根本操作方法上，具有直观、容易掌握的特点，缺点是，没有对输出结果作出必要的解释。有兴趣的同学可以将这本书作为参考书。第一章 SPSS简介苏金明编著?统计软件SPSS12.0 for Windows应用及开发指南?，电子工业出版社。对于本课程特别感兴趣、希望能够继续深入学习的、将来有志于从事这项工作的同学，我们推荐这本书。该书有一局部“二次开发的内容介绍，适合于高层次的专业人员的学习。第二章认识SPSS系统2、1 SPSS程序主界面 SPSS程序主界面和我们熟悉的Excel界面很相似，整个屏幕主要是由一幅二维平面表格构成。屏幕的第一行为标题拦。它显示目前数据文件的文件名。当没有数据文件存在时，系统将指定一个默认的文件名：Untitled。屏幕的第二行为程序主菜单，它包括以下10个菜单项：1File 文件操作2Edit 文件编辑3View 视图4Data 数据文件建立与编辑第二章认识SPSS系统5Transform 数据转换6Analyze 统计分析7Graphs 统计图表的建立与编辑8Utilities 实用程序9Windows 窗口控制 10Help 帮助屏幕的第三行为图标按扭，用来执行功能菜单中的常规任务。第二章认识SPSS系统屏幕中间的主体局部表格区为数据编辑区，它有两个选项卡：Data View 和Variable View，在“Data View中可以进行数据录入、或翻开一个已经存在的数据库文件，在“Variable View中可以定义数据的类型。2、2 数据录入数据录入的过程分为两个步骤：第一步，根据原始数据定义每个变量的数据类型，如姓名、性别为字符型变量；身高、体重为数值型变量，出生年月为日期型变量等等。第二步，将每个具体的变量值录入相应的单元格内。第二章认识SPSS系统2、2、1 定义变量的数据类型1、在启动SPSS后的主界面中，单击“Variable View选项卡，此时出现的界面与主界面相似；2、在“Variable View 选项卡的数据表格中定义变量的属性：Name 变量名Type 变量的数据类型Width 变量的字符宽度Decimals 数值型变量的小数位数Label 变量名标签第二章认识SPSS系统Value 变量值标签Missing 缺失值Columns 列宽度Align 对齐方式Measure 测度标准2、2、2 录入数据单击“Data View选项卡，回到数据视图，选中将要录入数据的单元格，将各变量值一一录入。练习：将以下数据录入，并取名“学生保存。第二章认识SPSS系统学号姓名性别年龄身高体重1 刘一迪 1 13 156.0 47.52 许兆辉 1 13 155.0 37.8 3 王鸿屿 1 13 144.6 38.64 江飞 1 13 161.5 41.65 袁冀鹏 1 13 161.3 43.36 段燕 2 13 158.0 47.37 安建萍 2 13 161.0 47.18 赵冬丽 2 13 162.0 47.09 叶敏 2 13 164.3 33.8 第二章认识SPSS系统2、3 简单统计分析利用我们录入的数据库文件“学生，作一个简单的描述性统计分析。步骤：1、翻开数据库文件“研究生；2、翻开Analyze菜单项，选择Descriptive Statistics，单击“Descriptives，此时将出现一个对话框；3、在左边的矩形框中选择想要作统计分析的变量送入右边的矩形框内，如：选择“身高送入右边的矩形框中；4、单击“OK按扭，系统随即开始按默认的选项进行统计分析，并输出分析结果。第二章认识SPSS系统在输出窗口中，将会看到以下表格：Descriptive Statistics N Minimum Maximum Mean Std.Deviatio成绩 20 75 92 84.9 5.241Valid N 20其中：Valid 有效数据的个数Minimum 最小成绩Maximum 最大成绩Mean 平均成绩Std.Deviation成绩的标准差第二章认识SPSS系统其中：第三章创立数据文件3、1变量在SPSS中的变量与数学中变量的定义相同，可以取多种不同值的量称为变量。在主界面表格中，每一个列都存放着同一个变量的各种不同取值，每个列的顶端是变量的名称系统默认的变量名为var00001、var00002等。每个变量都有自己的属性，在定义变量时必须同时定义变量的属性Variable Type。变量的属性有：变量名、变量的数据类型、变量的字符宽度、数值型变量的小数位数、变量名标签等等。第三章创立数据文件3、1、1变量名(Name)在为变量命名时，直接在Name栏中键入变量名称即可，但要注意以下几点：1变量名不能多于8个英文字符或四个中文字符；2第一个字符必须是字母或汉字，其后可以是数字或其它字符&、？、!、+、-、*、/这些字符除外。不能以下划线“_和小数点“.作为最后一个字符。第三章创立数据文件3变量名不能采用SPSS的保存字。这些保存字有：ALL、AND、BY、EQ、GE、GT、LE、LT、NT、NOT、OR、TO、WITH；(4)变量名中的英文字符不区分大小写无论输入大小写，系统均按小写显示。如ABC与abc被认为是同一个变量。3、1、2 变量类型Type 定义变量类型是指每个变量的数据类型。SPSS的变量有三种类型：数值型(Numeric)、字符型(String)和日期型(Date)。第三章创立数据文件1、数值型变量数值型变量按不同要求又细分为五种：(1)标准数值型Numeric：默认总长度8位可修改，默认小数位数2位可修改。输入 1234 123456789 1.2E4 1.2E13显示为 1234.001.23E+08 12000.00 1.20E+13(2)带逗点的数值型变量Comma：默认总长度8位可修改，默认小数位数2位可修改。显示时整数局部自右向左每隔三位用一个逗点作分隔符。第三章创立数据文件(3)带圆点的数值型变量Dot：默认总长度8位可修改，默认小数位数2位可修改。显示时整数局部自右向左每隔三位用一个圆点作分隔符，而用逗点代替通常的小数点符号。此时键盘上的小数点输入将会失效(4)科学计数法Scientific Notation：对于数值很大或很小的变量可采用科学计数法，如1.23E+10或1.23E-10，其中的“E可以用“D代替，也可以略去不写，如1.23D+10或1.23+10。(5)带美元符号的数值型变量Dollar：默认总长度8位，默认小数位数2位。如果用户认为以上五种数值类型仍不能满足要求，还可以自己定义数值类型：第三章创立数据文件(6)用户自定义类型(Custom Currency)在SPSS中用户可以创立自己的数据类型。用户自定义的数据类型最多不超过五种，这五种自定义数据类型分别被命名为CCA、CCB、CCC、CCD和CCE。用户不能对这些命名进行修改。例：将CCA定义为“￥*.*元的数据类型。操作过程：单击Edit Option，在单击Currency选项卡；在“Custom Output Formats选项栏中选中“CCA；在“All Values选项栏中，在“Prefix后输入“￥，在“Suffix后输入“元；第三章创立数据文件完成后，单击“确定。在“Decimal Separator选项栏中，可选择小数点符号，Period 表示圆点系统默认，Comma表示逗点。2、日期型变量Date 日期型变量用来表示日期和时间，用户可以根据具体数据和要求在列表框中选择一种格式。在通常情况下，日期型变量不能直接参与运算，必须使用有关函数将其转变为数值型变量后才能进行运算。例如：mm/dd/yyyyCTIME.DAYS(10/15/1582)=1CTIME.DAYS(10/15/1583)=366第三章创立数据文件例：对以下商业票据，计算票据天数、贴现天数和贴现金额：当天日期是09/12/2006(贴现利率为6%=0.06票据票据金额开票日期到期日期当天日期A 5000 12/11/2005 12/11/2006B 8000 05/18/2006 11/18/2006C 10000 06/28/2006 09/28/2006票据天数贴现天数贴现利息贴现金额第三章创立数据文件3、字符型变量(String)默认总长度：8 字符型变量的值是一串字符，它所包含的字符最多不能超过变量的总长度。用户可以定义两种字符型变量：短字符变量：由8个以下字符组成或4个汉字；长字符变量：由8个以上字符组成。长字符变量在使用时会受到较多的限制，建议尽量不要使用。3、1、3 变量名标签(Label)为变量名设置标签，是为了进一步对变量名作出解释性的说明。由于变量名受字符数的限制，有时不能充分表达其含义。通过对变量名设置标签，可以输入一段解释性的文字，以进一步说明变量的含义。用于变量名标签的字符数英文字母可多达255个。第三章创立数据文件例如，在Variable View窗口中，变量名“id的标签是“编号；“name 的标签是“姓名；“sex的标签是“性别等等，这在 SPSS的早期版本如6.0版中很有用，因为当时的版本变量名不能使用汉字。给变量名设置标签后，在Data View窗口中，当光标停留在“sex上时，会自动显示出该变量标签的内容“性别。练习：给数据文件“学生的变量名建立标签。3、1、4 变量值标签Values通过对变量值设置标签，可以对变量的每一个取值作进一步的附加说明。虽然可以对任何变量设置值标签，第三章创立数据文件但我们只需要对那些分类变量设置值标签。分类变量又称为分组变量，可以利用它把全部的观测值分成不同的组在Data View窗口中，每一个行称为一个观测值，或称一个记录。练习：对于数据文件“学生中变量“性别，值“1定义标签为“男性；值“2定义标签为“女性，然后按性别分组，进行描述性统计分析，观察在输出窗口中有什么不同？3、1、5 缺失值Missing在实际工作中可能会由于某种原因使记录的数据失真：如没有记录到或记录错误。例如在对一个少年测量身高、体重时，测量了身高体重，却没有填写年龄。但这个记录的其它数据还可以使用。对于这个记录来说，年龄就成为缺失值。第三章创立数据文件另一个少年记录中的身高为2.58米，显然是失真的，不能使用。该项记录的身高也应作为缺失值处理。通过定义缺失值，可以对这些非法数值加以限制，以便在数据分析时将它们排除。定义缺失值的方法：翻开Missing Values对话框，可以看到有三个选项：No missing values 无缺失值，这是系统默认的状态。Discrete missing values 离散型缺失值，选择此项，可以在下面的矩形框中输入三个确定的、可能在变量中出现的值作为缺失值。也可以少于三个，但不能多于三个。第三章创立数据文件Range plus one optional discrete miss 指定一个缺失值的数据范围，另外还可以再指定一个该范围以外、单独一个确定的缺失值。练习：在数据文件“data中，改变四个记录的身高为：1.30、1.90、1.95、2.03，然后定义缺失值的范围：1.902.03和1.30，作描述性统计分析，观察输出结果。3、1、6 列宽度(Columns)该选项可以为变量值显示时占用的宽度指定一个列数。指定列宽度后，只影响数据在编辑窗口中的显示效果，并不影响变量的总宽度和变量值的精确度。第三章创立数据文件练习：改变数据文件“data中“身高的列宽度，观察显示效果。3、1、7 对齐方式Align Align的设定只是影响数据在编辑窗口中的显示效果，有三种选择：中间对齐Center、左边对齐Left、右边对齐Right。对于数值型变量，系统默认状态是右边对齐；对于字符型变量，系统默认状态是左边对齐。练习：改变数据文件“data中“身高的对齐方式，观察显示效果。第三章创立数据文件3、2 数据的一些概念和数据的获得3、2、1 总体、个体、特征与数据 1、总体总体就是所研究对象的全体，称为总体(或母体)。2、个体组成总体的元素，称为个体。3、指标或变量表征个体特征(信息)的量，称为指标或变量。第三章创立数据文件4、指标值变量值或数据Data 在研究一个总体时，所要研究的每个特征(指标或变量)，在每个个体上，都有一个反映该特征的具体描述可以是数字，也可以是文字，这些特征的具体描述被称为指标值变量值或数据。3、2、2 获得数据的调查方法与问卷设计获得数据的方法，可以分为两大类：一是观察(调查)方法，二是实验方法。其中观察调查方法，又可以分成两大类：一是普查方法，二是抽样调查方法。本节仅讨论获得数据的调查方法。第三章创立数据文件1、概念与根本方法1普查普查是针对有限总体而言的。普查，就是收集有限总体中每个个体的有关指标的指标值或变量值。2局部调查与样本局部调查是在总体中选择一局部个体进行调查，从所了解的局部数据来了解总体情况。总体中，局部个体所组成的集合称为样本集合。局部调查又称为抽样调查。抽样调查，有两层含义：一是抽样抽取局部个体；二是调查调查那些反映在个体上的、所要研究的特征的数据。调查样本个体(抽样所得到的个体)所得到的数据，称为样本数据。第三章创立数据文件(3)抽样方法从总体中抽取个体的方法，可以分为两大类，一是非随机抽样；二是随机抽样。A、非随机抽样或判断性抽样B、随机抽样或概率抽样 C、简单随机抽样 2、数据调查中的假设干重要问题 A、问卷问题的产生 B、问卷问题设立的关键：能够获得老实的答复第三章创立数据文件n但凡不能获得老实答复的问题，都不应当设置在问卷中。n对“疑心得不到老实答复的问题，应当在不同位置，设置相同、相近、相反的问题，以求相互验证。nC、问卷问题写法的几个关键n对单项选择问题：备选答案应当是一个空间的完整划分n对单项选择问题：备选答案不应当是两个空间层面的混淆 n但对于多项选择题，备选答案可以交叉，也可以处于不同层面n无论对多项选择题还是单项选择题(特别是对单项选择题)，任何一个备选答案都不能有多重含义第三章创立数据文件n无论对多项选择题还是单项选择题(特别是对单项选择题)，备选答案之间不能有包含关系n问题设计的用词要准确 n问题设计的用语要含义明确 n3、3 样本数据特征的初步分析 n3、3、1 样本数据结构的基木特征：频次频数与频率 n 如果样本数据集合中的数据总个数是n个，那么，某个样本值出现的频率，就由下式计算：n 某样本值的频率=该样本值出现的频次/n 第三章创立数据文件3、3、2 观察样本数据根本特征频次与频率的图形方法 1、表示频次与频率的饼图绘制饼图要求不同的样本值的个数指不重复的样本值的个数不能很多。否那么，难以在有限的纸张上，把不同样本值的频次和频率表示清楚。2、表示频次与频率的条形图表示频次和频率的条形图的构成是：1横坐标表示样本数据的不同取值。2纵坐标表示相应的样本值出现的频次或频率。第三章创立数据文件3、4 数据的编辑在SPSS中，对数据的编辑主要是通过“Data和“Edit两个主菜单的功能来实现的，这两个主菜单的功能表达如下：1Data主菜单Define Dates 自动生成时间系列周期Insert Variable 插入一个变量插入一个列Insert Case 插入一个观测量插入一个行Go To Case 定位到指定的观测量第三章创立数据文件Sort Case 按照某个变量的值对观测量进行排序如按身高排序、按体重排序等；Transpose 将数据文件转置数据文件的行与列相互交换Merge file 合并数据文件将在以后介绍；Aggregate 对数据作分类汇总例如按年龄分类，求身高的均值；按性别分类，求体重的均值等等；Select Case 选择观测量如设定条件选择、设定范围选择等等；Weight Case 对观测量做加权处理。第三章创立数据文件例：以下数据资料是某化工批发站两个年度销售的主要产品的数量和价格，要求计算拉斯贝尔产量指数、派许价格指数和总销售额指数：产品名称单位基期产量基期价格报告期产量报告期价格硫酸吨 3500.00 0.6430 3850.00 0.6400 硝酸吨 300.80 0.4000 400.00 0.4115 盐酸吨 1265.50 0.3654 1500.00 0.3500 纯碱吨 1156.43 0.1154 1208.00 0.1170 烧碱吨 300.00 0.1085 450.00 0.1200拉斯贝尔产量指数：派许价格指数：练习：对数据文件“cars.sav中的变量“horse随机选择其中20个观测量，将着20个观测量删除，使其成为缺失值。第三章创立数据文件例：对以下分配数列计算工人平均日产量件/人。工人按日产量件分组x 工人人数f 20 1 21 4 22 6 23 8 24 12 25 10 26 7 27 2合计：50第三章创立数据文件例：对于以下数据资料，试计算ABC银行年利率的平均开展速度：年利率开展速度%x 年数 f 103 1 105 4 108 8 110 10 115 2合计：25解：年利率开展速度第三章创立数据文件以上算式如果先取对数，那么相对容易：第三章创立数据文件例：对于以下数据资料，计算19811997年的环比开展速度和环比增长速度：年份 1980 1981 1982 1983 1984 1985 1986发电量亿度 5.60 6.76 8.25 7.74 7.16 9.40 11.59年份 1987 1988 1989 1990 1991 1992 1993发电量亿度13.84 15.24 16.68 16.68 19.56 20.31 22.34年份 1994 1995 1996 1997发电量亿度25.66 28.20 30.06 30.93第三章创立数据文件例：将一枚骰子重复掷了10次，求“6点出现0次、1次、2次、10的概率。解：“6点出现0次的概率：“6点出现1次的概率：其中：第三章创立数据文件“6点出现2次的概率：“6点出现3、4、5、6、7、8、9次的概率，省略。“6点出现10次的概率：类似于这种形式的分布，在概率论中称为“二项分布。第三章创立数据文件以上的计算在SPSS中可使用函数PDF.BINOM()计算二项分布的概率值。例如：PDF.BINOM(2，10，1/6)=0.29071例：第三次全国人口普查登记的质量，经抽样检查说明质量相当高，由于重报、漏报造成的人口数过失率仅为0.015%。假设随机抽取10000张普查登记表进行核实，求发现人口数过失为0、1、2、3人的概率。要求分别采用二项分布和泊松分布计算，并比较它们的差异。解：二项分布：第三章创立数据文件泊松分布：根据泊松定理，在二项分布中，当 p 很小而n很大时，可用泊松分布来近似计算相应的概率，此时在本例中：p=0.00015，n=10000，所以在SPSS中，可使用函数PDF.POISSON()计算泊松分布的概率值。第三章创立数据文件例：某班共有学生20名，其中有5名女生。从班上随机抽选4名代表，求这4人中，女生人数为0、1、2、3、4的概率。解：用X表示抽到的4人中，女生的人数，那么X可取0、1、2、3、4这五个值。因为：所以：P(X=0)=0.2817，P(X=1)=0.4696，P(X=2)=0.2167，P(X=3)=0.0310，P(X=0)=0.0010类似于这种形式的分布，在概率论中称为“超几何分布。在SPSS中，用PDF.HYPER()计算超几何分布的概率值。例如：PDF.HYPER(3，20，4，5)=0.0310第三章创立数据文件例：某厂在生产管理中对工人完成某道工序的时间进行调查，发现工人们完成该道工序的平均时间为10分钟，标准差为3分钟。假定工人完成该道工序的时间服从正态分布，问1、从该工序中任选一人，其完成该道工序的时间不到7分钟的概率是多少？2、为了保证生产连续进行，要求以95%的概率保证该道工序上的工人完成工作的时间不多于15分钟，这一要求能否得到保证？解：根据条件，1、所求概率为：P(X7)=(7)=CDF.NORMAL(7,10,3)=0.1587 或：=CDFNORM(7-10)/3)=0.1587 左侧概率1070.1587第三章创立数据文件2、工人完成工作的时间不多于15分钟的概率为：P(Xx1)=0.05，或者使得P(Xx1)=0.95；同理，求x2的值使得P(Xx2)=0.90；求x3的值使得P(Xx3)=0.80。在SPSS解决以上问题时，可使用函数 IDF.NORMAL()，即IDF.NORMAL(0.95，3000，40)=3066IDF.NORMAL(0.90，3000，40)=3051IDF.NORMAL(0.80，3000，40)=3034答：发放一等奖的产量标准应定在3066件；发放二等奖的产量标准应定在3051件；发放三等奖的产量标准应定在3034件。30000.20.10.05第三章创立数据文件正态分布函数的用法：CDFNORM(zvalue)标准正态分布，定位点求左侧概率值；CDF.NORMAL(q,mean,stddev)正态分布，定位点求左侧概率值；IDF.NORMAL(p,mean,stddev)正态分布，左侧概率值求定位点；PDF.NORMAL(q,mean,stddev)正态分布，定位点求密度函数值；练习：1、编制标准正态分布概率值表；2、绘制标准正态分布函数图形；3、生成一组来自标准正态分布 N(0，1)的样本数据，并验证其均值为0，标准差为1。第三章创立数据文件提示：先在excel中生成一列数据：-4.0，-3.8，0，3.8，4.0 再将这一列数据复制到SPSS中，作为自变量t的值，利用函数PDF.NORMAL(q,mean,stddev)生成一列标准正态分布的密度函数值，取变量名为normal。其中mean取0，stddev取1。点击Graphs Area Simple Define，选中other summary function，在variable中送入变量normal，在Category Axis中送入变量t，点击OK。将变量normal扩大10000倍作为权重变量，对变量t进行描述统计。假设要取整数，可利用函数TRUNC()第三章创立数据文件2Edit主菜单Undo 撤消前一个操作Redo 恢复上一个操作Cut 剪切指定数据Copy 复制指定数据Paste 粘贴指定数据Clear 去除选定内容Find 查找Option 系统运行环境设置第三章创立数据文件在数据编辑窗口中的“View主菜单中，提供了几个与数据显示有关的选项：Fonts 字体，它决定了数据显示时的字体特征，包括字体、字样和字号；Grid Lines 网格线，用于显示或隐藏数据编辑窗口中的单元格线；Value Labels 用于显示变量的真实数值或显示用户定义定义的变量值标签。第三章创立数据文件3、3由已经存在的变量建立新变量就是通过对已经存在的变量进行加、减、乘、除、开方、乘方和函数运算，生成一个新的变量。如对学生的各科成绩：数学、语文、英语、物理、化学进行汇总得到一个新的变量“总成绩，对它们求平均数也得到一个新的变量“平均成绩。练习：翻开数据文件“成绩单，增加两个新变量“总成绩和“平均成绩。操作步骤：第三章创立数据文件(1)翻开数据文件“成绩单；(2)单击TransformCompute，翻开Compute Variable对话框；(3)在Target Variable矩形框中输入“总成绩，将左边矩形框中的变量数学、语文、英语、物理、化学送入右边的Numeric Expression矩形框中，并用加号相连；(4)单击OK按扭。第三章创立数据文件练习：对于数据文件“企业，增加三个新变量：利润额、利润率1定义标签：销售利润率、利润率2定义标签：本钱利润率。在SPSS 中的根本运算符有三种类型：根本运算符、关系运算符、逻辑运算符。根本运算符包括：+加;-减;*乘;/除;*幂运算;()括号。第三章创立数据文件关系运算符包括：大于；=大于等于；=等于；=不等于。逻辑运算符包括：&与；|或；非。在SPSS中，用户可以使用的函数有10个类别共100多个函数。函数的表示方法是，在函数名后面的括号中添上一个或多个参数，个参数之间用逗点隔开。如ABS(x)求x的绝对值，SQRT(x)求x的平方根，MEAN(x1,x2,xn)求x1，x2，xn的平均值等等。这些函数我们将在需要的时候加以介绍。第三章创立数据文件条件表达式if的运用：通过条件表达式进行判断，可以有针对性地选择局部观测量计算新变量的值，或者针对不同的观测量采用不同的表达式计算新变量的值。练习：在数据文件“成绩单中，建立新变量“是否重修字符型，然后挑出成绩低于60分的学生，标注其值为“yes。第三章创立数据文件3、4从Excel电子表格中读入数据文件利用SPSS的数据转换接口，可以从Excel电子表格中读入数据文件，并转换为SPSS格式的数据文件，从而利用SPSS对数据文件进行统计分析。练习：将Excel格式的数据文件“复利系数表读入SPSS数据编辑窗口。操作步骤：(1)在SPSS数据编辑窗口中，单击FileOpen，就会出现“Open File目录框，找到文件所在位置，在“File of type下拉菜单中选择“Excel*.xls；第三章创立数据文件(2)单击“Open，就会出现“Opening Excel Data Source对话框：选中“Read variable name from the first row of date就会以Excel表格中的第一行数据作为SPSS数据表格中的变量名；在“Worksheet输入框中，可选择Sheet1、Sheet2或 Sheet3；在“Range输入框中，可在一张表格中选择数据的范围。(3)单击OK按扭。第四章数据文件的操作及变换对数据文件的操作可以通过主菜单Data的菜单项来进行，它包括的操作功能如下：Define Dates 自动生成时间系列周期；Insert Variable插入一个变量插入一个列；Insert Case 插入一个观测量插入一个行；Go To Case 定位到指定的观测量；Sort Case 按照某个变量的值对观测量进行排序如按身高排序、按体重排序等；第四章数据文件的操作及变换Transpose 将数据文件转置数据文件的行与列相互交换；Merge file 合并数据文件；Aggregate 对数据作分类汇总例如按年龄分类，求身高的均值；按性别分类，求体重的均值等等；Select Case 选择观测量如设定条件选择、设定范围选择等等；Weight Case 对观测量做加权处理。从第16项功能我们在前面已经作过介绍，本章介绍第710项。第四章数据文件的操作及变换4、1数据文件的合并合并数据文件包括两种方式：1纵向合并，增加观测量。将外部数据文件的观测量增加到当前的数据文件中。相互合并的两个数据文件应该有相同的变量它们的列数相同，对应的变量名称相同。2横向合并，增加变量。将外部数据文件的变量增加到当前的数据文件中。相互合并的两个数据文件应该有数量相同观测量它们的行数相同。第四章数据文件的操作及变换4、1、1纵向合并，增加观测量例：将数据文件“add1.sav中的观测量添加到数据文件“学生中。操作步骤：(1)翻开数据文件“学生；(2)单击DataMerge FileAdd Case，在Add Case：Read File目录框找到要合并的文件，单击“翻开；第四章数据文件的操作及变换(3)在出现的对话框有左右两个矩形框，左边的名称为：Unpaired Variable:，右边的名称为：Variables in New Working Data File:。在Unpaired Variable:下边列出的是未配对的变量两个数据文件对应位置的变量名称不一致，它们存在于当前的数据文件或外部数据文件中。其中标有*的是当前数据文件中的变量；标有+的是外部数据文件中的变量。在Variables in New Working Data File:下边列出的是配对变量。其中标注有“按钮，单击后，下方列出了基于比例评估和Z分数的两种秩参数，这两项可以同时选择：Proportion estimates：评估特定秩参数的累积分布比例。Normal scores：与累计分布比例相应的Z分数。如果选中“Proportion estimates，将在数据表中增加一列新变量，如“pheight选中height作为排秩变量，该变量的值由以下矩形框中比例评估的公式确定。在对话框的最下方的矩形框中选择比例评估的公式：第四章数据文件的操作及变换Blom：系统默认选项。基于以下比例评估公式来计算新的秩变量：其中：r 秩参数；w加权观测量的总和。第四章数据文件的操作及变换Tukey：公式为Rankit：公式为 Van der waerden：公式为第四章数据文件的操作及变换练习：将数据文件“学生中的“身高作为排秩变量，然后单击“more，选中“Proportion estimates、Blom，进行排秩操作，完成后，再利用compute 生成一个新变量：pheight2=(rheight-3/8)/(30+1/4)，比较“pheight与“pheight2的值是否相同？(7)单击Ties图标按钮，弹出Rank Cases：Ties对话框。在对话框中选择处理同秩变量的方式：Mean：出现同秩变量时，新变量的值取中间值。Low：出现同秩变量时，新变量的值取最小值。第四章数据文件的操作及变换High：出现同秩变量时，新变量的值取最大值。Sequential ranks to unique values：出现同秩变量时，新变量连续取值。操作练习：对数据文件“机械厂按性别的不同对年龄进行排秩，并分别以上述四种方式处理同秩变量，然后进行排序操作sex，rage观察结果。第四章数据文件的操作及变换4、10 自动编码在许多统计分析过程中，当分类变量不是连续数时，产生的空白单元格会降低系统性能且增加对存储容量的需求。而且，某些过程不允许使用字符型变量作为衡量因素水平的标准，而要求使用连续的整数值。采用自动编码可以将字符串和数值转换为连续整数，以满足某些分析过程的特殊需要。当在数据窗中读入了一个数据文件以后，对数据进行自动编码的步骤如下：(1)在主菜单中单击Transform，展开下拉菜单，从下拉菜单中选择Automatic Recode菜单项，弹出自动编码对话框；第四章数据文件的操作及变换(2)在左边的源变量列表框中选择待进行编码的变量名，单击向右箭头按钮，将它移送到右边的VariableNew Name框中。(3)自动编码产生的结果要通过新的变量名保存。在New Name右方的框中输入用来存放编码的新变量名。(4)单击New Name图标按钮，将新变量名移送到VariableNew Name框中。(5)重复以上2、3、4步，将其它还需要进行编码的其它变量移送到Variable New Name框中并分别对新变量命名。(6)在对话框的下方有一个Recode Starting from矩形框，其中有两个单项选择项，通过单项选择项确定按变量值编码的方向：从最大变量值还是从最小变量值开始编码。第四章数据文件的操作及变换Lowest value：从最小值开始编码。这是系统默认选项。Highest value：从最大值开始编码。(7)单击“OK执行自动编码操作。编码后的结果通过新变量名显示在数据窗中。操作练习：对数据文件“学生中的变量“name、“age、“height分别以新变量名“name1、“age1、“height1进行自动编码。对原始变量“姓名(字符型变量)、“年龄(分类变量)、“身高(连续型数值变量)进行自动编码后，生成的新变量命名为“姓名1、“年龄1、“身高l。其中“姓名按字母顺序进行编码，“年龄只有三种不同数值：13、14、15，对应的编码分别为1、2、3。第四章数据文件的操作及变换4、11 时间系列的变换利用己存在的时间系列变量值，通过函数变换产生新变量，这些新变量值将会在许多时间系列的分析过程中用到，比方，计算存贷款利息等。当在数据窗中读入了一个数据文件后，创立新的时间系列变量值的具体步骤如下：1、在主菜单中，单击Transform，从弹出的子菜单中选择Great Time Series菜单项，弹出创立时间系列新变量对话框；2、指定建立新变量时要使用的函数。单击Function下面框中的向下箭头，从下拉列表框中选择一种函数。下面对各种函数分别作一介绍：第四章数据文件的操作及变换(l)Difference：差分。按差分的阶数可分为一阶差分、二阶差分等。以下表格中显示了计算差分的一般方法：变量值3945445862596148一阶差分6-1144-321二阶差分-715-10-75 3 计算一阶差分时，以原始变量值为根底，当前变量值减去前一个变量值即为当前一阶差分的值；计算二阶差分时，以一阶差分为根底，当前一阶差分碱去前一个一阶差分即为当前二阶差分的值；以此类推。当差分的阶数为n时，在算出的差分的前部将产生n个缺失值。第四章数据文件的操作及变换在计算季节性差分之前，必须先定义一个包含有周期成份的日期时间变量(从主菜单Data中选择Define Dates)。例如一年中月的周期是12、一星期中日的周期是7、一小时中分钟的周期是60等。操作练习：对数据文件“发电量先定义时间变量“years，quarters，然后将“发电量按季节差分。操作练习：对于数据文件“差分，先定义时间变量“Weeks，Days，然后把“weight按季节差分。第四章数据文件的操作及变换练习：某地区空调的消费量与平均销售价格见下表。1求空调的消费量对价格的弹性；2如果2002年空调价格下降到2000元/台，请用弹性系数法预测的空调需求量。年份空调价格（元/台）空调消费量（万台）1995499632199645743519974012391998358044199931984920002820542001245062第四章数据文件的操作及变换解题方法：1、用Create Time Series分别计算消费量和价格的一阶差分；2、用Compute分别计算消费量和价格的变动率；3、用Compute和延迟函数LAG计算消费量对价格的弹性；4、用Descriptives计算平均弹性；5、计算2001年-2002年的价格变动率：2000-2450/2450=-18.367%6、利用平均弹性和价格变动率计算消费量的变动率：消费量变动率=价格变动率*平均弹性7、预测2002年消费量=2001年消费量*1+消费量变动率第四章数据文件的操作及变换(3)Centered moving average：中心移动平均。围绕当前值在一定范围内对变量值求出的平均值。将求平均值涉及的数据范围称为跨距(span)。计算在中间位置的移动平均数操作练习：对数据文件“差分选择“Centered moving average，分别取span=2、3、4进行差分。然后在excel中，对数据文件“差分计算移动平均：体重_2=(x1+x2)/2+(x2+x3)/2)/2，体重_3=(x1+x2+x3)/3第四章数据文件的操作及变换(4)Prior moving average：前向移动平均。在当前值的前方一定范围内(称为跨距)的原始变量值的均值。计算位置在前面的移动平均数(5)Running medians：移动中位数(6)Cumulative Sum：累积求和操作练习：对数据文件“差分选择“Prior moving average，分别取span=2、3、4进行差分。然后再用excel进行同样的计算并比较结果。第四章数据文件的操作及变换4、12替换缺失值当在数据窗中读入了一个数据文件后，执行替换缺失值操作的步骤如下：1、在主菜单中单击 Transform，弹出下拉菜单，从下拉菜单中选择 Replace Missing values，弹出替代缺失值对话框；2、替换缺失值的主要思想是调用各种方法，以周围的有效变量值为根底进行估算，用估算的结果替换缺失值。第四章数据文件的操作及变换单击Method右边框中的向下箭头，从展开的下拉列表中选择一种估算方法：(l)Series mean：用整列变量值的均值替代缺失值。如果变量值中含有多个缺失值，那么它们都将由同一个值替换。例：对数据文件“替换缺失值使用Series mean的方法替换缺失值后，从结果中可以看到，其中“height为原始变量，“height_1为进行缺失值替换后产生的新变量。观测量序号为2、6的两个缺失值均替换为158.8，而158.8正好是其余6个有效变量值的平均值。(2)Mean of near by points：用周围数据点的均值替代缺失值。其中有一个参数：Span of near by points：是在缺失值前后选取的数据点个数。第四章数据文件的操作及变换中选取的数据点数为1时，用缺失值前后两个值的均值替换缺失值；中选取的数据点数为2时，用缺失值前后共四个值的均值替换缺失值；中选取的数据点为All时，用全部有效值的均值来替换缺失值，产生的效果与Series mean方法是完全相同的。(3)Median of near by points：用周围数据点的中值中位数替代缺失值。其中有一个参数：Span of near by points：分别在缺失值前后选取的数据点数。第四章数据文件的操作及变换(4)Liner interpolation：通过线性插值的方法来替换缺失值。在缺失值前面的最后一个有效值和缺失值后面的最前一个有效值被用来作为插值的依据。例如：在数据文件“替换缺失值3中，在3，145和7，161之间的直线上插入3个值：4，x4)，(5，x5)，(6，x6)，采用直线方程的两点式：34567(3,145)(4,x4)(5,x5)(6,x6)(7,161)第四章数据文件的操作及变换第四章数据文件的操作及变换(5)Linear trend at point：采用最小二乘法对数据点进行线性拟合，用拟合得到的数值替换缺失值。采用这种方法可以解决其它方法中首尾缺失值无法进行有效替换的问题。对于拟合直线方程确定待定系数的公式为：例：将数据文件“替换缺失值3选择Linear trend at point进行替换缺失值的操作，然后利用excel进行验证。第5章统计分析5、1根本概念和常用统计量5、1、1数理统计的根本概念在数理统计中，总体是指被研究对象的全体，个体是指组成总体的每个根本单元。由简单随机抽样从总体中抽出的n个个体，称为容量为n的样本。在样本中的每个个体均相互独立且与总体有相同的分布，不含未知参数的样本的函数称为统计量。如x、x2等。样本原点矩和样本中心距是重要的统计量。第5章统计分析样本原点矩：样本中心距：分布、T分布和F分布是三种重要的统计分布。假设从总体X中取出容量为n的样本，其中出现次，称为的频数(Frequency)。第5章统计分析5、1、2常用统计量在SPSS中，可供选择的常用统计量有：1、反映中心趋势的统计量(1)均值(Mean)样本中各观测值的算术平均值。(2)中位数(Medium)样本中各观测值处于中间位置的数值。如n为偶数，数是处于中间位置的两个数的算术平均值。有时中位数也被定义为各组观测值的中间点的算术平均值。(3)众数(Mode)与最大的对应的。如有多个，一般取 i 最小的一个。最靠前的一个(4)和(sum)样本观测值之和。第5章统计分析2、反映离散程度的统计量(1)样本标准差(Std.Deviation)各样本观测值与样本均值差的平方和除n-1后的算术平方根。(2)样本方差(Variance)样本标准差的平方。(3)最小值(Minimum)样本观测值中的最小值。(4)最大值(Maximum)样本观测值中的最大值。(5)极差(Range)最大值与最小值之差。第5章统计分析(6)均值的标准误差(S.E.Mean)各样本观测值与样本均值差的平方和除n后的算术平方根：第5章统计分析5、2 一维频数分布表利用变量的频数分布分析可以对数据按组进行归类整理，形成变量在每组的分布情况表，以便对数据的特征和内部结构状况有一个概括的认识。操作步骤：Analyze-Descriptive Statistics-Frequencies 第5章统计分析第5章统计分析第5章统计分析第5章统计分析第5章统计分析第5章统计分析

展开阅读全文

金融分析软件spss统计分析软件教案

最新文档