数据分析处理技术

上传人:z**** 文档编号:127397150 上传时间:2022-07-30 格式:DOC 页数:28 大小:231KB
返回 下载 相关 举报
数据分析处理技术_第1页
第1页 / 共28页
数据分析处理技术_第2页
第2页 / 共28页
数据分析处理技术_第3页
第3页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据分析处理技术主讲教师简介:郑军,女,辽宁税专第一教学部教师,副教授。导论一、 什么是统计学1、统计是处理数据的一门科学。2、统计学是关于数据的科学,它所提供的是一套有关数据收 集、处理、分析、解释并从数据中得出结论的方法。3、数据分析所用的方法可分为 描述统计方法 和推断统计方 法。二、理解统计对每个人都是必要的。第一部分 数据的整理与图示一、数据的类型 按照采用的计量尺度不同,可以将数据分为 分类数据、顺序 数据和数值型数据。1、分类数据:是只能归于某一类别的非数字型数据,它是对 事物进行分类的结果,数据表现为类别,用文字来表述。如: 企业按行业分类等。为便于统计处理,对于分类数据可以用 数字代码表示各类别,如用 1 表示制造业,2 表示建筑业等。2、顺序数据:是只能归于某一有序类别的非数字型数据。顺 序数据虽然也有类别,但这些类别是有序的。如将产品分为 一等品、二等品、三等品、次品等。同样,对顺序数据也可 以用数字代码来表示。3、数值型数据:是按照数字尺度测量的观测值,其结果表现 为具体的数值。现实中所处理的大多数都是数值型数据。品质数据(分类数据和顺序数据、定性数据) 数量数据(数值型数据、定量数据)4、区分数据的类型十分重要。因为对不同类型的数据,需要 采用不同的方法来处理和分析。二、数据的搜集1、数据的来源(数据的间接来源、直接来源)2、调查数据(概率抽样、非概率抽样)。概率抽样(即随机抽样):常用的方式有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样。非概率抽样:常用的方式有方便抽样、判断抽样(重点抽样、典型抽样)、自愿样本、滚雪球抽样3、搜集数据的基本方法(自填式、面访式、电话式、)。4、数据的误差(抽样误差、非抽样误差)。 抽样误差(由于抽样的随机性引起的样本结果与总体真值间 的误差)非抽样误差(回答误差、调查员误差等)三、数据的图表展示(一)、数据的预处理(审核、筛选、排序等)。(二)、分类汇总与数据透视表(数据的全新整理分析方法)(三)、品质数据的整理与展示。1、分类数据的整理与图示(频数与频数分布)2、顺序数据的整理与图示(累计频数和累计频率、环形图)(四)、数值型数据的整理与图示(数据分组、直方图)。(五)合理使用图表(一)、数据的预处理:是在对数据分类或分组前所做的必要 处理。内容包括数据的审核、筛选、排序等。1、数据审核:对原始数据审核其完整性和准确性;对二手数据审核其适用性和时效性。2、数据筛选:根据需要找出符合特定条件的某类数据。3、数据排序:按一定顺序将数据排列,以便通过浏览数据 发现明显的特征或趋势等。(二)、数据透视表(数据的全新整理分析方法) 为了从复杂的数据中提取有用的信息,可以利用 Excel 提供的【数据透视表】工具。利用数据透视表,可以对数据表 的重要信息按使用者的习惯或分析要求进行汇总和作图,形成 一个符合要求的交叉表(列联表)。在利用数据透视表时,数 据源表中的首行必须有列标题。(三)、品质数据的整理与展示 数据经过预处理后,可根据需要进一步做分类或分组。对品 质数据主要做分类整理,对数值型数据主要是做分组整理。1、分类数据的整理与图示(频数与频数分布) 分类数据本身即是对事物的一种分类。在整理时首先列出所分 的类别,然后计算出每一类别的频数、比例等,即可形成一张频 数分布表,最后根据需要选择适当图形进行展示,以便对数据及 其特征有一个初步了解。分类数据的图示(条形图、帕累托图、饼图等)2、顺序数据的整理与图示(累计频数和累计频率、环形图)四)、数值型数据的整理与图示(数据分组、直方图)第二部分数据的概括性度量(集中趋势、离散程度、偏态与峰态的度量)一、总量指标分析二、相对指标分析三、集中趋势度量四、离散程度度量五、偏态与峰态度量一、税收总量指标分析(一)、税收总量指标的分析要求对总量指标的分析和描述应简洁、明了、突出其主要数量特征, 给人以深刻印象。例:“十五”期间,我市税收从 2000年的561,484万元增 加到 2005年的 1,203,402万元,年均增长16.47%,为我市经 济和社会的发展提供了有力的财力保障。二)、税收总量指标的图表描述总量指标在 Excel 中的图表具体可描述为折线图、条形图(横置或纵置)等。(条形图纵置时也称为柱形图)二、税收相对指标分析在税收数据分析中,方法最简便、应用最广泛的就是相对指 标的计算与分析,因其概念比较清晰,这里只对其计算方法作一 介绍。相对指标是两个有联系的指标对比的比值,反映事物的数量 特征和数量关系。随着税收分析目的的不同,两个相互联系的指标数值对比, 可以采取不同的比较标准(即对比的基础),而对比所起的作用 也有所不同,从而形成不同的相对指标。归纳起来有两类:一是 同一总体内部之比,二是两个总体之间对比。(一)、属于同一总体内部之比的相对指标 属于同一总体内部之比的相对指标有:计划完成程度相对指标、 结构相对指标、比例相对指标、动态相对指标四种。1、计划完成程度相对指标(分析计划完成情况及计划进度执行 情况等)。、一 亠、实际完成数计划完成程度相对指标=计划数 X 100%2、结构相对指标。例:分税种结构分析。总体部分数值结构相对指标=总体总量 X 100%3、比例相对指标。例:两税收入中消、增两税之比。比例相对指标=税收总量中某部分数值占X100%税收总量中另一部分数值4、动态相对指标。例:不同时间的税收指标之比。动态相对指标=报告期水平X100%基期水平(二)、属于两个总体之间对比的相对指标 属于两个总体之间对比的相对指标有:比较相对指标和强度相对 指标。5、比较相对指标。例:两地区税收之比。(较少用绝对量比)比较相对指标二某条件下某类税收指标另一条件下同类税收指标X100%6、强度相对指标。例:每百元GDP税收含量。强度相对指标=某-现象税收指标另一有联系而性质不同现象的税收指标例: X 市“十五”时期税收发展情况报告一、“十五”时期X市税收发展总体情况1、增长速度加快,总量节节攀升。“十五”期间我市税收从 2000年的561,484万元增加到 2005 年的 1,203,402 万元(图表),增长了 114.33%,翻了一番还 多,每年增收额都在 10亿元以上,年均增长 16.47%,比“九五”期间921%的年均增长率高出726个百分点,比我市14%的GDP 年均增长率高出 2.47 个百分点。2、一产比重下降,二产比重提高,三产基本持平。年度第一产 业第二产业第三产业小计采掘 业制造业电煤气 水建筑业小计交运仓 储邮电批发零 售金融保 险房地产其它行 业2002211182128652379104500895197035541139587816733462814133540218670200324309258868296411109612233132575608104518875294167256182380253640200413673313276624014433512111150590700871690815339780703243863253827200580193634351131516052814274177318831949761115826788505318618290448平均 增长 率-27.619.5268.1715.3816.8322.2615.42&99-4.712.1133.629.92从三次产业的静态结构看,第三产业为税收的主要来源。“十五”期间三次产业在税收中的比重分别为1 86%、29 3%和 6884%,税收的三分之二以上来自第三产业。(图表)从三次产业的动态结构看,第一产业税收比重下降,第 二产业比重提高,第三产业比重基本持平。 2002 年我市税收三 次产业税收收入比例为 272:2746:6982,到 2005 年演变为 067:3020:6913。税收贡献率和税收拉动作用百分点的计算。三、集中趋势度量 应用平均指标分析总体数量方面一般特征的方法。平均指标是社 会经济分析中常用的综合指标。(静态、动态均值)常用的平均指标1、静态均值x=Yf1)算术平均数 Y xx =n2)、调和平均数H =丄Ymx3)众数 4)中位数2、动态均值几何平均数(平均比率、平均速度) 反映一个时期内事物发展的快慢程度,一般用百分数表示 简单几何平均数:G = % x x x = n x12n加权几何平均数:G = Yf x /1 x /2 x fn = Yf n xf12n四、离散程度度量1、反映各变量值之间差异或离散程度的指标称为变异指标。以绝对数形式表现的变异指标有全距、平均差和标准差,以相对数 形式表现的变异指标有全距系数、平均差系数和标准差系数,其 中最常用、最重要的是标准差和标准差系数。2、全距计算简单、容易理解,但受极端值影响较大。3、平均差和标准差的意义基本相同,都是各变量值与算术平均 数的平均离差,但在数学处理上有所不同。平均差是采用取绝对 值的方法消除离差正负,而标准差是采用平方的方法消除离差的 正负。由于标准差具有优良的数学性质,因此它是测定离散程度 最重要的指标。工(X X)2 f Yt4、变异系数消除了变量值水平高低和计量单位不同的影响,是反映离散程度的相对指标。因为实际工作中,经常要对不同水平 或不同计量单位的现象进行研究,所以变异系数是衡量离散程度 最普遍使用的指标。cV 二 X 100 % c x“标准差”和“离散系数”这两项指标可应用于行业税负分析 中,当一个行业税负标准差和离散系数越大,说明这个行业企业 间的税负差异越大。这种差异可能受两个方面因素的影响,一是 企业增值幅度不同产生的税负差异;二是企业申报质量和税收征 管力度强弱不同产生的差异。行业税负1、行业税负涵义行业税负一般是指某一行业税收总量与税源总量之间的比例关系,是一项反映行业税收经济关系的数据指标,是一个行业税负 的平均值。它可以是一个行业所有税种税收总量负担概念,也可 以是该行业一个税种税收总量负担的概念。口径定义可依据研究 目的不同自行定义。行业税负的计算公式某一行业税收总量行业税负业计税收入或所得2、行业税负分析的意义 按照税收征管法实施细则第四十七条有关规定,行业税负测 算标准可以用于企业纳税评估和企业税负水平核定工作。 税收负担是经济结构、税收政策和税收征管等多种因素综合作用 的结果。由于这多种因素的影响,所以,地区间、行业间或企业 间的税负是不可比的。但具体到同一行业的企业时,由于同一产 品或服务的生产技术、加工工艺和原材料、能源消耗相近,适用 的税收政策也相同,研究分析同一行业内的企业税负,就可以消 除经济结构和税收政策的影响,找出影响行业税负形成的特征规 律和建立行业税负的客观标准,为税收征管征收力度考核提供数 据支持;为纳税评估提供客观评价指标体系和标准,参考这一标 准确定各行业的重点评估对象,可以较为方便地判定企业申报不实的问题。税负预警值的设定1、税负预警值的设定(1)税负预警的涵义预警机制是在对事物规律特征研究的基础上,通过鉴别异常 事件,预报警示信息。税负预警是针对异常税负事件予以警示报 告。税负预警分析,是通过对同一行业样本个体税负离散状况的 分析,总结个体税负相关关系的规律特征。各主管税务机关可根 据上级税务机关公布的行业税负率预警区间或选取各行业中的 典型企业所测算的样本企业税负率,在考虑企业经营规模、管理 水平等因素的基础上,制定本辖区行业税负率的合理浮动区间, 对超过浮动区间范围的企业作为纳税评估、稽查选案的重点加以 关注。(2)税负预警值的设定方法一:A、计算各样本的税负情况B、计算该行业的平均税负xC、计算该行业税负标准差sD、计算该行业税负离散系数E确定预警范围(当离散系数06时:x 土 s;当离散系数06时:x 土 0.6x )方法二:A、确定要设定税负预警的行业 通过调查、搜集、整理该行业的税收经济关系的相关样 本(n )数据,并计算出该地区行业税负和税负样本标 准差( s )B、确定税负预警的中心线 以上级税务机关设立的行业税负作为本地区税负预警 的中心线(x ),参考本地区该行业的经营规模、管理 水平等因素,给定一个合理的把握程度(概率),一般 为 95。C、确定预警范围X 土 Z - s / -fna2Z对于95 %的置信度,a的取值为1.96s上式可以写为x 土 1. 96x真2、案例分析某地区某行业平均税负率为 7.10%,从中抽取 35 户企业,税负 率情况见下表。要求确定预警范围并排查出低于预警下限的企 业。AECD1应交稅负应交稅负2金什16.475. 723的1曲5.40金讪加8. 134金如6. 27的1切6.415的1也8. 82的也8. 796的IM8. 52的1曲6. 3677. 19的1曲43. 688金如6. 18的1也7. 129金恥6. 07的也5. 0610的1旳6. 37的1切8. 2411的1皿5. 796. 5012的IP 118. 56的1咖12. 2813的1山5. 96的阪16. 0414金训口6. 58金如16.4715金讪148. 95325. 3816的1山6. 69的1曲6. 9317金训1盲4. 63金如46.4218金训178. 098. 9519金训128. 29该行业平均税负7. 10五、偏态与峰态度量 偏态与峰态是对数据分布形状的测度(即分布的形状是否对称、 偏斜的程度以及分布的扁平程度等)。(1)、偏态系数(SK ) =0,数据分布对称;(2)、偏态系数(SK )明显不同于0,数据分布非对称;(偏态系数大于1 或小于-1,高度偏态;)(偏态系数大于0为正偏或右偏,偏态系数小于0为负偏或左偏)(偏态系数在0. 5 1或-1 05之间,中等偏态;)(偏态系数越接近 0,偏斜越低程度)峰态通常是与标准正态分布相比较而言的。(3)、峰态系数(K) =0,数据服从标准正态分布;(4)、峰态系数(K)明显不同于0,数据分布比标准正态分布更平或更尖,称为平峰分布或尖峰分布;(K0,尖峰分布,数据分布更集中)(K0,扁平分布,数据分布越分散)第三部分 时间序列分析时间序列又称时间数列、动态数列,是将反映某一现象总体在时 间上变化发展的一系列同类统计指标数值,按时间先后顺序排列 所形成的数列。一、在税收数据分析中,常用的动态分析指标有增长量、平均增 长量、序时平均数、发展速度、增长速度、平均发展速度、平均 增长速度、增长 1%绝对值。1、增长量(逐期增长量和累计增长量) 第一,逐期增长量:报告期水平与前期水平之差。a -a ,a -a,,a -a1 0 2 1 n n-1第二,累计增长量:报告期水平与某一固定基期水平之差。a a ,a a a1 0 2 0 n 0二者关系:一定时期内,逐期增长量之和等于累计增长量,用公 式表示为:(a a ) + (a a ) + (a a ) +.+ (a a ) a a1 0 2 1 3 2 n n1 n 02、平均增长量:是时间数列中各逐期增长量的序时平均数,表 明现象在一定时期内平均每期增(减)的绝对数量。平均增长量=逐期增长量之和累计增长量 逐期增长量个数时间数列项数-13、序时平均数。即针对某一动态数列求平均值。又由于该动态数列可能是绝对数,也可能是相对数而使计算方法不同。当动态数列为绝对数时,其平均数计算方法比较简单,即用二296万元各标志值除以时间项数即可。年度GDP税收收入税收收入占GDP比重税收收入 环比发展 速度税收收入 增长 速度2003年2793. 37222.537972004年3157.69234.217. 42105.255.252005年3582.46249.166. 95106.386.382006年3881. 73265.516. 84106.566.562007年4171.69277 016. 64104.334. 332008 年4668.30323.756. 94116.8716.872009年5033. 08384.827. 65118.8618.862010 年5458.20411.037. 53106.816.81合计32746.522368.027. 23109.169.16某地区税收与经济分析 单位:万元某地区2003 - 2010年平均税收收入二222.53 + 234.21 + 249.16 + 265.51 + 277.01 + 323.75 + 384.82 + 411.03 82368.028当动态数列为相对数时,其平均数计算不能简单加总相对数后除以项数,而必须以绝对数动态数列序时平均数为基础,分别 计算构成该相对数的分子、分母两个绝对数动态数列的平均数, 再加以对比。仍用上例,某地区近 8 年的平均税收含量为:平均税收含量-8年平均税收收入 _ 8年税收收入合计8年税收收入合计 均含量8年平均国内生产总值 8年GDP合计88年GDP合计2368.0232746.52二 0.0723 二7.23%4、发展速度与增长速度第一,发展速度:动态数列中两个不同时期发展水平的比值。用公式表示:发展速度=报告期水平基期水平xl00%由于对比时所采用的基期不同,发展速度可分为定基发展速度和 环比发展速度。(1)环比发展速度:报告期水平与前一期水平的比值。它选择对比的基准点是滚动变化的。用公式表示:环比发展速度=上二x 100%( i = 1,2,n)ai-1( 2)定基发展速度:报告期水平与某一固定基期水平的比值。它选择对比的基准点是固定不变的。用公式表示:定基发展速度=a x 100%( i = 1,2,n)a0二者关系:( 1) 一定时期内,各环比发展速度的连乘积等于相应时期总的定基发展速度,即aaa1 X- X3 Xaaa012naan-102) 两个相邻的定基发展速度的比值等于相应的环比发展速度,用公式表示为:aa1-na a a00n-1第二,增长速度:报告期增长量与基期水平之比。用公式表示为:增长速度=x100% =发展速度-1基期水平同理:定基增长速度=定基发展速度-1环比增长速度=环比发展速度-15 年平均发展速度和年平均增长速度。(1)几何平均法:以上例求税收收入年平均发展速度如下方法一:应用第 3列绝对指标计算年平均发展速度=812003年税收收入飞22253=1.0916=109.16%方法二:应用第 5列环比发展速度指标计算年平均发展速度二 71.0525 x 1.0638 x 1.0656 x 1.0433 x 1.1687 x 1.1886 x 1.0681 二 1.0916 方法三:应用总速度指标计算,即已知2003年到2010年税收收入发展的总速度为 184.7077%,则年平均发展速度=81总速度=71847077 = 1.0916(2)方程式法计算年均增长速度不能由增长量和增长速度直接计算,而必须将历年增长速度还原为历年发展速度,并应用上述方法求出年平均发展速度,再计算平均增长速度,即:年平均增长速度=年平均发展速度1(或100%)上例中,年平均增长速度=1.0916-1=0.0916=9.16%6、增长1%绝对值:报告期的前一期水平除以 100,表明某一现象每增长 1%所代表的实际绝对数量。思考:某省2009年完成税收收入 182.5亿元,比上年增长20% 该省税收收入在 1999 年-2000 年平均每年递增 15%,2001 年 -2003年平均每年递增 16%,2004年-2008年平均每年递增 18%, 问该省 1999年-2008年十年的总发展速度。(十年间平均每年的 发展速度和递增速度)总发展速度=1.1521.1631.185=4.72=472%十年间平均每年的发展速度=10472%=116.79%十年间平均每年的增长速度=10472% 1=16.79%如果未来五年内仍以此速度发展,到 2011 年该省税收收入将达到182. 5*(116. 79%)3=290. 75亿元。二、时间序列的分析和预测1、影响动态数列变动的因素一般可归纳为四种,它们是长期趋 势、季节变动、循环变动和不规则变动。2、测定长期趋势的方法很多,其中两种基本的方法是移动平均法和最小平方法(最小二乘法)。(1)移动平均法测定长期趋势的基本原理是将原时间数列的时 距扩大,并按一定的间隔长度逐项移动计算一系列序时平均数, 由这些序时平均数形成一个新的时间数列,在这个新的时间数列 中,偶然因素的影响被削弱,从而呈现出现象发展的长期趋势。(2)最小平方法(最小二乘法)测定长期趋势的基本原理是对 时间数列配合一条趋势线,使其满足条件 工(y - y )2二最小值,同时工(y - y ) = 0,然后根据趋势线计i c i c算出相应各时期的趋势值,由趋势值形成的新时间数列呈现出现象发展的长期趋势。为了计算方便,计算时可令e t = 0。用最小平方法既可以配合直线方程也可以配合曲线方程。3、测定季节变动的方法也很多,常用的方法有两种:原资料平 均法和趋势剔除法。4、测定循环波动可以用残余法(剩余法)。5、不规则变动具有不可预测性,它是由大量偶然的、随机的因 素造成现象的波动,从一个较长时间看,各种偶然、随机因素的 影响会互相抵消,因此,实际分析现象变动趋势时,可以不予考 虑。第四部分 指数分析思路与方法指数是指反映经济现象数量变动的相对数。指数分析法即运用这种相对数来反映不能直接加总的多因素组成的经济现象的 综合变动。因此在社会实践中,也有人称其为因素分析法。通过指数分析方法可以将受两个及两个以上因素影响的经 济总量的变动情况进行因素分解分析,判断每一个因素对总量变 动的影响程度和影响方向,在税收实践中具有广泛的应用价值。进行指数分析须遵循的一个基本原则是:首先将每一因素定 性为数量指标(说明经济现象总体数量或规模的指标)或是质量 指标(说明总体质量变动程度的指标);然后,进行“同度量因 素”的确定,即当分析数量指标时,把其他的质量指标固定在基 期,当分析质量指标时,把其他的数量指标固定在报告期。这样 可以得到综合指数、数量指标指数和质量指标指数,他们共同构 成了指数体系。这种把不能直接加总的经济指标,通过“同度量 因素”进行量化加总,再对比分析的指数分析方法,是统计分析 方法的重要内容之一。为叙述简便,设某一经济总量受两因素影响,其中数量指标 为q,质量指标为P,指标报告期(或称本期)为1基期(或 同期)为 0,则指数体系为:工 p1q1 工 p1q1 工 pqi=X工Poqo 工Poqi 工Poqo式中:EPiqi为综合指数;EPiqi为质量指标指数;EPoqi为数量指标指数.工Poqo工Poqi工Poqo绝对数形式为:工Piqi-工Poqo 二(工Piqi-工Poqi) + (工Poqi-IPoqo共变影响额 质量指标影响额 数量指标影响额例:设某企业仅生产汽油和柴油,某月的销售收入及汽油 柴油销量和价格如下表,试分析销售收入增减变化。某企业某月产品销售收入变动分析表产品 名称产品销售收入(万元)pq销价(元/吨)p销量(万吨)q销量影 响收入 增减额 (万元)价格影 响收入 增减额 (万元)两因素 共变影 响增减额 (万元)本期同期增长增长额本期同期本期同期A343602732725.7470332430159914.1417.094717117507033B3497835207-0.65-2292486169114.0720.821141411186229合计693386253410.88680416132229366804按照指数分析原理:该企业产品销售收入在价格和销量两因素共同影响下出现增减变化。其增长幅度为 10.88%,增长额为6805 万元。相对数上的分析为:为方便起见先计算出工 p0q1 = 1599 x 14.14 +1691 x 14.07 = 46402.23绝对数上的分析为:工p1q1 -工P0q0 二(工p1q1 -IP0q1) + (工P0q1 -IP0q0)二(69338 - 46402.23) + (46402.23 - 62534)二 22935.77 -16131.77 二 6804万元以上分析的经济意义:通过分析可以看出,该企业某月产品销售收入受售价和售量两因素共同影响。其中,由于两个品目的销售价格增加而使销售收入增长 49.43%,增加 22936 万元;由 于销售数量的减少而使销售收入下降 25.8%(1-0.7420),减收 16132 万元。总量指标的多因素变动分析。平均指标的因素变动分析。第五部分相关分析与回归分析一、相关分析1、函数关系与相关关系2、相关关系的种类(1)按相关关系涉及的因素多少划分,分为单相关、复相关和 偏相关 单相关又称一元相关,是指两个变量之间的相关关系,即仅限于 一个变量与另一个变量之间的依存关系。复相关又称多元相关, 是指三个或三个以上变量之间的相关关系。在某一变量与多个变 量相关时,当假定其他变量不变,其中两个变量的相关关系称为 偏相关。(2)按相关形式划分,可以分为线性相关和非线性相关 当一个变量发生变动,另一个变量随之发生大致均等的变动(增 加或减少),从图形上看,其观测点的分布近似地表现为直线形 式,就是线性相关。而当一个变量发生变动,另一个变量也随之 发生变动(增加或减少),但是这种变动是不均等的,从图形上 看,其观察点的分布表现为各种不同的曲线形式,这种相关关系 称为非线性相关。(3)按相关的方向划分,可分为正相关和负相关 两个相关现象间,当一个变量的数值增加(或减少)时,另一个 变量的数值也随之增加(或减少),这种相关称为正相关。当一 个变量的数值增加(或减少)时,而另一个变量的数值相反地呈 减少(或增加)趋势变化,称为负相关。(4)按相关关系的程度划分,可分为完全相关、不完全相关和 不相关在数据分析中,可采用相关系数(r)这一指标来反映相关关系 的密切程度。以直线相关来说,如果因变量完全随着自变量而变 动,在散点图上可以看出所有的观测点都位于同一条直线上,这 时的相关关系就转化为函数关系,称为完全相关,lr|=l。当因 变量完全不随自变量的变动而作相应的变动,亦即变量之间完全 不存在任何依存关系,就称为不相关或零相关,|r|=0。以上是 两种极端情况。介于完全相关和零相关之间的关系,称为不完全 相关。在一般情况下,相关系数 R 的绝对值是在 0 与 l 这一闭区 间的实数值,即0r1o3、相关系数的测定与相关关系的判断相关分析,是研究两个或两个以上随机变量之间相互依存关系的 紧密程度。直线相关时用相关系数表示,曲线相关时用相关指数 表示,多元相关时用复相关系数表示。通过绘制相关图,可以对现象之间存在的相关关系的方向、形式 和密切程度作直观的判断。(1)相关图(2)相关系数相关关系分析是确定经济现象间所具有的虽不一一对应,但相互 依赖、相互依存的密切程度。相关关系分析是建立回归方程进而 进行回归预测的前提。相关关系分析可以在两个变量之间,称单 相关,也可以在三个及以上变量之间,称复相关。相关关系分析 的关键就是计算相关系数,然后做出判断。目前可以用Excel图表公式求出相关系数。相关系数的方向可以大于 0,表示正相关,也可以小于 0,表示负相关。但取值范围是-Kr+1o相关系数的密切程度:lr|在03以下是不相关;|r|在0. 305之间是低度相关;|r|在0. 508之间是显著相关;|r|在0.8以上是高度相关。|r|=1 时两变量为完全相关,这时x,y 之间存在着确定的函数关系。二、回归分析1、回归分析的概念回归分析是研究自变量与因变量之间变动关系的一种数理统计 方法。根据税收与相应的经济观测数据,通过回归分析,可以求 出一定的关系式,称为回归模型,回归方程式确定后,可以根据 自变量的数值推测出因变量之值。2、回归模型的种类(1)根据回归模型自变量的多少,回归模型可分为一元回归和 多元回归模型。一元回归模型是根据某一因变量与一个自变量之间的相关关系 建立的模型。多元回归模型是根据某一因变量与两个或两个以上 自变量之间的相关关系建立的模型。(2)根据回归模型是否线性,回归模型可分为线性回归模型和 非线性回归模型。在线性回归模型中,因变量与自变量的关系是呈直线型的。在非 线性回归模型中,因变量与自变量的关系是呈曲线型的。3、一元线性回归预测法4、多元线性回归预测法回归分析就是对具有相关关系的两个或两个以上变量变化 的一般关系进行测定,确定一个数学表达式,称回归方程,以便 进行估计和预测的方法过程。研究两个变量的回归称简单回归, 三个及以上变量之间的回归称复回归。回归分析根据变量之间关 系不同,可能是直线回归,也可能是曲线回归。这里只介绍简单 的直线回归。进行直线回归分析的首要前提是两个变量之间有显著的相 关关系,且呈直线趋势,这时,可配合回归直线:y=a+bx式中:x为自变量; y为因变量,或称趋势值;5、相关分析与回归分析的关系 相关分析与回归分析既有联系又有区别。 联系:都以具有相关关系的现象为研究对象,而且在具体应用时, 二者互相补充,相辅相成。区别:(1)相关关系只能说明变量间相关的方向和密切程度,回 归分析则是用回归方程来反映变量间相互关系的具体形式,并根 据这个方程式由已知变量推断未知变量。(2)相关分析中,变量间的关系是并列的,对等的,回归分析 中变量间的关系不是并列的,对等的,必须根据研究对象的性质和分析目的,确定哪个是自变量,哪个是因变量。3)相关分析中,只有一个相关系数,回归分析中,存在两个回归方程。思考:某地区2004年一2010年税收收入与GDP的数据资料如下:单位:亿元年度税收收入GDP20040.76.820050.87.420060.97.920071.08.220081.2&920091.59.620102.011.1建立税收收入随GDP变化的一元线性回归方程y=a+bx,假 设该地区2011年GDP比2010年递增10%,暂不考虑其他因素, 预计该地区 2011 年税收收入。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板表格


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!