数据处理方法_装配图网

资源描述

数据处理方法摘要：数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后，便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。关键词：方式数据处理最小二乘法和一元线性回归实时处理方式作图法1. 方式根据处理设备的结构方式、工作方式，以及数据的时间空间分布方式的不同，数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点，应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式根据处理设备的结构方式区分，有联机处理方式和脱机处理方式。根据数据处理时间的分配方式区分，有批处理方式、分时处理方式和实时处理方式。根据数据处理空间的分布方式区分，有集中式处理方式和分布处理方式。根据计算机中央处理器的工作方式区分，有单道作业处理方式、多道作业处理方式和交互式处理方式。2. 数据处理对数据（包括数值的和非数值的）进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及，在计算机应用领域中，数值计算所占比重很小，通过计算机数据处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通运输管理，技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据（土地、水、气候、生物等各类资源数据），也有大量社会经济数据（人口、交通、工农业等），常要求进行综合性数据处理。故需建立地理数据库，系统地整理和存储地理数据减少冗余，发展数据处理软件，充分利用数据库技术进行数据管理和处理。3. 最小二乘法和一元线性回归从测量数据中寻求经验方程或提取参数，称为回归问题，是实验数据处理的重要内容。用作图法获得直线的斜率和截距就是回归问题的一种处理方法，但连线带有相当大的主观成分，结果会因人而异；用逐差法求多项式的系数也是一种回归方法，但它又受到自变量必须等间距变化的限制。本节介绍处理回归问题的又一种方法一一最小二乘法。一、拟合直线的途径1问题的提出假定变量 x 和 y 之间存在着线性相关的关系，回归方程为一条直线y=b0+b1x(8)由实验测得的一组数据是Xk、yk (k=1, 2,，n),我们的任务是根据这组数据拟合出(8)式的直线，即确定其系数b0、4。我们讨论最简单的情况，假设( 1 ) 系统误差已经修正；(2) n次测量的条件相同，所以其误差符合正态分布，这样才可以使用最小二乘法原理；(3) 只有yk存在误差，即把误差较小的最为变量x,使不确定度的计算变得简单。2解决问题的途径最小二乘法原理x iVkiy=y(bo+bixk)nnVS( X)-气1 .n- 1.k = 1Exkl k = 1/联想到贝塞尔公式由于测量的分散性，实验点不可能都落在一条直线上，如图 3。相对于我们所拟合的直线，某个测量值yk在y方向上偏离了 vk，vk就是残差nZ V 2k如果k=i 的值小，那么标准偏差s(y) 就小，能够使s (y)最小的直线就是我们所要拟合的直线。这就是最小二乘原理。最小二乘原理：最佳值乃是能够使各次测量值残差的平方和为最小值的那个值。nZ V2够使k=1 k为最小值的b0、b1值就是回归方程的由(9)式可见，b0和b1决定vk的大小，能系数。二回归方程的系数1. 用最小二乘原理求回归方程的系数( 10 )yk是测-0使工v2 k为最小值，极小值条件是一级导数等于零和二级导数大于零。这里xk、量值，变量b0和b1，(10)式分别对b0和b1求偏导数nvj22k = 1n-2二ykbobix.k = 1整理(12)后得x b 十 b y10-xy 0nzk = 1解联立方程(12),得到其中1_nyk.2x，； x2k = 1xy -nnx yk kk = 113)14)bibox y xyy- b x1(13)式对b0和b1再求一次导数,n得到二lV：2的二阶导数大于零。这样和k =1(14)式给出的b0和b1对应于工町2的极小值，即为回归直线的斜率和截距的最佳k =1估计值，于是就求得了回归方程(8)。Lxy2为了便于记忆和用计算器或计算机编程计算，引入符号n = 1n .Lxx2k = 1(15)L很容易证明yyk = 1于是3Lbxy1 Lxx(17)测量点的重心由 (14)式，得到y先十b，可见回归直线通过I；,y点。点,Q 称为(xk，yk)的重心。理解这点，有助于用作图法处理数据时的连线。三、回归方程系数的标准偏差1. yk的标准偏差由(12)式，我们很容易求得yk的标准偏差心二(18)可以作如下解释：两点决定一条直线，只需测量两个点，即现在多测了 n-2个点，所以n-2是自由度。b xi1仁xkf丿k = 1n ._s2(b i)- E6 b 216 yjs2 (y)式中分母 n- 2 是自由度，可解出直线的斜率和截距s(y)是因变量yk的标准偏差，在满足本节开始的三个假设的条件下，我们可以对照测量列的标准偏差的意义来理解s(y):对于自变量的某一个取值，因变量是直线上相应的一个点，在重复条件下作任意次测量，实测点落在与直线上相应的距离在s(y)范围以内的概率是68。3%。s(y)描述了测量点对于直线的分散性。2回归方程系数的标准偏差(1) b1的标准偏差s (b1)我们的任务是从s(y)求出b0和的标准偏差，所以首先要找到b1和yk之间的关系。由( 17)冲式以及(lnE % := (在应未进行修约的条件下)，翹5推导得0x x：y将(19)式代入上式，整理后开方得到(20)(2) . b0的标准偏差s (b0)同理可推导出sb Si)(21)3 讨论(1) s (b0)是截距b0的标准偏差。如果得到s (b0)0，则b10，回归直线的斜率为正，称为正相关：rvO,贝9 0,回归直线的斜率为负，成为负相关。图4 不同相关系数的数据点分布示意图2. 相关系数的数值：x, y完全不相关时，r=0；全部实验点都在回归直线上时, lrl=l。R的数值只在-1与+1之间，即-1 r +R数值的大小描述了实验点线性相关的程度。3. 通过相关系数计算标准偏差用相关系数计算标准偏差甚为方便，推导结果为：.1 - r2Lyys( y)-(23)屮 n 2(24)请注意（24）式的计算结果是斜率的相对标准偏差。相关系数爱数据处理计算中有特殊的地位，以致带有线性回归功能的计算器上就设有功能键r，实验数据输入完毕，人们也习惯地首先读出相关系数来检查相关的显著性水平。表4 中列除了相关系数的检验数据。表4相寸关系数检验表n-20. 050.01n-20. 050. 0110.9971.000200.4230.53720.9500.990210.4130.52630.8780.959220.4040.51540.8110.917230.3960.50550.874240.7540.3880.49660.7070.834250.3810.48770.6660.798260.3740.47880.6320.765280.3610.46390.6020.735300.3490.449100.5760.708350.3250.418110.5530.684400.3040.393120.5320.661450.2880.372130.5140.641500.2730.354140.4970.623650.2500.325150.4820.606700.2320.302160.4680.590800.2170.283170.4560.575900.2050.267180.4440.5611000.1950.254190.4330.5492000.1380.181五、应用举例例 6 将例 1 中用伏安法测量电阻的数据用最小二乘法作先性回归处理。表5用回归法处理E伏安法测电阻的数据序号 kx - U /“k k Vy -I / 4k k mAT%x yk k10.000.000.000.000.0022.003.854.0014.827.7034.008.1516.0066.4232.6046.0012.0536.00145.2072.308.0015.8064.00249.64126.401相关系数3.求系数的标准偏差s b 0.0169由表4查得k=6, a =0. 917时,r=0.917为显著性标准，现得到r=0.999 8560.917, 表明I与U显著相关，即回归直线的直线性很好。2.求系数4求电阻及其标准偏差5.说明：在相关性很好的情况下，r接近于1,则（24）式中分子（1/2） 1为零，以致不能计算出s （b1 ）和s （b）。所以表5中的各项计算求和、平方、平均等要保留到比r值所含的“9”的个数还要多23位数字。例6中r=0.999 856，小数点连续有3个“9”，故求回归方程系数的运算（包括表5）取56位数字。中间运算过程亦如此，直到计算出合成不确定度或扩展不确定度之后，再把不确定度取为2位有效数字，以及把测量结果修约到与不确定度的末位对齐。4.实时处理方式实时处理就是类似于触发器，只要有一点变动就触发一个事件，然后处理这个事物。批处理就是定时或定量一批一起处理。分布处理就是不在一台服务器上，由许多客户端进行处理，然后最后结果上传到服务器。5.作图法在研究两个物理量之间的关系时，把测得的一系列相互对应的数据及变化的情况用曲线表示出来，这就是作图法。作图规则1 列表按列表规则，将作图的有关数据列成完整的表格，注意名称、符号及有效数字的规范使用。2 选择坐标纸作图必须用坐标纸。根据物理量的函数关系选择合适的坐标纸，最常用的是直角坐标纸，此外还有对数坐标纸、半对数坐标纸、极坐标纸等。本节以直角坐标为例介绍作图法，其他坐标可参考本节原则进行。坐标纸的大小要根据测量数据的有效位数和实验结果的要求来决定，原则是以不损失实验数据的有效数字和能包括全部实验点作为最低要求，即坐标纸的最小分格与实验数据的最后一位准确数字相当。在某些情况下例入数据的有效位太少使得图形太小，还要适当放大以便与观察，同时也有利于避免由于作图而引入附加的误差；若有效位数多，又不宜把该轴取得过长，则应适当牺牲有效位，以求纵横比适度。3. 标出坐标轴的名称和标度通常的横轴代表自变量，纵轴代表因变量，在坐标轴上表明所代表物理量的名称（或符号）和单位，标注方法与表的栏头相同，即量的符号（可用汉字）除以单位的符号。横轴和纵轴的标度比例可以不同，其交点的标度值不一定是零。选择原点的标度值来调整图形的位置，使曲线不偏于坐标的一边或一角；选择适当的分度比例来调整图形的大小。使图形充满纸。分度比例要便于换算和描点，例如，不要用4个格代表1 （单位）或用1格代表3 （单位）一般取1, 2, 5, 10标度值按整数等间距（间隔不要太稀或太密，以便于读数）标在坐标纸上。4. 描点和连线根据测量数据，用削尖的铅笔在坐标图纸上用“+”或“x”标出各测量点，使各测量数据坐落在“+”或x”的交叉点上。同一图上的不同曲线应当用不同的符号，如“x”、等。用透明的直尺或曲线板把数据点连成直线或光滑曲线。连线应反映出两物理量关系的变化趋势，而不应强求通过每一个数据点，但应使在曲线两旁的点有较匀称的分布，使曲线有取平均的作用。用曲线板连线的要领是：看准四个点，连中间两点间的曲线依次后移，完成整个曲线。5. 在图上空旷位置，写出完整的图名、绘制人姓名及绘制日期，所标文字应当用仿宋体。参考资料附录1. 美国斯坦福仪器厂生产的数字锁定放大器（附件）使用说明书。附录 2、3. 浙江大学科教仪器厂制作的“激光实验仪使用说明光盘”。附录 4. 傅思镜编赖天树校，光电专门实验，中山大学教材科，1995附录5. 金重、刘金环等编著，大学物理实验教程（工科），南开大学出版社，2000, P30-44,xg2 ”k = 1(19)按照不确定度的传播与合成的方法，可求*的标准偏差。注意到(19)式，b1由多项带有系数的yk求和得到，所以，s (b1)具有方和根的形式，方差s2 (b1 )为

展开阅读全文

数据处理方法

最新文档