数据处理方法

上传人:孙哥 文档编号:180299328 上传时间:2023-01-05 格式:DOCX 页数:12 大小:126.58KB
返回 下载 相关 举报
数据处理方法_第1页
第1页 / 共12页
数据处理方法_第2页
第2页 / 共12页
数据处理方法_第3页
第3页 / 共12页
点击查看更多>>
资源描述
数据处理方法摘要:数据处理是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念 或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、 图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是 从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是 有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会 生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人 类社会发展的进程。关键词:方式 数据处理 最小二乘法和一元线性回归 实时处理方式 作图法1. 方式 根据处理设备的结构方式、 工作方式,以及数据的时间空间分布方式的不同, 数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式 都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要 有四种分类方式根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。 根据数据处理时间的分配方式区分, 有批处理方式、 分时处理方式和实时处理方式。 根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。根据计 算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式 处理方式。2. 数据处理 对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对 各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着 计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据 处理进行信息管理已成为主要的应用。如侧绘制图管理、仓库管理、财会管理、交通 运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据 (土地、水、气候、生物等各类资源数据) ,也有大量社会经济数据(人口、交通、 工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储 地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。3. 最小二乘法和一元线性回归从测量数据中寻求经验方程或提取参数,称为回归问题,是实验数据处理的重要内 容。用作图法获得直线的斜率和截距就是回归问题的一种处理方法,但连线带有相当大 的主观成分,结果会因人而异;用逐差法求多项式的系数也是一种回归方法,但它又受 到自变量必须等间距变化的限制。本节介绍处理回归问题的又一种方法一一最小二乘 法。一、 拟合直线的途径1问题的提出假定变量 x 和 y 之间存在着线性相关的关系,回归方程为一条直线y=b0+b1x(8)由实验测得的一组数据是Xk、yk (k=1, 2,,n),我们的任务是根据这组数据拟 合出(8)式的直线,即确定其系数b0、4。我们讨论最简单的情况,假设( 1 ) 系统误差已经修正;(2) n次测量的条件相同,所以其误差符合正态分布,这样才可以使用最小二乘 法原理;(3) 只有yk存在误差,即把误差较小的最为变量x,使不确定度的计算变得简单。2解决问题的途径最小二乘法原理x iVkiy=y(bo+bixk)nnVS( X)-气1 .n- 1.k = 1Exkl k = 1/联想到贝塞尔公式由于测量的分散性,实验点不可能都落在一条直线上,如图 3。相对于我们所拟合 的直线,某个测量值yk在y方向上偏离了 vk,vk就是残差nZ V 2k如果k=i 的值小,那么标准偏差s(y) 就小,能够使s (y)最小的直线就是我们所要拟 合的直线。这就是最小二乘原理。最小二乘原理:最佳值乃是能够使各次测量值残差的平方和为最小值的那个值。nZ V2够使k=1 k为最小值的b0、b1值就是回归方程的由(9)式可见,b0和b1决定vk的大小,能系数。二回归方程的系数1. 用最小二乘原理求回归方程的系数( 10 )yk是测-0使工v2 k为最小值,极小值条件是一级导数等于零和二级导数大于零。这里xk、 量值,变量b0和b1,(10)式分别对b0和b1求偏导数nvj22k = 1n-2二ykbobix.k = 1整理(12)后得x b 十 b y10-xy 0nzk = 1解联立方程(12),得到其中1_nyk.2x,; x2k = 1xy -nnx yk kk = 113)14)bibox y xyy- b x1(13)式对b0和b1再求一次导数,n得到二lV:2的二阶导数大于零。这样和k =1(14)式给出的b0和b1对应于工町2的极小值,即为回归直线的斜率和截距的最佳k =1估计值,于是就求得了回归方程(8)。Lxy2为了便于记忆和用计算器或计算机编程计算,引入符号n = 1n .Lxx2k = 1(15)L很容易证明yyk = 1于是3Lbxy1 Lxx(17)测量点的重心由 (14)式,得到y先十b,可见回归直线通过I;,y点。点,Q 称为(xk,yk)的 重心。理解这点,有助于用作图法处理数据时的连线。三、回归方程系数的标准偏差1. yk的标准偏差由(12)式,我们很容易求得yk的标准偏差心二(18)可以作如下解释:两点决定一条直线,只需测量两个点,即现在多测了 n-2个点,所以n-2是自由度。b xi1仁xkf丿k = 1n ._s2(b i)- E6 b 216 yjs2 (y)式中分母 n- 2 是自由度, 可解出直线的斜率和截距s(y)是因变量yk的标准偏差,在满足本节开始的三个假设的条件下,我们可以对照 测量列的标准偏差的意义来理解s(y):对于自变量的某一个取值,因变量是直线上相应 的一个点,在重复条件下作任意次测量,实测点落在与直线上相应的距离在s(y)范围以 内的概率是68。3%。s(y)描述了测量点对于直线的分散性。2回归方程系数的标准偏差(1) b1的标准偏差s (b1)我们的任务是从s(y)求出b0和的标准偏差,所以首先要找到b1和yk之间的关系。 由( 17)冲式以及(lnE % := (在应未进行修约的条件下),翹5推导得0x x:y将(19)式代入上式,整理后开方得到(20)(2) . b0的标准偏差s (b0)同理可推导出sb Si)(21)3 讨论(1) s (b0)是截距b0的标准偏差。如果得到s (b0)0,则b10,回归直线的斜率为正,称为正相关:rvO,贝9 0,回归直线的斜率为负,成为 负相关。图4 不同相关系数的数据点分布示意图2. 相关系数的数值:x, y完全不相关时,r=0;全部实验点都在回归直线上时, lrl=l。R的数值只在-1与+1之间,即-1 r +R数值的大小描述了实验点线性相关的 程度。3. 通过相关系数计算标准偏差用相关系数计算标准偏差甚为方便,推导结果为:.1 - r2Lyys( y)-(23)屮 n 2(24)请注意(24)式的计算结果是斜率的相对标准偏差。相关系数爱数据处理计算中有特殊的地位,以致带有线性回归功能的计算器上就设 有功能键r,实验数据输入完毕,人们也习惯地首先读出相关系数来检查相关的显著性 水平。表4 中列除了相关系数的检验数据。表4相寸关系数检验表n-20. 050.01n-20. 050. 0110.9971.000200.4230.53720.9500.990210.4130.52630.8780.959220.4040.51540.8110.917230.3960.50550.874240.7540.3880.49660.7070.834250.3810.48770.6660.798260.3740.47880.6320.765280.3610.46390.6020.735300.3490.449100.5760.708350.3250.418110.5530.684400.3040.393120.5320.661450.2880.372130.5140.641500.2730.354140.4970.623650.2500.325150.4820.606700.2320.302160.4680.590800.2170.283170.4560.575900.2050.267180.4440.5611000.1950.254190.4330.5492000.1380.181五、应用举例例 6 将例 1 中用伏安法测量电阻的数据用最小二乘法作先性回归处理。表5用回归法处理E伏安法测电阻的数据序 号 kx - U /“k k Vy -I / 4k k mAT%x yk k10.000.000.000.000.0022.003.854.0014.827.7034.008.1516.0066.4232.6046.0012.0536.00145.2072.308.0015.8064.00249.64126.401相关系数3.求系数的标准偏差s b 0.0169由表4查得k=6, a =0. 917时,r=0.917为显著性标准,现得到r=0.999 8560.917, 表明I与U显著相关,即回归直线的直线性很好。2.求系数4求电阻及其标准偏差5.说明:在相关性很好的情况下,r接近于1,则(24)式中分子(1/2) 1为零,以致 不能计算出s (b1 )和s (b)。所以表5中的各项计算求和、平方、平均等要保留到比r值 所含的“9”的个数还要多23位数字。例6中r=0.999 856,小数点连续有3个“9”,故 求回归方程系数的运算(包括表5)取56位数字。中间运算过程亦如此,直到计算出合成 不确定度或扩展不确定度之后,再把不确定度取为2位有效数字,以及把测量结果修约到与 不确定度的末位对齐。4.实时处理方式 实时处理就是类似于触发器,只要有一点变动就触发一个事件,然后处理这个事物。批处理就是定时或定量一批一起处理。分布处理就是不在一台服务器上,由许多客户端进行处理,然后最后结果上传到服务器。5.作图法 在研究两个物理量之间的关系时,把测得的一系列相互对应的数据及变化的情况用 曲线表示出来,这就是作图法。作图规则1 列表 按列表规则,将作图的有关数据列成完整的表格,注意名称、符号及有 效数字的规范使用。2 选择坐标纸 作图必须用坐标纸。根据物理量的函数关系选择合适的坐标纸, 最常用的是直角坐标纸,此外还有对数坐标纸、半对数坐标纸、极坐标纸等。本节以直 角坐标为例介绍作图法,其他坐标可参考本节原则进行。坐标纸的大小要根据测量数据的有效位数和实验结果的要求来决定,原则是以不损 失实验数据的有效数字和能包括全部实验点作为最低要求,即坐标纸的最小分格与实验 数据的最后一位准确数字相当。在某些情况下例入数据的有效位太少使得图形太小,还 要适当放大以便与观察,同时也有利于避免由于作图而引入附加的误差;若有效位数多, 又不宜把该轴取得过长,则应适当牺牲有效位,以求纵横比适度。3. 标出坐标轴的名称和标度 通常的横轴代表自变量,纵轴代表因变量,在坐标轴 上表明所代表物理量的名称(或符号)和单位,标注方法与表的栏头相同,即量的符号(可用汉字)除以单位的符号。横轴和纵轴的标度比例可以不同,其交点的标度值不一 定是零。选择原点的标度值来调整图形的位置,使曲线不偏于坐标的一边或一角;选择 适当的分度比例来调整图形的大小。使图形充满纸。分度比例要便于换算和描点,例如, 不要用4个格代表1 (单位)或用1格代表3 (单位)一般取1, 2, 5, 10标度值按 整数等间距(间隔不要太稀或太密,以便于读数)标在坐标纸上。4. 描点和连线根据测量数据,用削尖的铅笔在坐标图纸上用“+”或“x”标出各测量点,使各测量数据坐落在“+”或x”的交叉点上。同一图上的不同曲线应当用不同的符号,如“x”、等。用透明的直尺或曲线板把数据点连成直线或光滑曲线。连线应反映出两物理量关系的变化趋势,而不应强求通过每一个数据点,但应使在曲线两旁的点有较匀称的分布, 使曲线有取平均的作用。用曲线板连线的要领是:看准四个点,连中间两点间的曲线 依次后移,完成整个曲线。5. 在图上空旷位置,写出完整的图名、绘制人姓名及绘制日期,所标文字应当用仿宋体。参考资料附录1. 美国斯坦福仪器厂生产的数字锁定放大器(附件)使用说明书。附录 2、3. 浙江大学科教仪器厂制作的“激光实验仪使用说明光盘”。附录 4. 傅思镜编 赖天树校,光电专门实验,中山大学教材科,1995附录5. 金重、刘金环 等编著,大学物理实验教程(工科),南开大学出版社,2000, P30-44,xg2 ”k = 1(19)按照不确定度的传播与合成的方法,可求*的标准偏差。注意到(19)式,b1由多 项带有系数的yk求和得到,所以,s (b1)具有方和根的形式,方差s2 (b1 )为
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!