《语言翻译问题》PPT课件.ppt

资源描述

第3语言翻译问题学习目标学习和掌握语言的语法的基本概念和基本要素理解翻译的步骤学习和掌握BNF文法了解通用语法的标准学习语法的基本要素了解几种语言的特点学习和掌握源程序分析和目标程序综合的原理和方法掌握和使用BNF文法重点和难点本章的重点是源程序的分析和目标程序综合的原理与方法 BNF文法本章的难点是语法二义性语义分析原理知识点语法语义二义性独立子程序定义独立数据定义嵌套子程序定义独立接口定义词法分析语法分析语义分析优化连接与载入系统自举语法树 BNF文法对于在虚拟计算机上实现的高级语言程序必须经过翻译才能在实际的计算机上运行翻译一般要经词法分析语法分析语义分析代码优化目标程序生成等5个阶段其中语法分析阶段最为重要它是描述程序结构的主要手段遍的概念一遍翻译二遍翻译三遍翻译本章概述本章主要内容 3 1编程语言语法3 2翻译步骤3 3BNF文法 3 1编程语言语法语法以句子中词的排列来表明它们的彼此关系如C语言中 x y z具有正确的语法而x 则语法错误语法是理解一个程序的重要手段也为将源程序翻译成目标程序提供了必要的信息但只有语法是不够的如张三踢足球和足球踢张三语法都正确但语义如x 2 54 3 67 结果为5 6 6 21 本节主要内容通用语法标准语言的语法要素主程序子程序结构通用语法标准可读性如果一个程序的算法和数据结构能够明显的从程序文本中观察出来则这个程序是可读的可读的程序称之为自引证的可读性成为如今程序编制的重要目标是一增加可读性的方法用自然语句格式结构化自由使用关键字和噪声码注释不限标识符长度助记符自由域格式完整的声明可写性可写性是指程序易于编写语法结构简单的语言程序可写性好增加可写性的方法设计简洁整齐的语法结构允许保留不明确声明和操作的隐含可写性与可读性是一对矛盾简洁的结构可增强程序的可写性但降低了程序的可读性如C语言可写性较好但可读性差允许保留不明确声明和操作的隐含可增强可写性但会降低可读性同时可检验性差易检验性证明程序的正确性这不仅涉及到语法主要涉及到语义的正确性验证目前主要通过一些测试方法以及谓词演算方法来验证易翻译性源程序容易翻译成可执行的目标程序易翻译性与翻译器密切关联易于翻译的关键是结构的规范化易翻译性与可读性和可写性之间存在矛盾如LISP程序易于翻译但可读性和可写性较差 COBOL语言程序的语义较为简单可读性和可写性较好但由于存在数量庞大的语句和声明翻译极为困难无二义性所谓二义性是指相同的语法结构存在两种或更多种理解无二义性是每个程序语言设计的中心问题二义性问题通常不是出现在单个的程序元素中而是在不同结构的相互作用下表现出来的例1 C语言中存在两种不同的条件形式 if ConE Sif ConE S1elseS2每一条语句均清楚的解释了语义不存在二义性但将两个语句组合为 if ConE1 if ConE2 S1elseS2此时存在二义性语句S2的执行控制存在不同的理解是ConE1为假时执行还是ConE1为假时执行解决方法插入定界符如if ConE1 if ConE1 if ConE2 S1 或 if ConE2 S1 elseS2 elseS2 二者语义中强制的选择一种作为合法的解释如就近匹配原则即else与最近的if匹配例2 Fortran语言中函数调用和数组引用语法是完全相同的如语句x A i j 存在二义性此时A i j 是函数A的调用还是数组A的引用解决方法若没有数组A的声明就默认为是函数A的调用 Pasacl和C语言中的解决方案是用表示数组表示函数如A i j 理解为数组引用 A i j 解释为函数调用返回本节语言的语法要素选用不同的基本语法要素就形成了一种语言的基本风格下面将简介一些语法要素字符集字符集的选择是语法设计的第一步通常选择的字符集是ASCII字符集目前通常使用8为一个Byte 来表示一个字符这足够表示52个大小写字母 10个数字标点符号以及一些特殊字符但如今计算机工业越来越国际化各个国家的文字货币符号等已远远超过256 因此考虑使用16位表示字符集标识符大多数语言都遵循以字母开始字母和数字组成的字符串作为标识符的原则有的语言还允许包括和之类的特殊字符如name student是C中的合法标识符这样可以增强可读性和改善长度方面的限制标识符长度应该不受限制操作符大多数语言均使用和来表示基本的数学运算操作除此之外很少有相同的如Pascal使用作为赋值操作而C使用 Pascal使用作为比较操作而C使用 Fortran使用字符串 EQ 关键字和保留字关键字是语句语法中固定部分使用的标识符当关键字不能用作程序的标识符时该关键字就是一个保留字如C语言中的if for while等使用保留字使翻译过程中的语法分析变得简单作为反面例子 Fortran中用户可以使用DO和IF作为标识符因此以DO和IF开始的语句实际上并不一定是循环或条件语句所以Fortran的语法分析较为困难使用保留字可增加程序的可读性但保留字也不能太多否则难以记忆编程不方便如COBOL的保留字太多但当语言扩充而扩充新的保留字时会引来麻烦噪声码插入在于语句中用来增加可读性的可选代码如Basic语言中 GOTO 语句中的 GO 是必需的关键字而 TO 是可选的噪声码如汇编语言中 return n 中的n是噪声码注释注释是程序文档中的重要组成部分一种语言可以使用多种方法引入注释如 Basic中使用REM引导单独的注释行 C Java语言中使用和作为多行注释定界符 Ada中的 C 中的 Fortran语言中的 Basic中的都可以从语句行的人以位置开始标示注释空白符空格各种语言使用空白符的规则不太相同如C语言中空白符在除字符串数据以外的任何地方没有重要的意义起分隔符号的作用在词法分析中有重要的作用多余的空白符被忽略在SNOBOL4语言中空白符起基本连接操作作用定界符定界符一般用于简单的标示诸如语句或表达式这些语法单位的语法元素定界符有时仅用来增强可读性和使语法分析变得简单更多的时候用于清楚的界定特定语法结构的边界以消除二义性如Pascal语言中的begin end C语言中的花括号自由或固定字段格式如果程序中的语句可以书写在一行的任意位置则该语言的语法是自由字段格式的目前绝大多数的高级语言均采用该语法若要求程序中的语句每一元素必须在一输入行的指定位置书写则该语言的语法是固定字段格式的固定字段格式语言的语法利用输入行的位置来传递信息如Fortran77语言的一行80列分为四个区 1 5列为标号区第6列为续行标志区第7 72列为语句区第73 80列为注释区表达式表达式的作用是访问程序中的数据对象并返回值表达式是语句的基本元素有时甚至是程序的基本元素如C中表达式组成了改变机器状态的基本操作在ML和LISP语言中表达式形成了驱动程序执行的基本顺序控制语句语句是命令式语言中最重要的语法单元语句的语法对整个语言的规则性可读性和可写性有着决定性的作用侧重于规则性的语言使用一个基本的语句格式如SNOBOL4语言只使用一种基本的语句语法即模式匹配替代语句侧重于可读性的语言则对不同类型的语句是用不同的语法大多数的语言采用该方式返回本节主程序子程序结构主程序子程序结构的语法组织的定义与其他语言语法一样千差万别独立子程序定义C语言的语法组织结构将每个子程序定义看作独立的语法单元每个子程序能够独立的编译并在装入的时候通过连接形成一个完整的程序面向对象语言要求信息能够在独立编译的单元中传递类定义的继承性要求编译器在程序装入运行之前处理所有独立子程序 intaa x y voidbb x y intx y floatx inty main floata intb c bb a b aa c b 独立数据定义将所有对一个给定数据对象的操作组织在一起一个子程序可能包括该程序中涉及一个特定数据类型的所有操作如建立打印运算数据记录的操作 Java C 和Smalltalk语言中类机制通常采用这种方法嵌套子程序定义所有子程序的定义嵌套在主程序中嵌套子程序定义对于建立模块化程序起者重要的作用嵌套子程序定义为那些在编译时定义的允许静态类型检查且允许为包含非局部引用的子程序编译高效的可执行代码的子程序提供了一种非局部的引用环境 Pascal语言是嵌套子程序定义的典型 programmainPro input output procedureprobegin endfunctionfun x integer integer begin endbegin mainbegin end 独立接口定义将若干个子程序相关的接口进行单独定义其好处是 1 编译器可方便的检测出相同数据在不同子程序中不同定义的错误 2 调试时只需重新编译修改过的模块提高编译效率如C语言中 h 文件形成了形式说明部分以解决两个独立编译组件之间传输信息的问题而 c 文件形成了实现部分从可执行语句中独立出来的数据描述讲数据与程序进行分离好处是使得数据格式与程序分区中的运算逻辑独立只修改数据分区就可以完成数据结构的细微变动而不需同时修改程序非独立子程序定义主程序与子程序之间没有任何语法的区别即程序组织结构无组织性一个函数调用即开始了一个新的子程序 Return的执行则结束一个子程序程序的行为完全是动态的 SNOBOL4是典型的实例返回本章 3 2翻译的步骤高级语言源程序必须经过翻译才能在虚拟计算机上运行翻译一般是一个较为复杂的过程通常经过词法分析语法分析语义分析代码优化目标程序生成等5个阶段可归纳为源程序的分析和目标代码的生成翻译通常追求高效的编译速度或高效的可执行的优化代码一遍翻译二遍翻译三遍翻译由于编译技术的发展编译速度与扫描次数之间的关系不明显了而语言的复杂度显得突出源程序的分析具体过程包括词法分析语法分析语义分析词法分析将源程序中的字符串划分成基本要素单元标识符限定词运算符数字关键字噪声码空格注释等划分的结果称为语法项该分析过程由词法分析器完成虽然词法分析的概念简单但过程复杂耗费的编译时间较长必须对源程序进行逐字的阅读和分析词法分析实例如下列Fortran语言中的语句如何分析 DO10K 1 10 循环语句DO10K 1 10 赋值语句解决方法假读超前搜索超前扫描超出边界怎么办返回本节语法分析语法分析是翻译过程的核心部分语法分析的任务是按照语法从源程序数据项中识别出各类语法成分同时进行语法检查为语义分析和代码生成做准备执行语法分析任务的程序是语法分析程序也称之为语法分析器一般采用的方法有自顶向下分析方法递归子程序法和LL 1 分析法自低向上的分析方法和LR分析法高效的语法分析是基于形式语法的技术返回本节语义分析语义分析的任务是处理语法分析而识别出来的语法结构生成中间代码语义分析任务由语义分析器完成许多其它的辅助功能也在该过程进行如符号表的维护隐含信息的插入错误检测宏的扩展等目标程序的生成语义分析器的输出结构是中间代码中间代码一般是一种内部表达方式代码生成器将根据这些中间代码生成目标代码但在代码生成之前可对中间代码进行一些优化处理如果子程序是单独翻译的或者需要使用子程序库则还需进行连接和装入因此目标代码的生成阶段通常包含的处理过程有优化代码的生成连接和装入优化考虑语句 A B C D 可能生成的中间代码是 a tmp1 B C b tmp2 tmp1 D c A tmp2 可见3 4 6 7指令是多余的优化后可以获得较高的执行效率直接生成的执行代码是 1 B传入寄存器2 寄存器加C3 寄存器的值存tmp1中4 tmp1传入寄存器5 寄存器加D6 寄存器的值存tmp2中7 tmp2传入寄存器8 寄存器的值存A中代码的生成经过语义分析产生的中间代码经过优化后必须转化成汇编语言机器语言或其他可作为编译输出的目标程序该处理包括根据内部程序表达式所提供的信息对输出进行适当的格式化连接与装入如果子程序是单独翻译的或者需要使用子程序库则还需进行连接和装入以便组成一个完整的目标程序系统自举通常一种新语言的翻译器就是用该语言编写的翻译器翻译程序本身是怎么被翻译的即系统自举解决方法手工将翻译器翻译成虚拟机上可执行的目标程序该方法虽然繁琐但并不困难 3 3BNF文法文法即语法对语言机构的定义与描述我们首先考虑一个自然语言句子实例如张三踢足球该语句是汉语句子肯定因为它符合汉语语法是一种主谓宾结构的语句语法树根据汉语语法上述句子的语法结构可用树的形式表示称之为语法树任何一个语法正确的汉语句子读可以根据语法画出相应的语法树通过语法树将一个句子分解为各个组成部分在语法树中带的节点称为语法成分在形式语言中称为非终结符不带的节点称为单词在形式语言中称为终结符规则我们也可以通过建立一组规则来描述上述句子的语法结构如用表示由组成则上述句子可用下面的规则刻划张三踢足球 BNF范式对于具有相同左部的规则如张三足球可以缩写为张三足球这就是著名的BNF表示法或巴科斯范式 BackusNormalForm 式中的表示定义为表示或如应用BNF范式可以写出的语法结构 0 1 2 9 语法树与二义性如果用某种语法定义的句子中有某个句子存在两棵不同的语法树则该语法是二义性的否则该语法无二义性如语法G E E E E E E E E E E E II I I是该语法的一个句子但存在两棵语法树故该语法存在二义性一般为了是编译能够顺利的进行应该避免定义二义性的语法然而遗憾的是已经证明二义性的性质是不可判定的即不存在一种算法它接收任一BNF文法能在有穷步骤内判定出该文法是否是二义性的解决方法根据提出的条件修改编译算法如else就近匹配原则根据提出的条件直接修改文法如修改G E 文法定义为 E T E T E TT F T F T FF E I BNF符号的扩充 1 BNF的功能强大外观优美使用简单但它往往对文法中一些常用的语法结构如选择成分交替成分及循环成分做出了相当不自然的表述如的BNF表示 0 1 2 9 其存在的缺点是 1 包含了左递归使文法具有复杂的递归性 2 由于递归无符号整数的长度任意不能表示出具体语言对该语法成分的最大长度限制 BNF符号的扩充 2 在BNF文法中通常使用3个元符号和在扩充的BNF中新引入了三个元符号和下面作简单介绍其中 t为符号串表示t可重复出现n到次一般约定n 0 如好处方便的表示重复次数消除了左递归 BNF符号的扩充 3 t 其中 t为符号串表示t是可选择项如 else ifthen引入后可表示为 else 实际上与的n 0 m 1特例等价好处表达更为直观 BNF符号的扩充 4 t 其中 t为符号串可以提取因子如U xy xw xz可提取因子表示为 U x y w z 好处使词法分析工作变的容易些本章小节语法是以句子中词的排列来表明它们的彼此关系它描述了组成一个合法程序的符号的系列是理解一个程序的重要手段也为将源程序翻译成目标程序提供了必要的信息通用语法的标准是好的可读性可写性容验证性易翻译性和无二义性二义性是指相同的语法形式允许存在两种或更多的语义解释二义性的显著特点是存在两棵或更多的语法树无二义性是每个程序语言设计的中心问题通常解决二义性的方法是 1 使用定界符 2 选择多种语义中的一种作为唯一合理的解释主程序子程序的语法组织有六种独立子程序定义独数据定义嵌套子程序定义独立接口定义非独立子程序定义独立出来的数据描述不同的语法结构对翻译具有不同的要求和影响翻译是指将一个程序从原来的语法形式转换成可执行的形式翻译可分成两个主要的部分源程序分析和目标程序的综合编译的过程可经过一次或多次扫描完成到底采用几次与程序语言对编译速度和执行速度的追求目标的不同而密切相关标准编译器一般采用两次扫描如果追求编译速度则采用一次扫描如果追求执行速度则可采用三次甚至更多次的扫描源程序分析包括词法分析语法分析和语义分析阶段目标程序的综合包括优化代码的生成连接和载入等阶段 BNF文法是一种结构简单功能较强的上下文无关文法 BNF扩充文法进一步增强它的功能习题 T1 2 3 5 6 11补充习题 1 解释名词可读性可写性易验证性和易翻译性的含义 2 什么叫二义性解决方法通常有哪些 3 简述词法分析语法分析的原理和过程 4 简述语义分析的主要功能 5 简述优化的原理

展开阅读全文