编译原理-蒋立源第2章文法和语言.ppt

资源描述

第二章文法和语言编译过程的核心就是翻译就是把一种语言翻译成为另一种语言与自然语言的翻译类似只不过其工作对象是某种程序设计语言两个重要的前提 1 描述和定义程序设计语言2 识别或分析这种语言20世纪50年代语言学家NoamChomsky 乔姆斯基提出了一个用来描述语言的数学系统把用一组数学符号和规则来描述语言的方式叫做形式描述而把能用数学符号和规则描述的语言称为形式语言这种理论对程序设计语言的设计和编译程序的构造有着重大的作用程序设计语言就是形式语言 2 1文法及语言的表示如何来描述一种语言 1 当一个语言仅含有有限个句子时可采用枚举法来表示这种语言对于无限的语言寻找出有限的表示有两种途径 2 生成方式文法制定有限条规则用来生成所要描述的语言中的全部句子 3 识别方式自动机建立一种装置更确切的说是构造一种算法或过程此装置以某一字母表上的所有符号串作为输入并识别这些符号串当一个符号串是此字母表上某给定语言中的句子时就接受它反之则拒绝接受语言的定义 Webster定义为相当大地区的公众所懂得并使用的话以及组成这些话的方法的统一体另一种定义某一字母表上符号串句子的集合一种精确化的语言的要求 1 为所定义语言中的句子提供一种结构性的描述 2 提供一种手段准确地判别什么是该语言的正确句子而什么又不是 2 2 1基本概念和术语字母表元素的非空有穷集合字母表中的每个元素称为符号因此字母表也可称为符号集典型的符号有字母数字各种标点符号和各种运算符例如集合 a b c 是一个含有5个符号的字母表而字母表 0 1 只有2个符号符号串由字母表上0个或多个符号所组成的任何有穷序列特别地把不包含任何符号的符号串称为空符号串例如有字母表 a b c 则a b c aa ab ac a a ba bb bc b b aaa bbb等等都是该字母表上的符号串而所有二进制数都是定义在字母表 0 1 上的符号串显然一个字母表上的全部符号串所组成的集合是无穷的 2 2文法和语言的定义符号串及其集合的运算1 1 符号串的长度指符号串x中所含符号的个数记为 x 如 abc 3 abc abc 8 2 符号串的前缀指从符号串x的末尾删除0或多个符号后得到的符号串如 a ab abc都是abc的前缀符号串的后缀指从符号串x的开头删除0或多个符号后得到的符号串如 c bc abc都是abc的后缀符号串的子串指从符号串x的开头和末尾删除0或多个符号后得到的符号串如abc的子串符号串的前缀后缀都是它的子串 a b c ab bc abc 0 符号串及其集合的运算2 3 符号串的连接若x y是两个符号串则xy表示连接是将符号串y连接在符号串x的后面若x y是字母表上的两个符号串则xy也是字母表上的符号串如 x ab y ba 那么xy abba注意连接没有交换律即xy yx对于空串有 x x x符号串的方幂一个符号串x与其自身的n 1次连接称为x的n次方幂即 X0 x1 x x2 xx xn xx x xxn 1 xn 1x如 x abc x0 x1 abc x2 abcabc 符号串及其集合的运算3 4 符号串集合的乘积令A B为两个符号串集合 A和B的乘积AB定义为 AB xy x A y B 例如 A a b B c d 则AB ac ad bc bd 对于有 A A A符号串集合的方幂设A为符号串集合则A的方幂定义为 A0 A1 A A2 AA An AA A AAn 1 An 1A例如 A a b c A0 A1 a b c A2 AA aa ab ac ba bb bc ca cb cc 符号串及其集合的运算4 5 符号串集合的闭包设A为一个集合则集合A的正闭包用A 表示定义为 A A1 A2 An 集合A的闭包用A 表示定义为 A A0 A 例如 A a b c 则A a b c aa ab ac ba bb bc ca cb cc aaa aab A a b c aa ab ac ba bb bc ca cb cc aaa aab 可见字母表A的正闭包A 就是由A中字母所构成的一切符号串的集合而A 仅比A 多个 2 2 2文法和语言的形式定义在学习英语时我们知道句子由主语谓语组成主语由冠词形容词及名词组成等等这就是说明句子组成的规则而在形式语言里这种规则可采用这种形式来表示分析一个句子是否正确就是根据这些规则进行的实际上文法就是描述语言语法结构的形式规则从产生语言的角度出发给出方法和语言的形式定义产生语言指制定出有限个规则借助这些规则可以产生此语言的全部句子文法形式定义1 在表示文法时要说明语言的语法成分语法范畴句子中的符号以及语法结构例如能够描述句子 themonkeyateabanana 的文法如下在这个文法里其中用符号括起来的部分表示评议的一个语法实体符号是一个整体其含义是定义为也就是左边的语法实体可进一步定义为右边的符号串在推导过程中就是一种替换关系而像the ate banana这样的符号只在规则中的右边出现不需要进一步定义这些符号不能用其它符号代替我们最终需定义的语法成分是每条规则的形式都是 1 2 the3 4 5 monkey6 banana7 ate8 has9 the10 a 表示定义为文法形式定义2 the the themonkey themonkeyate themonkeyatea themonkeyateabanana 如何用上述规则去产生或推导出相应语言的句子呢 themonkeyateabanana 表示一步推导表示多步推导文法形式定义3 文法的形式定义文法可表示为一个四元组G S VN VT P S VN是一个非空有穷集合该集合中的每个元素称为非终结符号如上例中VN VT是一个非空有穷集合该集合中的每个元素称为终结符号如上例中VT monkey banana ate has the a 并且VN VT 而 VN VT称为该文法的字汇表 P是一个非空的有穷集合它的每个元素叫做产生式或规则产生式的形式为或是产生式的左部且不能为空是产生式的右部并且 V S是VN集合的一个特殊的非终结符号称为文法的开始符号它至少必须在某个产生式的左部出现一次就是上例文法的识别符号文法形式定义4 文法分4种类型见2 5小节程序设计语言文法主要为2型文法这种文法也叫前后文无关文法本书后面说的文法都是指这种文法在前后文无关文法中产生式的左部是一个非终结符号而右部是由终结符号和非终结符号组成的有穷符号串这样只要给出产生式集合所有产生式的左部符号就构成了非终结符号集合VN 而只出现在产生式右部的那些符号构成终结符号集合VT 因此在表示文法时只需给出规则集合并指定识别符号即可为了进一步简化在给出规则集时可约定将左部符号为开始符号的规则作为规则集合的第一条规则这样表示文法时只需给出规则的集合即可显然上例就是一个简化的文法表示文法形式定义5 例2 2 有如下简化表示文法只给出规则集写出该文法的终结符号集合非终结符号集合和开始符号 1 2 3 4 05 16 27 38 49 510 611 712 813 9 解根据简化约定可确定非终结符号集合 VN 终结符号集合 VT 0 1 2 3 4 5 6 7 8 9 开始符号S 文法的EBNF表示所谓文法的EBNF表示就是在书写文法的规则时可采用一些特殊的符号和和和来表示文法这些符号叫做元符号其中和和和这些元符号总是成对出现下面介绍各种元符号的含义 1 元符号表示或对于具有相同左部的那些规则如 1 n 可以缩写为 1 2 n例2 3 对例2 2文法的13条规则可缩写成 0 1 2 3 4 5 6 7 8 9 文法的EBNF表示 2 元符号和表示可重复连接 t nm表示符号串t可重复连接n到m次而 t 表示符号串t可重复连接0到无穷次例如 13与相同E E T T与E T T 相同而字母打头后面可跟数字或字母的不超过8个字符的标识符文法则为 07 文法的EBNF表示 3 元符号和表示括起的内容可有可无如 t 表示符号串t可有可无例如 IFTHEN IFTHENELSE可写成 IFTHEN ELSE 4 元符号和表示括号内的成分优先常用于在规则中提取公因子例如 U xy xw xz可写成 U x y w z 从上述有关元符号的定义和例子可看出这些元符号为表示文法提供了很大方便直接推导设G S 是一文法是该文法的一个产生式对于符号串x y 其中x和y是该文法的任意符号串可为空推导就是用产生式的右部替换左部从而得到新的符号串x y 表示为 x y x y其中表示一步推导我们称x y直接推导出x y 或x y直接产生x y 若从反方向看则称x y直接归约到x y x y V 直接推导例如有文法1 2 3 0 1 2 3 4 5 6 7 8 9对符号串利用规则1可直接推导出对符号串利用规则2可直接推导出对符号串利用规则3可直接推导出2 2将上述三个推导连接起来可得如下推导过程 2 推导如果文法G S 存在一直接推导序列 0 1 n 其中n 0 那么我们说 0推导出 n或 n归约到 0 并记作 0 n 推导长度为n 如果有 0 n或 0 n 即n 0 则记作 0 n 可见 n 0的推导和n 0分别称为推导和推导例如从开始分别利用规则1 2 2 3 3 可产生如下推导过程 2 23这个推导过程可记作 23 其推导长度n 5 而从到的推导无须使用任何规则可记作其推导长度n 0 句型和句子推导产生的结果可能是句型也可能是句子设文法G的识别符号为S 则句型句子的定义如下 1 如果S 且 V 则称是文法G S 的一个句型 2 如果S 且 Vt 则称是文法G S 的一个句子从文法的开始符号利用规则进行推导一旦推导出句子推导过程就不能再继续进行因为句子中没有非终结符号假设符号串是某一推导的结果那么是句子的必要条件是从S到的推导长度大于等于即S x 而不可能是S x 这是因为识别符号S是非终结符号而是终结符号串显然 S不可能与相等所以S不可能经过步推导就等于为何这里是推导句型是从识别符号开始经过0步或多步推导出的可由终结符号和非终结符号组成的符号串而句子是从文法的识别符号推导出的完全由终结符号组成的符号串句子是特殊的句型是完全由终结符号组成的句型语言一个文法G S 所产生的所有句子的集合L G S 称为文法G S 所定义的语言即 L G S x S x 且x Vt 一个文法所定义的语言是该文法的终结符号集合Vt上的所有符号串组成的集合的一个子集该子集中的每个符号串都可从识别符号开始经过至少一步推导出来即 L G S Vt 例如对例2 1的文法G 其语言有16个句子 themonkeyatethebananathebananaatethemonkeythemonkeyatethemonkeythebananaatethebanana 而例2 3中的文法其语言是所有无符号整数句子是无穷的文法和语言有如下关系 1 给定一个文法就能从结构上唯一的确定其语言即 G L G 2 给定一种语言能确定其文法但不唯一即 L G1或G2或语言例2 4 已知文法G S 为 1 S aSb2 S ab或写成S aSb ab求该文法确定的语言解从识别符号开始推导反复用规则1 最后用规则2可得 S aSb a2Sb2 an 1Sbn 1 anbn n 2 直接用规则2可得 S ab所以该文法确定的语言为 L G S anbn n 1 反之试构造产生下列语言的文法 anbn n 0 S aSb 语言例2 5 已知语言为 L G abna n 1 构造产生该语言的文法解根据语言的形式可构造其文法G为 S aBaB Bb b还可以构造文法G1为 S aBaB bB b可见 G与G1是两个不同的文法但它们都可以描述语 abna n 1 如果两个不同的文法可描述相同的语言那么我们称这两个文法为等价文法前后文无关文法的等价问题是不可判定的等价文法的存在对编译技术的实现有很大帮助使我们能在不改变文法所确定的语言前提下为了某种目的而改写文法引理2 1设G Vn Vt P S 为一文法并设A xBy是P中的一个产生式而B 1 B 2 B k是P中的全部B 产生式又设G1 Vn Vt P1 S 是这样的文法其中 P1是从P中删去A xBy并添加产生式A x 1y A x 2y A x ky所组成的集合则L G1 L G 递归规则与递归文法递归规则是指在规则的右部含有与规则左部相同符号的规则设文法G S x y是V上的符号串若U xUy是文法的规则且xy 则称U xUy为直接递归规则称U为直接递归的非终结符特别若x 即这个相同的符号出现在右部的最左端则为左递归规则如U Uy若y 即这个相同的符号出现在右部的最右端则为右递归规则如U xU若文法G S 存在推导U xUy 则称U为递归的非终结符给定了文法就确定了语言句子的个数是有穷还是无穷取决于文法是否是递归的若文法G S 中至少包含一个递归的非终结符号则称此文法是递归文法递归文法使我们能用有穷的文法刻画无穷的语言 2 3句型的分析所谓句型的分析是指构造一种算法用以判定给定的符号串是否为某一文法的句型或句子通常句型分析的方法可大致分为两类即自顶向下的分析和自底向上的分析前者是从文法的开始符号出发以给定的符号串为目标试图推导出此符号串后者恰好和前者相反它从给定的符号串出发反复用文法中规则的左部去替换当前符号串中的相应子串以期最后归约到文法的开始符号这与分析过程中构造句型相应语法树的方向有关 2 3 1规范推导规范推导最右推导每步推导只替换最右边的非终结符号定义为对于直接推导xUy xuy来说如果y只包含终结符号或为空符号串那么就把这种推导称为规范推导或最右推导如果只包含终结符号或为空符号串则为最左推导且记作 xUy r xuy 其中y Vt 例2 6算术表达式文法G E E E T TT T F FF E i给出句子i i i的最左推导和最右推导解最左推导 E l E T l T T l F T l i T l i T F l i F F l i i F l i i i最右推导 E r E T r E T F r E T i r E F i r E i i r T i i r F i i r i i i 2 3 1规范推导每一个句子都有一个规范推导但并非每一个句型都有规范推导只有那些能用规范推导产生的句型才是规范句型例如对于例2 3中的文法有句型 2 其推导过程如下 2其中第3 步推导变换的不是最右边的非终结符号不满足规范推导的要求所以句型 2 不是规范句型而对于句型 3 其推导过程如下 3 3其中的每一步推导都变换的是最右边的非终结符号所以句型 3 是规范句型 2 3 1规范推导给定终结符号串w 通过语法分析判定w是否为某一语言L G 中的句子自顶向下试图为w建立一个从G的开始符号S到w的最左推导显然若某步推导中被替换的非终结符号U是由若干个后选式定义的即有U 1 2 n 那么就会出现如何选用后选式的问题一种办法是逐个用这些后选式试探若用某个 i替换U能使分析继续则沿此路径继续若发现有错则退回出错点再用下一个 i 1继续试探故称为带回溯的自顶向下的分析方法回溯效率低应设法避免 2 3 1规范推导自低向上试图从w出发以相反方向为w建立一个规范推导从左到右扫视wi中各个符号找到一个和G中某一产生式的右部相同的最左子串用此产生式的左部替换此最左子串进行直接归约例如符号串i i i的归约过程最右推导 E r E T r E T F r E T i r E F i r E i i r T i i r F i i r i i i可见最右左推导的逆过程是最左右归约反之亦然如何确定可归约的最左子串 2 3 2语法树和二义性推导过程可用图来表示这就是语法树也叫分析树语法树是一棵有序有向树每个节点都有标记根节点代表文法的识别符号每个内部节点非叶节点表示一个非终结符号其子节点由这个非终结符号在这次推导中所用产生式的右部各个符号代表的节点组成每个末端节点叶节点代表终结符号或非终结符号它们从左向右排列起来构成句型如果叶节点都是终结符号则从左向右构成句子推导过程不同生成语法树的过程也不同但最终生成的语法树是相同的例2 8根据如下推导过程构造语法树 3 3 23 23 123 数字串图2 1语法树返回1 返回2 2 3 2语法树和二义性算术表达式的运算规则是乘除高于加减 if语句规定else就近配对为什么呢这是为了解决文法的二义性问题前面我们介绍语法树时说过推导过程不同生成语法树的过程也不同但最终生成的语法树是相同的这是在文法没有二义的条件下才成立如果一个文法所定义的句子中有某个句子或句型它存在两棵不同的语法树那么这个句子或句型是二义性的该文法是二义性文法例2 9有文法G E E E E E E E i 分析该文法是否为二义性文法解为了判断该文法是否为二义性文法我们找一个句子i i i 如果能够构造出两个不同的语法树则说明该文法是二义性文法下面两个图是为句子i i i构造的两棵语法树如图2 2 a b 所示由于这两棵语法树不同所以可以肯定文法G E 是二义性文法 2 3 2语法树和二义性图2 2 a 语法树1图2 2 b 语法树2 二义性产生的后果会导致分析结果不同导致对句子的理解不同在图2 2 a 语法树1中根据规范归约构造的推导过程为 E E E E E E E E i E i i i i i在图2 2 b 语法树1中根据规范归约构造的推导过程为 E E E E i E E i E i i i i i由于图2 2 a 语法树1中的先作为句柄归约可理解成优先于进行运算而图2 2 b 语法树2中的先作为句柄归约表示优先于进行运算 2 3 2语法树和二义性例2 10 IF语句文法如下 IFTHEN IFTHENELSE 说明该文法是二义性文法解假设有一个IF语句嵌套的句型为 IFTHENIFTHENELSE根据文法可构造两棵语法树如图2 3 a 和图2 3 b 所示 2 3 2语法树和二义性图2 3 a IF语句语法树1 图2 3 b IF语句语法树2 由于这两棵语法树不同所以该文法是二义性文法图2 3 a IF语句的语法树意味着ELSE和第2个THEN配对就近配对而图2 3 b IF语句的语法树表示ELSE和第1个THEN配对 2 3 2语法树和二义性文法的二义性是不可判定的即不存在一种算法它能够在有限步内判定一个文法是否是二义性的第4章讨论的LL LR等几类重要文法都是无二义性的同时还存在这样一些算法可判定任一前后文无关文法是否为LL LR文法不过文法的LL性 LR性只是文法无二义性的充分条件另一方面还存在一些用来检查文法二义性的其他充分条件若一个文法G含有既是左递归又是右递归的非终结符号A 即有A AuAu V 或A A或A A 及A A则G必定是二义性文法有时我们还可以把一个二义性文法变换成一个等价的无二义性文法例2 11 改写文法G E E E E E E E i 使其无二义性解新添非终结符号T和F 将文法写成 E T E T T F T F F E i 2 3 3短语和句柄短语简单短语和句柄在分析中有着重要的作用后面介绍自底向上的语法分析时就可看到如何找句柄是非常关键的短语是句型的子串是在句型的推导过程中能由某个非终结符号推导出的子串而简单短语则是能由某个非终结符号直接推导出的子串它们的形式定义如下 1 短语设G S 是一文法 w xuy是一句型如果有S xUy且U u 其中U Vn u V 那么我们称u是句型w相对于非终结符号U的短语 2 简单短语若有S xUy且U u 那么我们称u是句型w相对于非终结符号U的简单短语 3 句柄任一句型的最左简单短语即规范分析中最先被规约的子串称为该句型句柄 S xUy xuy 2 3 3短语和句柄例2 7对于文法G 确定句型1的短语简单短语和句柄解首先构造句型1的推导过程如下 11 由于而 1 对照定义子串1是由非终结符号推出的所以是相对的短语 2 由于而 1 所以子串1是相对的短语 3 由于而 1 且1是由非终结符号直接推出的所以子串1是相对的短语而且是简单短语在句型1中只有一个简单短语1 所以它就是该句型的句柄 2 3 3短语和句柄语法树的子树是由该树的某个节点子树的根连同它所有的后裔构成子树与短语一一对应要找一个句型的短语可先画出该句型的语法树判明语法树中的每棵子树那么每棵子树的末端节点自左向右组成的符号串就是相对于子树根符号的短语原则上语法树中有多少棵子树就有多少个短语 123的语法树例2 8根据文法G 找句子123的短语简单短语和句柄解首先画出产生句子123的语法树见图2 1 该语法树共有7棵子树子树1 树根末端节点1 2 3 短语为123子树2 树根末端节点1 2 3 短语为123子树3 树根末端节点1 2 短语为12子树4 树根末端节点1 短语为1子树5 树根末端节点1 短语为1 且为简单短语句柄子树6 树根末端节点2 短语为2 且为简单短语子树7 树根末端节点3 短语为3 且为简单短语在这7个子树中只有子树5 6 7的根节点与末端节点都是父子关系所以这几个子树的末端节点形成的短语1 2 3都是简单短语而子树5位于其中的最左端所以短语1还是句柄 2 3 3短语和句柄前面分析过采用自底向上的语法分析时每按一个产生式进行一次归约就用该产生式的左部去替换当前句型中的子串从语法树的角度来看就是把该句型的语法树的一棵直接子树的末端节点剪去换言之语法分析每次所归约的符号串必然是当前句型的某一直接短语但是由于一个句型中的直接短语可能不止一个故为了使语法分析按一种确定的方式来进行通常我们只考虑最左归约即规范归约 123的规范推导 1 如何确定一个规范句型的句柄 2 应将句柄归约为哪个非终结符号 2 4文法的化简和改造实用限制就是从实用的观点出发对文法做一些必要的限制本节讨论如下三个问题 1 无用符号和无用产生式的删除 2 产生式的删除 3 单产生式的删除消除文法的左递归在后面讨论 2 4 1无用符号和无用产生式的删除设G是一文法我们说G中一符号X是有用的是指X至少出现在一个句子的推导过程中即X必须同时满足以下两个条件 X必须在某个句型中出现即存在 V 有S X 2 必须能够从X推导出终结符号串即存在w Vt 使 X w否则就说X是无用的含有无用符号的产生式称为无用产生式 2 4 1无用符号和无用产生式的删除算法2 1用来将文法G Vn Vt P S 改造为等价的文法G1 Vn1 Vt P1 S 使得对于每个X Vn1 都有w1 Vt 满足X w1 即改造为满足条件2的文法算法2 1分别置Vn1 P1为空对于P中的每一产生式A 若 Vt 则将A置于Vn1中对于P中的每一产生式A X1X2 Xm 若每一个Xi都属于Vt或Vn1 则将A置于Vn1中重复步骤3 直到Vn1不再增大为止对于P中的每一产生式B Y1Y2 Yn 若B及每一个Yi都属于Vt或Vn1 则将此产生式置于P1中 2 4 1无用符号和无用产生式的删除对于给定的文法G 若执行算法2 2 便能得到一等价的文法G Vn Vt P S 使得对于每个X Vn Vt 都存在 Vn Vt 有S X 即改造为满足条件1的文法算法2 2分别置Vn Vt P 为空将文法G的开始符号S置于Vn 中对于G中任何形如A 1 2 m的产生式若A属于Vn 则将符号串 1 2 m中的全部非终结符置于Vn 中而将其中的全部终结符置于Vt 中重复步骤3 直到Vn 和Vt 都不再增大为止将P中左右部仅含Vn Vt 中的符号的所有产生式置于P 中 2 4 1无用符号和无用产生式的删除例如对于文法G S U V W a b c P S 其中 P为S aSS WS UU aV bVV acW aW对G执行算法步骤如下由于U a及V ac 故Vn1 U V 对于产生式S U 由于U Vn1 故Vn1 S U V Vn1不再增大 G S U V a b c P S 其中 P1为S aSS UU aV bVV ac再对G1执行算法步骤如下置Vn S 由于S U及U a 故Vn S U Vt a Vn 及Vt 不再增大 G S U a P S 其中 P 为S aSS UU a 注意两个算法的执行顺序不能颠倒 2 产生式的消除所谓产生式是指右部为一空符号串的产生式如果一个语言L G 中不含有则可以消除全部产生式而当 L G 时 G中的产生式不能全部消除因此为了判断一个语言L G 中是否含有同时也为了构造消除产生式算法的需要我们首先给出算法2 3 该算法能够找出所有能导出空串即满足A 的非终结符号A 算法2 3设G是一文法作集合W1 A A P 作集合序列Wk 1 Wk B P 且 Wk 对于此集合序列必存在一个i 使Wi Wi 1 Wi 2 若令W Wi 则对每一个A W 有A 特别当S W时则 L G 否则 L G 2 产生式的消除下面分别就是否属于L G 来讨论消除G中产生式的问题 1 不属于L G 设G Vn Vt P S 是一文法则可按下述算法构造一文法G Vn Vt P S 使L G L G 且G 中不含任何产生式算法2 4按算法2 3求出集合W 设A X1X2 Xm是P中任一产生式按如下规则将形如A Y1Y2 Ym的产生式放入P 中对于一切1 i m 若Xi W 则取Yi Xi 若Xi W 则分别取Yi为Xi和即如果X1X2 Xm中有j个符号属于W 1 j m 则将有2j个形如A Y1Y2 Ym的产生式放入P 中但若所有的Xi均属于W 则不能把所有的Yi都取为 2 产生式的消除例如设有文法G S A B C a b c P S 其中 P为S aAA BCB bBC cCB C 对G执行算法2 3有W A B C 再对G执行算法2 4有P S aAS aA BCA BA CB bBB bC cCC c 2 产生式的消除 2 属于L G 算法2 5如果在原文法中开始符号S不出现在任何产生式的右边则可直接执行算法2 4得到P 令P1 P S Vn1 Vn S1 S 则G1 Vn1 Vt p1 S1 即为所求之文法但若文法的开始符号S出现在某些产生式的右边则引入新的符号S1作为前面算法2 4中G 的开始符号并令Vn1 Vn S1 作产生式集P P S1 S P 对文法G Vn1 Vt P S1 执行算法2 4 同理再添加产生式S1 得到P1 2 产生式的消除例如设有文法G S A B a b c P S 其中 P为S cSS ABA aAbB BbA B 引入新的符号S1 作产生式集P P S1 cS S1 AB 执行算法2 4并加入产生式S1 得到P1S1 cSS1 cS1 ABS1 AS1 BS1 S cSS cS ABS AS BA aAbA abB BbB b W W A B S S1 2 4 单产生式的消除右部仅含一个非终结符号的产生式即形如A B A B Vn 的产生式称为单产生式例如设有文法G S A B a b P S 其中 P为S ABS AS BA aAbA abB BbB bW S S A B W A A W B B P S AB S aAb S ab S Bb S b A aAb A ab B Bb B b 算法2 6设Vn A1 A2 An 对于每个Ai 1 i n 作集合序列W1 Ai Ai Wk 1 Ai Wk Ai D C D P C Wk Ai D Vn k 1 则必存在一个j 使Wj Ai Wj 1 Ai 令Wi Wj Ai 即Wi B Ai B B Vn 构造产生式集P i 1n Ai B P B Wi Vn 2 5文法和语言的Chomsky分类著名的语言学家乔姆斯基在1956年对形式语言进行了定义他把文法定义为四元组 G Vn Vt P S 其中 Vn为非终结符号集合 Vt为终结符号集合且Vt V P为有穷规则集合 S识别符号且S Vn 文法所描述的语言为 L G x x Vt S x 根据文法中的规则的形式可定义如下四类文法和相应的四种形式语言 2 5文法和语言的分类 0型文法 PSG 若文法中有如下形式的规则其中 V V V Vn Vt即规则左部可以是符号集合V上的符号串但不能为空而规则右部也是V上的符号串可以是空例如 aSb cAd0型文法描述的语言为0型语言用L0表示 1型文法 CSG 若文法中有如下形式的规则 U u 其中U Vn V u V V Vn Vt即规则左部可为符号串其中U为非终结符号且只有在左右为和的环境下U可变为u 因为规则中的和不发生变化所以这种文法也叫上下文有关文法例如 aUb aABBaab1型文法描述的语言为1型语言用L1表示文法中的产生式满足条件 V 则该文法称为1型文法 2 5文法和语言的分类 2型文法 CFG 若文法中的规则都具有如下形式 U u 其中U Vn u V V Vn Vt2型文法中的规则左部只有一个非终结符号规则右部u是V上的符号串该文法相当于对1型文法中的规则形式加以限制即要求和必须为空 2型文法也称作上下文无关文法描述的语言为2型语言用L2表示 2型文法是描述程序设计语言语法部分的主要文法 2 5文法和语言的分类 3型文法若文法中的规则都具有如下形式 A 或A B 左线性或A B 右线性其中A B Vn Vt 规则右部至多含有一个非终结符号 3型文法描述的语言为3型语言用L3表示高级程序设计语言的单词符号如标识符无符号整数等都是采用3型文法来描述的例如左线性3型文法 N N0 N1 N2 N3 N4 N5 N6 N7 N8 N9N 0 1 2 3 4 5 6 7 8 9这个文法定义的语言为就是无符号整数在上述四类文法中从0型到3型文法对规则的限制逐渐增加产生的语言类却逐步缩小即0型语言包含1型语言 1型语言包含2型语言 2型语言包含3型语言因此可以说3型文法是2型文法的特例 2型文法是1型文法的特例 1型文法又是0型文法的特例习题2 2 1设字母表A a 符号串x aaa 写出下列符号串及其长度 x0 xx x5以及A 2 2令 a b c 又令x abc y b z aab 写出如下符号串及它们的长度 xy xyz xy 32 3设有文法G S S SS SS a 写出符号串aa a 规范推导并构造语法树 2 4已知文法G Z Z U0 V1 U Z1 1 V Z0 0 请写出全部由此文法描述的只含有四个符号的句子 2 5已知文法G S S ABA aA B bBc bc 写出该文法描述的语言 2 6已知文法E T E T E T T F T F T F F E i 写出该文法的开始符号终结符号集合VT 非终结符号集合VN 2 7对2 6题的文法写出句型T T F i的短语简单短语以及句柄 2 8设有文法G S S S S S S S a 该文法是二义性文法吗 2 9写一文法使其语言是奇正整数集合 2 10给出语言 anbm n m 1 的文法

展开阅读全文

编译原理-蒋立源第2章文法和语言.ppt

最新文档