递归下降分析法（编译原理递归下降分析程序）

小多多 • 2021年12月13日下午9:10 • 杂谈

你想根据一组语法规则解析文本并执行命令，或者构造一个代表输入的抽象语法树。如果语法非常简单，你可以自己写这个解析器，而不是使用一些框架。

在这个问题中，我们集中讨论根据特殊语法去解析文本的问题。为了这样做，你首先要以 BNF(巴科斯范式)或者 EBNF(扩展巴科斯范式)形式指定一个标准语法。

具体关于BNF和EBNF的介绍，可以查看中国维基百科：

BNF：https://zh.wikipedia.org/wiki/巴科斯范式

EBNF：https://zh.wikipedia.org/wiki/扩展巴科斯范式

比如，一个简单数学表达式语法可能像下面这样：

expr ::= expr + term      | expr - term      | termterm ::= term * factor      | term / factor      | factorfactor ::= ( expr )      | NUM

或者，以 EBNF 形式：

expr ::= term { (+|-) term }*term ::= factor { (*|/) factor }*factor ::= ( expr )        | NUM

BNF形式简单，知道终结符和非终结符，并且知道三个符号：

“::=”，表示定义为

“|”，表示或

“<>”，用来区分非终结符

EBNF多增加几个符号：

“[]”,表示可选项

“{}”，表示重复0次或者多次

引号本身，便于区分单个符号的终结符

在 EBNF 中，被包含在 {…}* 中的规则是可选的。 *代表 0 次或多次重复 (跟正则表达式中意义是一样的)。

上边例子中更加易读的写法应该是：

# <expr>加个<>尖括号表示非终结符<expr> ::= <expr> + <term>      | <expr> - <term>      | <term><term> ::= <term> * <factor>      | <term> / <factor>      | <factor><factor> ::= ( <expr> )      | NUM

BNF例子，如正则表达式：”a(bb)*c”

<v0> ::=a<w><w>  ::=bb<w>|c

现在，如果你对 BNF 的工作机制还不是很明白的话，就把它当做是一组左右符号可相互替换的规则。一般来讲，解析的原理就是你利用 BNF 完成多个替换和扩展以匹配输入文本和语法规则。为了演示，假设你正在解析形如 2 + 3 * 4 的表达式。这个表达式先要通过使用介绍过的令牌解析技术分解为一组令牌流。结果可能是像下列这样的令牌序列：

NUM + NUM * NUM

在此基础上，解析动作会试着去通过替换操作匹配语法到输入令牌：

exprexpr ::= term { (+|-) term }*expr ::= factor { (*|/) factor }* { (+|-) term }*expr ::= NUM { (*|/) factor }* { (+|-) term }*expr ::= NUM { (+|-) term }*expr ::= NUM + term { (+|-) term }*expr ::= NUM + factor { (*|/) factor }* { (+|-) term }*expr ::= NUM + NUM { (*|/) factor}* { (+|-) term }*expr ::= NUM + NUM * factor { (*|/) factor }* { (+|-) term }*expr ::= NUM + NUM * NUM { (*|/) factor }* { (+|-) term }*expr ::= NUM + NUM * NUM { (+|-) term }*expr ::= NUM + NUM * NUM

下面所有的解析步骤可能需要花点时间弄明白，但是它们原理都是查找输入并试着去匹配语法规则。第一个输入令牌是 NUM，因此替换首先会匹配那个部分。一旦匹配成功，就会进入下一个令牌 +，以此类推。当已经确定不能匹配下一个令牌的时候，右边的部分 (比如 {(*/)factor }* ) 就会被清理掉。在一个成功的解析中，整个右边部分会完全展开来匹配输入令牌流。

有了前面的知识背景，下面我们举一个简单示例来展示如何构建一个递归下降表达式求值程序：

\"\"\"Topic: 下降解析器Desc :\"\"\"import reimport collections# Token specificationNUM = r\'(?P<NUM>\\d+)\'PLUS = r\'(?P<PLUS>\\+)\'MINUS = r\'(?P<MINUS>-)\'TIMES = r\'(?P<TIMES>\\*)\'DIVIDE = r\'(?P<DIVIDE>/)\'LPAREN = r\'(?P<LPAREN>\\()\'RPAREN = r\'(?P<RPAREN>\\))\'WS = r\'(?P<WS>\\s+)\'master_pat = re.compile(\'|\'.join([NUM, PLUS, MINUS, TIMES, DIVIDE, LPAREN, RPAREN, WS]))# TokenizerToken = collections.namedtuple(\'Token\', [\'type\', \'value\'])def generate_tokens(text):    for matched_item in re.finditer(master_pat, text):        tok = Token(matched_item.lastgroup, matched_item.group())        if tok.type != \'WS\':            yield tok# Parserclass ExpressionEvaluator(object):    \"\"\"    递归下降解析器的实现。 每种方法实现单个语法规则。 使用._accept()方法    测试并接受当前的超前令牌。 使用._expect()完全匹配并丢弃输入的下一个标记的方法    如果不匹配，则引发SyntaxError    \"\"\"    def parse(self, text):        self.tokens = generate_tokens(text)        self.tok = None  # Last symbol consumed        self.next_tok = None  # Next symbol tokenized        self._advance()  # Load first lookahead token        return self.expr()    def _advance(self):        # Advance one token ahead        self.tok, self.next_tok = self.next_tok, next(self.tokens, None)    def _accept(self, tok_type):        # Test and consume the next token if it matches tok_type        if self.next_tok and self.next_tok.type == tok_type:            self._advance()            return True        else:            return False    # Consume next token if it matches tok_type or raise SyntaxError    def _expect(self, tok_type):        if not self._accept(tok_type):            raise SyntaxError(\'Expected \' + tok_type)    # Grammar rules follow    def expr(self):        # expression ::= term { (\'+\'|\'-\') term }*        expr_val = self.term()        while self._accept(\'PLUS\') or self._accept(\'MINUS\'):            op = self.tok.type            right = self.term()            if op == \'PLUS\':                expr_val += right            elif op == \'MINUS\':                expr_val -= right        return expr_val    def term(self):        # term ::= factor { (\'*\'|\'/\') factor }*        term_val = self.factor()        while self._accept(\'TIMES\') or self._accept(\'DIVIDE\'):            op = self.tok.type            right = self.factor()            if op == \'TIMES\':                term_val *= right            elif op == \'DIVIDE\':                term_val /= right        return term_val    def factor(self):        # factor ::= NUM | ( expr )        if self._accept(\'NUM\'):            return int(self.tok.value)        elif self._accept(\'LPAREN\'):            expr_val = self.expr()            self._expect(\'RPAREN\')            return expr_val        else:            raise SyntaxError(\'Expected NUMBER or LPAREN\')def descent_parser():    e = ExpressionEvaluator()    print(e.parse(\'2\'))# 2    print(e.parse(\'2 + 5\'))# 7    print(e.parse(\'2 + 2 * 4\'))# 10    print(e.parse(\'2 + (5 + 2) * 3\'))# 23if __name__ == \'__main__\':    descent_parser()

文本解析是一个很大的主题，一般会占很大的精力。如果你在找寻关于语法，解析算法等相关的背景知识的话，你应该去看一下编译器书籍。很显然，关于这方面的内容太多，不可能在这里全部展开。

尽管如此，编写一个递归下降解析器的整体思路是比较简单的。开始的时候，你先获得所有的语法规则，然后将其转换为一个函数或者方法。因此如果你的语法类似这样：

expr ::= term { (\'+\'|\'-\') term }*term ::= factor { (\'*\'|\'/\') factor }*factor ::= \'(\' expr \')\'   | NUM

你应该首先将它们转换成一组像下面这样的方法

class ExpressionEvaluator:    def expr(self):        pass    def term(self):        pass    def factor(self):        pass

每个方法要完成的任务很简单 – 它必须从左至右遍历语法规则的每一部分，处理每个令牌。从某种意义上讲，方法的目的就是要么处理完语法规则，要么产生一个语法错误。为了这样做，需采用下面的这些实现方法：

如果规则中的下个符号是另外一个语法规则的名字 (比如 term 或 factor)，就简单的调用同名的方法即可。这就是该算法中” 下降” 的由来 – 控制下降到另一个语法规则中去。有时候规则会调用已经执行的方法 (比如，在 factor ::= ‘(‘expr’)’ 中对 expr 的调用)。这就是算法中” 递归” 的由来。
如果规则中下一个符号是个特殊符号 (比如 ()，你得查找下一个令牌并确认是一个精确匹配)。如果不匹配，就产生一个语法错误。这一节中的 expect() 方法就是用来做这一步的。
如果规则中下一个符号为一些可能的选择项 (比如 + 或 -)，你必须对每一种可能情况检查下一个令牌，只有当它匹配一个的时候才能继续。这也是本节示例中accept() 方法的目的。它相当于 expect() 方法的弱化版本，因为如果一个匹配找到了它会继续，但是如果没找到，它不会产生错误而是回滚 (允许后续的检查继续进行)。
对于有重复部分的规则 (比如在规则表达式 ::= term { (‘+’|’-‘) term }* 中)，重复动作通过一个 while 循环来实现。循环主体会收集或处理所有的重复元素直到没有其他元素可以找到。
一旦整个语法规则处理完成，每个方法会返回某种结果给调用者。这就是在解析过程中值是怎样累加的原理。比如，在表达式求值程序中，返回值代表表达式解析后的部分结果。最后所有值会在最顶层的语法规则方法中合并起来。

尽管向你演示的是一个简单的例子，递归下降解析器可以用来实现非常复杂的解析。比如， Python 语言本身就是通过一个递归下降解析器去解释的。如果你对此感兴趣，你可以通过查看 Python 源码文件 Grammar/Grammar 来研究下底层语法机制。看完你会发现，通过手动方式去实现一个解析器其实会有很多的局限和不足之处。

其中一个局限就是它们不能被用于包含任何左递归的语法规则中。比如，加入你需要翻译下面这样一个规则：

items ::= items \',\' item      | item

为了这样做，你可能会像下面这样使用 items() 方法：

def items(self):    itemsval = self.items()    if itemsval and self._accept(\',\'):        itemsval.append(self.item())    else:        itemsval = [ self.item() ]

唯一的问题是这个方法根本不能工作，事实上，它会产生一个无限递归错误。关于语法规则本身你可能也会碰到一些棘手的问题。比如，你可能想知道下面这个

简单扼语法是否表述得当：

expr ::= factor { (\'+\'|\'-\'|\'*\'|\'/\') factor }*factor ::= \'(\' expression \')\'        | NUM

这个语法看上去没啥问题，但是它却不能察觉到标准四则运算中的运算符优先级。比如，表达式 “3 + 4 * 5” 会得到 35 而不是期望的 23. 分开使用”expr” 和”term” 规则可以让它正确的工作。

对于复杂的语法，你最好是选择某个解析工具比如 PyParsing 或者是 PLY。下面是使用 PLY 来重写表达式求值程序的代码：

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : cory# @Time : 2021/2/2223:20# @Email: 1595610424@qq.comfrom ply.lex import lexfrom ply.yacc import yacc# Token listtokens = [\'NUM\', \'PLUS\', \'MINUS\', \'TIMES\', \'DIVIDE\', \'LPAREN\', \'RPAREN\']# Ignored characterst_ignore = \' \\t\\n\'# Token specifications (as regexs)t_PLUS = r\'\\+\'t_MINUS = r\'-\'t_TIMES = r\'\\*\'t_DIVIDE = r\'/\'t_LPAREN = r\'\\(\'t_RPAREN = r\'\\)\'# Token processing functionsdef t_NUM(t):    r\'\\d+\'    t.value = int(t.value)    return t# Error handlerdef t_error(t):    print(\'Bad character: {!r}\'.format(t.value[0]))    t.skip(1)    # Build the lexerlexer = lex()# Grammar rules and handler functionsdef p_expr(p):    \"\"\"    expr : expr PLUS term        | expr MINUS term    \"\"\"    if p[2] == \'+\':        p[0] = p[1] + p[3]    elif p[2] == \'-\':        p[0] = p[1] - p[3]def p_expr_term(p):    \"\"\"expr : term\"\"\"    p[0] = p[1]def p_term(p):    \"\"\"    term : term TIMES factor         | term DIVIDE factor    \"\"\"    if p[2] == \'*\':        p[0] = p[1] * p[3]    elif p[2] == \'/\':        p[0] = p[1] / p[3]def p_term_factor(p):    \"\"\"    term : factor    \"\"\"    p[0] = p[1]def p_factor(p):    \"\"\"    factor : NUM    \"\"\"    p[0] = p[1]def p_factor_group(p):    \"\"\"    factor : LPAREN expr RPAREN    \"\"\"    p[0] = p[2]def p_error(p):    print(\'Syntax error\')parser = yacc()print(parser.parse(\'2\'))# 2

这个程序中，所有代码都位于一个比较高的层次。你只需要为令牌写正则表达式和规则匹配时的高阶处理函数即可。而实际的运行解析器，接受令牌等等底层动作已经被库函数实现了。

如果对编写语法与词法感兴趣，可以查看PLY文档，以及查看更加详细的编译器的书籍，这里就不再赘述了。

小多多创始人

0 0

excel工作表误删后找回老版本（误删的excel表格恢复方法）

相信各位小伙伴，都有误删各种文件的经历，但是下面这些恢复方法，你知道吗？接下来就带各位一起看看吧！希望可以帮到你哦！ 2.WPS恢复接下来，我们还可以使用WPS自带的恢复方法，只…

小多多
2021年12月13日 • 杂谈
联想笔记本电脑防火墙(电脑防火墙在哪里设置)

win7系统发布至今已经有10年了，已经成为xp系统后运行时间最长的windows电脑操作系统了，许多朋友觉得win7防火墙这个功能比较鸡肋，想将防火墙关闭，那就来看看操作方法吧!…

小多多
杂谈 2021年12月13日
烂尾金鱼怎样算治愈了（金鱼烂尾病怎么治疗）

烂尾金鱼精神恢复，尾巴舒展，就算是治好了。治疗的话，需要用孔雀石绿涂抹腐烂处，也可以用黄粉兑成溶液后，将病鱼放到里面浸洗。烂尾一般是细菌引起的，是淡水鱼的主要病害，这种病很容易爆发…

小多多
杂谈 2021年12月13日
网页被篡改怎么处理（win10默认浏览器被篡改方法）

凌云帮过不少粉丝挑选新机、解决问题，遇到的最最最多的一个问题是：我的浏览器打开后怎么跟以前不一样了 PART01 为什么不将就篡改主页度娘的国内搜索质量是最高的，平均每条比某数字…

小多多
2021年12月13日 • 杂谈
星图mcn入驻条件(抖音星图是什么)

抖音现在已经成了一个新晋的电商平台，最开始的短视频吸引了非常多的流量，让这个平台逐渐火爆。当它推出了电商功能之后，也让越来越多的消费者愿意在这个平台购物。那么我们所说的星图是什么…

小多多
杂谈 2021年12月13日
预售款多久发货（下单了什么时候发货）

刘女士下单界面显示货物要一周才能发货□大河报·大河财立方记者丁洋涛文图“我前几天在网上买的秋装，可能要到冬天才能收到了。”突如其来的全国范围内降温，让双11“尾款人”纷纷这样调…

小多多
杂谈 2021年12月10日
u盘装win7系统详细步骤(笔记本u盘装系统按什么键进入)

上期我们讲到如何制作纯净版的系统U盘本期就给大家讲一下如何使用系统U盘给电脑重装系统或者修复系统！一，准备工作电脑在关机情况下插入系统U盘！进入BIOS后找到U盘启动项，…

小多多
2021年12月13日 • 杂谈
墨菲优果是连锁吗

墨菲优果是连锁加盟的公司，主要经营范围是做食品、果蔬、水产品的销售，在辽宁省北票市一带知名度非常高，很多当地的人卖水果都是去墨菲优果购买。墨菲优果是连锁吗北票市墨菲优果坊成立于…

季候
杂谈 2022年4月6日
廊坊十大高中排行榜大厂回民中学上榜廊坊市第七中学不断强化

　　河北廊坊拥有丰富的教育资源，同时大力提倡教育改革和教育创新工作，走出了一条具有特色的教育之路，那么今天就让我们来一起看一看廊坊十大高中排行榜，详细了解一下都有哪些知名学校吧！ …

海淘直接
2022年6月22日 • 杂谈
杂谈

抖音点赞关注协议软件(抖音协议软件教程)

抖音短视频经纪合约公司方：（以下简称甲方）通讯地址：邮编：电话：传真：电子信箱：艺人方：（以下简称乙方）身份证：现在住址：邮编：电话：电子…

小多多
2021年12月13日
office兼容模式怎么设置（办公软件word基本操作教程）

在高版本的Word中制作的文档，怎么才能在低版本的Word2003中打开呢？现在我们所使用的办公软件，已经由早期的Word97、Word2000、Word2003升级为Word2…

小多多
杂谈 2021年12月13日
2021年安卓手机最强杀毒软件排行榜（不分先后，各有优劣）

近日华为应用商店爆出190款应用暗藏木马病毒（已下架），数百万用户中招，让Android（安卓）智能手机的端点安全问题再次成为人们关注的焦点。近年来，随着个人智能手机中存储的隐私…

季候
2022年4月8日 • 杂谈
计算机系统软件类型（常见的系统软件和应用软件）

最近因为网课的原因，和很多老师打交道，才发现很多人的电脑里，弹窗广告满天飞，尤其是家里有小孩的，露骨的广告是很令人烦恼。那么这些弹窗广告究竟是从哪里来的呢？小迷虫被很多人问过，于…

小多多
2021年12月13日 • 杂谈
抖音上热门辅助工具(抖音工具栏在哪里)

随着抖音用户的快速增长，短视频的价值也正在被发掘，网上有很多视频剪辑的软件，但是一些软件软太贵、破解又很麻烦。视频制作软件今天给大家介绍10款免费且好用的视频剪辑软件，让你的视…

小多多
杂谈 2021年12月13日
流式数据处理技术（流式细胞术结果分析）

背景流数据处理，同时提供与批处理对应物相比的诸如新鲜度和更顺畅的资源消耗的益处，历史上与不可靠且具有近似结果的缺点相关。然而，这些缺点不是流媒体数据处理本身的固有特征，而是如何实…

小多多
杂谈 2021年12月13日

发表回复

登录后才能评论

递归下降分析法（编译原理递归下降分析程序）

相关推荐

发表回复