先推薦一些編譯原理的材料:
- mooc上斯坦福的compilers課程
- 《形式語言與自動機導論》(An Introduction to Formal Languages and Automata)
- 《parsing techniques》
編譯原理這方面目前只學了遞歸下降和各類LL,嘗試做一個簡單編譯器(估計這坑填不完了...),感覺還是沒有backtracking的遞歸下降和SLL(1)最實用。這里大概總結(jié)一下遞歸下降。
最最最重要的是,什么文法能用?
- 首先肯定是CFG文法
- 對于一個合法的sentence,有且只有一個derivation tree與之對應,即只有一種parsing方法
- production rule右邊不能存在空串
- 不能出現(xiàn)left recursive的文法。left recursive的文法可以改寫成right-recursion
- 還有最容易忽略的prefix free,對于
T -> A | B
這樣的文法,A不能是B的前綴,B也不能是A的前綴。若有這樣的文法,可以使用left factoring來消除。
消除空串的方法可以看《形式語言與自動機導論》(An Introduction to Formal Languages and Automata)的第六章。
消除left recursive的一般方法如下:
對于如下文法 S -> S a | S b ... | A | B ...
都可以改成如下等價文法:
S -> A S' | B S' ...
S' -> a S' | b S' ...
非prefix free文法就要在parse的時候特殊處理了,這里自然是要backtracking了。
例如對于文法 S -> a | ab
parse函數(shù)在確認完a后,需要嘗試確認b,然后一直parse下去看看能不能成功,
如果不能成功parse整個sentence,就放棄這條路,使用S -> a來parse。
下面放遞歸下降的parse代碼。當然,實際寫的時候肯定沒那么簡潔,因為要處理錯誤的情況。
- E -> T
bool E() { return T(); }
- E -> A + B
bool E() { return A() && Term('+') && B(); }
// 其中Term(char c)確認當前指向的字符是否為參數(shù)c
- E -> A | B
bool E() {
Token * save = next;
return A() || ((next == save), B());
}