Parsing techniques 筆記(章二)

2.1 將一門語(yǔ)言看作一個(gè)無(wú)限大的集合

language是sentences的集合,sentence是tokens組成的序列。

sentences的語(yǔ)義由sentences的結(jié)構(gòu)和token決定。

語(yǔ)法:

靜態(tài)的規(guī)則可能描述不了某些語(yǔ)言,故將其作為語(yǔ)法可能會(huì)無(wú)能為力。

一系列確定的有限的description也不能完備描述所有語(yǔ)言。

證明:(對(duì)角線證明)

可以有序地枚舉所有description(無(wú)窮多)??梢杂行虻孛杜e由一個(gè)字母表產(chǎn)生的所有word(無(wú)窮多),令該枚舉列表為EnumList。則任何語(yǔ)言,其所用的所有word都在EnumList里面。對(duì)于某個(gè)在EnumList中的word,一個(gè)language可以有,也可以沒(méi)有。因此在不考慮語(yǔ)言的structure,僅考慮language所用的word,對(duì)于所有語(yǔ)言,都可以用一個(gè)無(wú)窮長(zhǎng)的二進(jìn)制向量表示,該向量的某一位的值表示,對(duì)于該位對(duì)應(yīng)EnumList中的單詞,該語(yǔ)言是否包含。

構(gòu)造這樣的表,它僅有兩列,第一列是所有的description,第二列是每個(gè)description對(duì)應(yīng)的language(有些description對(duì)應(yīng)多個(gè)language,這樣,僅僅選擇一個(gè)language作為其對(duì)應(yīng)項(xiàng))。列表形如下:

Description ? ? ? ? ? Language

Description #1 ? ? ?000000100· · ·

Description #2 ? ? ?110010001· · ·

Description #3 ? ? ?011011010· · ·

Description #4 ? ? ? 110011010· · ·

Description #5 ? ? ? 100000011· · ·

Description #6 ? ? ? ?111011011· · ·

. . . ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? . . .

構(gòu)造這樣的language,它具有這樣的特性:該language對(duì)應(yīng)二進(jìn)制向量的第n位的值與第n個(gè)description對(duì)應(yīng)的language的二進(jìn)制向量的第n位的值相反。這樣,該language的二進(jìn)制值就是language列組成的表中的對(duì)角線值再對(duì)每位取反。

這樣的話該language必不在language列組成的表中,因?yàn)樗豢赡苁堑谝恍?,因?yàn)樗谝晃桓谝恍胁灰粯?,更一般地,它不可能是第i行,因?yàn)樗趇位與第i行不一樣。所以它不可能存在于這個(gè)表中任何一行。因此,這個(gè)language不可能有與之對(duì)應(yīng)的description(這個(gè)description由有限由有限條規(guī)則組成)。

這里有個(gè)問(wèn)題,為什么所構(gòu)造的那個(gè)language用到的描述“該language對(duì)應(yīng)二進(jìn)制向量的第n位的值與第n個(gè)description對(duì)應(yīng)的language的二進(jìn)制向量的第n位的值相反”不在Description列里面??!

我沒(méi)有深究,似乎是由悖論引起的,豆瓣上的評(píng)論有提到,另外可以看看羅素悖論。

2.2 形式語(yǔ)法

若如下看待語(yǔ)言:由object組成。先有基本的object,然后有一套規(guī)則來(lái)在基本的object上構(gòu)造新的object。

則語(yǔ)言有一個(gè)四元組組成:(非終止object集合,終止object集合,規(guī)則,開始o(jì)bject)

非終止object集合 和 終止object集合 都是有限的symbol集合,且兩集合無(wú)交集。

規(guī)則是形如 X -> Y 的轉(zhuǎn)換規(guī)則,X和Y都必須是一串symbol,X不可為空串,Y可以(書中集合右上角星號(hào)是克萊尼星號(hào)

開始o(jì)bject必須是一個(gè)非終止object。

利用上述方法生成一個(gè)sentence的過(guò)程可以用一個(gè)無(wú)環(huán)有向圖表示。

第十六頁(yè)的:Amazingly, we have succeeded in implementing the notion “must replace” in a system that only uses “may replace”; looking more closely, we see that we have split “must replace” into “may replace” and “must not be a non-terminal”

還沒(méi)找到比phrase structure grammar更sufficient的語(yǔ)法描述方法。

2.3 The Chomsky Hierarchy of Grammars and Languages

type 0 grammar 是無(wú)任何限制的phrase structure grammars

type 1 grammar(上下文有關(guān)文法):兩種定義

(1)不存在這樣的規(guī)則,左邊的symbol數(shù)量比右邊的symbol數(shù)量多

(2)所有的規(guī)則都是上下文有關(guān),規(guī)則上下文有關(guān)就是sentence中只有一個(gè)非終結(jié)詞經(jīng)過(guò)規(guī)則變換后得到替代,且替代結(jié)果至少有一個(gè)symbol。

它的某個(gè)sentence的生成圖是有向無(wú)環(huán)圖

type 2 grammar(上下文無(wú)關(guān)文法):規(guī)則左邊只有一個(gè)symbol。

它的某個(gè)sentence的生成圖是樹。

二型文法中,某個(gè)symbol可以獨(dú)立作為一門language,因?yàn)槠渌黶ymbol對(duì)它的映射結(jié)果不影響。

type 3 grammar:左線性,右線性

type 4 grammar:規(guī)則右邊只能是終止的symbol

2.4 使用上述grammar生成sentences的算法

一個(gè)廣度優(yōu)先搜索算法

該算法可以用來(lái)證明某個(gè)grammar可以生成至少一個(gè)sentence,但不能證明不能。

并闡述了一個(gè)檢查2型文法是否生成至少一個(gè)sentence的算法

2.5 只有0型文法會(huì)生成空串

如果一個(gè)文法能生成空串,那么parsing會(huì)變得復(fù)雜

2.9 去除文法中無(wú)用的規(guī)則

type 2 grammar相較于0型和1型,容易找出文法中無(wú)用的規(guī)則。

type 2 grammar無(wú)用的規(guī)則包括如下問(wèn)題:

(1)包含未定義的非終結(jié)符號(hào) undefined non-terminals

(2)從開始symbol,不可能產(chǎn)生符合規(guī)則左邊的符號(hào)序列 unreachable non-terminals

(3)不能產(chǎn)生任何東西(無(wú)限遞歸)non-productive

一個(gè)閉包算法首先清除non-productive 和 undefined non-terminals的規(guī)則

另一個(gè)閉包算法清除unreachable non-terminals的規(guī)則

第二個(gè)閉包算法在清規(guī)則的時(shí)候不會(huì)讓一個(gè)non-terminal(設(shè)為N)編程undefined,因?yàn)镹是reachable的,因此它的所有定義(左邊是N的規(guī)則)都不會(huì)在這個(gè)閉包算法中被清掉。同樣的道理,第二個(gè)閉包算法也不會(huì)讓N編程non-productive

如果兩個(gè)閉包算法倒過(guò)來(lái)用,很可能會(huì)在第二次的時(shí)候生成unreachable non-terminals

2.11 語(yǔ)義與文法

某個(gè)sentence的語(yǔ)義與這個(gè)sentence的生成結(jié)構(gòu)圖(production tree)有關(guān)。

(1)attribute grammar(將語(yǔ)義作為attribute綁定到symbol上)

(2)transduction grammar(語(yǔ)義是sentence作為input string得到的output string的語(yǔ)義)

(3)Augmented Transition Networks(將actions綁定到生成結(jié)構(gòu)圖的結(jié)點(diǎn)上,語(yǔ)義就是遍歷結(jié)點(diǎn)時(shí)觸發(fā)的action)

2.12 各級(jí)文法的比較

More powerful grammars can define more complicated boundaries between correct and incorrect sentences. Some boundaries are so fine that they cannot be described by any grammar (that is, by any generative process).

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,362評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,577評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,486評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,852評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,600評(píng)論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,944評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,944評(píng)論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,108評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,652評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,385評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,616評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,111評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,798評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,205評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,537評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,334評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,570評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容

  • 抑郁癥,大家并不陌生,但是卻從來(lái)沒(méi)有引起人們的關(guān)注,直到不久前著名影星喬任梁因抑郁癥于上海去世,抑郁癥又才重新引起...
    肆無(wú)忌憚地笑閱讀 761評(píng)論 0 4
  • 把知識(shí)變成技術(shù),這也是弓醫(yī)生說(shuō)過(guò)的話。學(xué)到技術(shù),改變思維。
    freshriver閱讀 58評(píng)論 0 0
  • 一場(chǎng)收拾,重現(xiàn)了多年前的舊物,扔出去好多,撕掉好多,也有措不及防出現(xiàn)的。才明白,痛一直在,今天的種種,仍是不曾結(jié)束...
    摩卡冰閱讀 197評(píng)論 0 0
  • 這快要第二次,離第一次有一年了吧!
    天差地別閱讀 96評(píng)論 0 0
  • 楊絳先生在女兒與丈夫,相繼去世后,說(shuō),她還要留下來(lái)打掃戰(zhàn)場(chǎng),我不是很明白,為什么要稱之為戰(zhàn)場(chǎng)。直到沈小姐去世時(shí)...
    寂寥如煙花閱讀 220評(píng)論 0 2